乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      深度學習中的激活函數總結

       當以讀書通世事 2019-04-12

      從定義來講,只要連續(xù)可導的函數都可以作為激活函數,但目前常見的多是分段線性和具有指數形狀的非線性函數。

      Sigmoid

      深度學習中的激活函數總結

      特點:

      - 輸出范圍0-1,很符合人的主觀意識,即神經元對感知的也是從不激活(0)到完全激活(1)。

      - 單調連續(xù)

      - 容易求導,導數為$f(x)(1-f(x))$,用自己就可以表示自己的導數。

      缺陷:

      - 具有軟飽和性(左軟飽和性指x趨近于負無窮,導數趨近于0,右飽和性指x趨近于正無窮,導數趨近于0),在輸出值較大較小時,網絡很難更新,因為BP算法是更具梯度來進行的,這也是所謂的梯度消失問題。

      - 輸出不是以0為中心,而是0.5。但是相對于前一條缺陷,影響沒那么大。

      Tanh

      深度學習中的激活函數總結

      特點:

      - 收斂速度比sigmoid函數快,原因是:tanh 的輸出均值比 sigmoid 更接近 0,SGD會更接近natural gradient(一種二次優(yōu)化技術),從而降低所需的迭代次數。

      缺陷:

      - 依然存在軟飽和性。

      ReLU

      深度學習中的激活函數總結

      當時AlexNet提出的激活函數,非常優(yōu)秀,很長一段時間是我們設計CNN網絡的默認激活函數。

      特點:

      - 當輸入為正數時,輸出導數恒為1,緩解了梯度消失的問題。

      - 為網絡帶來稀疏性,當輸入值小于0,就會被稀疏掉,人的大腦稀疏性高達95%。

      - 不管是正向計算,還是導數計算都非常簡單。

      缺點:

      - 左硬飽和性,當輸入小于零時,導數恒為0,會使很多神經元無法得到更新,出現“神經元死亡”。

      - relu函數輸出無負值。

      - 均值漂移,relu函數的輸出均值恒大于0(從relu函數的輸出范圍就能看出來)。

      Leaky ReLU

      公式:$f(x) = max(\alpha\*x,x)$

      特點:

      - 為了解決relu中“神經元死亡”的問題,leaky relu給小于零的輸入一個非常小的梯度。

      缺點:

      - 公式中的 $\alpha$ 是一個很小的值,一般取0.01,首先這就是個超參數,另外也有文獻指出它的性能很不穩(wěn)定,有時候比relu好,有時候差,可想而知,不太靠譜。

      PReLU

      公式和Leaky ReLU一樣,只不過它的 $\alpha$ 參數是可學習的。

      特點:

      - 收斂速度比relu快。

      - 輸出均值更接近0。

      缺點:

      - 目前還不清楚,只能說表現還不穩(wěn)定,不夠“通用”,其作者何凱明在他的ResNet也沒使用,而是使用的ReLU。

      RReLU

      和PReLU類似,只不過它這里的 $\alpha$ 參數是一個高斯分布上的隨機值,在測試時固定。

      ELU

      深度學習中的激活函數總結

      特點:

      - 較高的噪聲魯棒性。

      - 輸出均值在0附近。

      缺點:

      - 存在指數運算,運算量較大。

      SELU

      牛逼的地方是提出該方法的論文后面有長達93頁的論證。

      公式:$f(x)=\lambda*ELU(x)$

      特點:

      - 新增的參數 $\lambda$ 大于1,所以在正半軸,函數的導數是大于1的。

      - 激活函數有一個不動點,網絡深了以后每一層的輸出都會向正態(tài)分布靠攏,美其名曰自歸一化。

      缺點:

      - selu的證明部分前提是權重服從正態(tài)分布,但是這個假設在實際中并不能一定成立,比如鐘形分布?(不太懂)

      - 眾多實驗發(fā)現效果并不比relu好。

      CReLU

      深度學習中的激活函數總結

      公式:$CReLU(x)=[ReLU(x),ReLU(-x)]$

      作者發(fā)現在網絡的淺層卷積核更傾向于捕捉正負相位的信息,而ReLU會將負相位的信息歸0,所以才有了CReLU操作。

      特點:

      - 輸出通道數翻倍,相當于利用對稱的關系,將負相位的信息人為恢復出來。

      缺點:

      - 到底在哪些層使用,太依賴調試了。

      Maxout

      公式:$max(w_1^Tx+b_1,w_2^Tx+b_2,...,w_n^Tx+b_n)$

      它是ReLU的推廣,其發(fā)生飽和是一個零測集事件(不懂什么意思...),具有一個參數k。

      特點:

      - maxout可以擬合任意的凸函數。

      - 具備relu的所有優(yōu)點。

      - 不會出現神經元死亡。

      缺點:

      - ([不錯的解釋](https://blog.csdn.net/hjimce/article/details/50414467))參數量巨大(以k倍增加),因為之前我們每個神經元只需要一組權重和偏置,現在不是了,我們添加了冗余的k組權重和偏置,讓輸入均經過這些權重和偏置計算,只保留激活值最大的輸出。

      Swish

      深度學習中的激活函數總結

      公式:$f(x) = x\*sigmoid(\beta*x)$,其中 $\beta$ 參數可以是常數也可以是訓練的。

      特點:

      - 無上界有下界、平滑、非單調。

      - Swish函數可以看做是介于線性函數與ReLU函數之間的平滑函數。

      - 論文給出的實驗,各種數據集上,各種網絡,都比relu性能好(并且在深層網絡上優(yōu)勢更大)。

      缺點:

      - 只有實驗證明,沒有理論支持。

      - 在淺層網絡上,性能與relu差別不大。

        本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
        轉藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多