乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      從傅里葉分析角度解讀深度學(xué)習(xí)的泛化能力

       LibraryPKU 2018-08-24


      作者丨許志欽

      學(xué)校丨紐約大學(xué)阿布扎比分校博士后,紐約大學(xué)庫(kù)朗研究所訪(fǎng)問(wèn)學(xué)者

      研究方向丨計(jì)算神經(jīng)科學(xué),深度學(xué)習(xí)理論


      深度學(xué)習(xí)成功地應(yīng)用在很多領(lǐng)域,但對(duì)它的理論理解卻非常缺乏。這兩年,很多理論學(xué)家把關(guān)注點(diǎn)放在一個(gè)關(guān)于深度學(xué)習(xí)與傳統(tǒng)學(xué)習(xí)理論的悖論上。在傳統(tǒng)學(xué)習(xí)理論中,模型的參數(shù)越多,模型一般會(huì)更好地?cái)M合訓(xùn)練數(shù)據(jù),但模型的泛化能力(擬合測(cè)試數(shù)據(jù)集的能力)會(huì)變差。在深度學(xué)習(xí)中,參數(shù)的數(shù)目比訓(xùn)練數(shù)據(jù)集要大得多,但深度網(wǎng)絡(luò)(DNN)卻通常既能擬合好訓(xùn)練數(shù)據(jù),又保持良好的泛化能力。這個(gè)違反直覺(jué)的現(xiàn)象被大家稱(chēng)為“明顯悖論” (apparent paradox)。


      頻率原則(F-Principle)


      最近有幾篇文章 [1,2,3] 從傅里葉分析的角度,在實(shí)驗(yàn)和理論上揭示了該悖論背后的一種機(jī)制。


       文獻(xiàn)1


       文獻(xiàn)2


       文獻(xiàn)3


      一般來(lái)說(shuō),在深度學(xué)習(xí)中,大家用來(lái)測(cè)試結(jié)論的例子或者是手寫(xiě)數(shù)字集(MNIST),或者是圖像分類(lèi)集(CIFAR)。這兩類(lèi)數(shù)據(jù)集相對(duì)實(shí)際應(yīng)用的數(shù)據(jù)集確實(shí)已經(jīng)足夠簡(jiǎn)單,但在分析上,它們?nèi)允欠浅?fù)雜的,因?yàn)樗鼈兊妮斎刖S度仍然非常高(像素點(diǎn)的個(gè)數(shù))。


      我們可以從擬合一維函數(shù)出發(fā)考慮這個(gè)問(wèn)題。訓(xùn)練數(shù)據(jù)集是少數(shù)幾個(gè)均勻采樣數(shù)據(jù)點(diǎn),如果用多項(xiàng)式去擬合,階數(shù)很高的時(shí)候(大于數(shù)據(jù)點(diǎn)個(gè)數(shù)),擬合的結(jié)果通常是一個(gè)能夠精確刻畫(huà)訓(xùn)練數(shù)據(jù)但振蕩厲害的函數(shù)。但如果用 DNN,無(wú)論多大規(guī)模,通常學(xué)習(xí)到的曲線(xiàn)都是相對(duì)平坦的。因?yàn)槭且痪S函數(shù),所以很容易想到,振蕩和平坦可用傅里葉分析定量地刻畫(huà)。于是就自然能猜想到,DNN 在學(xué)習(xí)的時(shí)候可能更加偏愛(ài)低頻成分。


      下面是一個(gè)一維函數(shù)的例子 [1](圖 1a 中的黑點(diǎn)),對(duì)數(shù)據(jù)作離散傅里葉變換后如圖 1b 所示,考慮圖 1b 中的頻率峰值(黑點(diǎn))在訓(xùn)練中的相對(duì)誤差,如圖 1c,頻率越高,收斂越慢(藍(lán)色表示相對(duì)誤差大,紅色表示相對(duì)誤差小)。頻率原則可以粗糙地表述成:DNN 在擬合目標(biāo)函數(shù)的過(guò)程中,有從低頻到高頻的先后順序。(Frequency Principle or F-Principle in [1], or spectral bias in [2]


       圖1


      F-Principle 并不是一個(gè)陌生的概念,而是我們?nèi)粘I钪薪?jīng)常都在用的一個(gè)原則。想象一下,如果讓一個(gè)人去記住一個(gè)沒(méi)見(jiàn)過(guò)的東西,一般比較粗糙的輪廓信息會(huì)先被記住,然后再是很多細(xì)節(jié)。沒(méi)錯(cuò),DNN 也正是使用了這樣的一個(gè)學(xué)習(xí)過(guò)程。舉一個(gè)例子,我們來(lái)訓(xùn)練一個(gè) DNN 來(lái)記住一張圖片。DNN 的輸入是一個(gè)位置坐標(biāo) (x,y),我們希望它輸出這個(gè)位置對(duì)應(yīng)的灰度值。圖 2 的一系列圖展示了不同訓(xùn)練步數(shù),DNN 學(xué)習(xí)到的圖像,正如我們前面所猜測(cè)的從粗糙的輪廓到細(xì)節(jié)的學(xué)習(xí)過(guò)程。


       圖2


      經(jīng)驗(yàn)上理解深度學(xué)習(xí)的泛化能力


      一般來(lái)說(shuō),“平坦”簡(jiǎn)單的函數(shù)會(huì)比振蕩復(fù)雜的函數(shù)有更好的泛化能力。DNN 從目標(biāo)函數(shù)的低頻成分開(kāi)始學(xué)習(xí)。當(dāng)它學(xué)到訓(xùn)練數(shù)據(jù)的最高頻率的時(shí)候,此時(shí)頻率空間誤差趨近于零。因?yàn)轭l率空間的誤差等于實(shí)域空間的誤差,所以它的學(xué)習(xí)也基本停止了。這樣深度學(xué)習(xí)學(xué)到的函數(shù)的最高頻率能夠被訓(xùn)練數(shù)據(jù)給限制住。對(duì)于小的初始化,激活函數(shù)的光滑性很高,高頻成分衰減很快,從而使學(xué)習(xí)到的函數(shù)有更好的泛化能力。


      對(duì)于低頻占優(yōu)的目標(biāo)函數(shù),小幅度的高頻成分很容易受到噪音的影響?;陬l率原則,提前停止訓(xùn)練(early-stopping)就能在實(shí)踐中提高 DNN 的泛化能力。


      理論上理解深度學(xué)習(xí)的泛化能力


      從低頻到高頻的學(xué)習(xí)原則并不總是對(duì)的,比如在文獻(xiàn) [1] 中討論到的,如果目標(biāo)函數(shù)是隨機(jī)數(shù)據(jù)點(diǎn)(頻率空間沒(méi)有低頻占優(yōu)的特性),或者 DNN 的參數(shù)的初始化的值比較大,這個(gè)原則就會(huì)失效。特別是在大初始化的情況下,DNN 的泛化能力也會(huì)變差。


      文獻(xiàn) [2] 對(duì) DNN 學(xué)習(xí)到的函數(shù)的頻率幅度的估計(jì)并不能解釋這些現(xiàn)象。特別地,對(duì)于層數(shù)和神經(jīng)元數(shù)目足夠多的 DNN,文獻(xiàn) [2] 給出的理論不能解釋為什么 DNN 從低頻開(kāi)始學(xué)習(xí)。在文獻(xiàn) [2] 中,DNN 的擬合函數(shù)的高頻成分受權(quán)重(weights)的譜范數(shù)(spectral norm)控制。對(duì)于小規(guī)模的DNN,可以經(jīng)常觀察到,權(quán)重的范數(shù)隨訓(xùn)練而增長(zhǎng),從而允許小規(guī)模的 DNN 去擬合目標(biāo)函數(shù)中的高頻成分。因此,文獻(xiàn) [2] 在理論上給出頻率原則的一種可能解釋。


      但如文獻(xiàn) [3] 的一個(gè)例子所示(下圖,圖 3a 為目標(biāo)函數(shù),圖 3b 為其離散傅里葉變換),對(duì)于層數(shù)和神經(jīng)元數(shù)目足夠多的 DNN,權(quán)重的譜范數(shù)(圖 3c)基本不變。但如圖 3d 所示的頻率成分的相對(duì)誤差,四個(gè)重要的頻率峰值(圖 3b 的黑點(diǎn))仍然是從低頻開(kāi)始收斂。對(duì)于這種情況,文獻(xiàn) [2] 對(duì) DNN 的擬合函數(shù)的高頻成分的上限估計(jì)在訓(xùn)練過(guò)程中基本不變,從而不能看出低頻到高頻學(xué)習(xí)的頻率原則。


       圖3. 說(shuō)明:(d) 展示 (b) 中四個(gè)頻率峰值在訓(xùn)練中的相對(duì)誤差


      文獻(xiàn) [3] 給出了能夠解釋這些問(wèn)題的理論框架。從只有一層隱藏層的 DNN(sigmoid 作為激活函數(shù))開(kāi)始,在傅里葉空間分析梯度下降算法,文獻(xiàn) [3] 得到損失函數(shù) ω 在任一頻率分量上對(duì)任一參數(shù)的導(dǎo)數(shù)。



      其中,對(duì)應(yīng)神經(jīng)元的權(quán)重(weight),是關(guān)于對(duì)應(yīng)神經(jīng)元所有參數(shù)和頻率 ω 的一個(gè)多項(xiàng)式,A(ω) 是學(xué)習(xí)到的函數(shù)與目標(biāo)函數(shù)的差的幅度。文獻(xiàn) [3] 論述了這個(gè)表達(dá)式如何定性的推廣到一般 DNN。


      上面這個(gè)式子顯示地定量地說(shuō)明了在梯度下降過(guò)程中低頻成分會(huì)有更高的優(yōu)先級(jí)。但同時(shí)需要注意的是,這個(gè)優(yōu)先級(jí)不只是由頻率決定,它也依賴(lài)于擬合函數(shù)與目標(biāo)函數(shù)的差的幅度。


      這個(gè)理論分析揭示了對(duì)于低頻占優(yōu)的目標(biāo)函數(shù),當(dāng) DNN 的參數(shù)是很小的數(shù)時(shí),低頻成分會(huì)先收斂,并且在低頻成分收斂的時(shí)候,DNN 的高頻成分仍然很小。而當(dāng) DNN 擬合高頻成分的時(shí)候,已經(jīng)收斂的低頻成分只會(huì)受到很小的干擾。對(duì)高頻占優(yōu)的函數(shù),整個(gè)訓(xùn)練過(guò)程就會(huì)變得復(fù)雜。低頻容易受到高頻的影響,所以低頻是振蕩式的收斂,每振蕩一次,偏離的最大幅度就會(huì)下降。并且頻率越低,振蕩越頻繁(如下圖 4 所示)。


       圖4


      對(duì)于初始化的問(wèn)題,這個(gè)理論框架也給出了解釋。如果初始化權(quán)重很大,由于上式中的很大,低頻不再占優(yōu),所以頻率原則就很容易失效。并且,激活函數(shù)的高頻成分也會(huì)變大。對(duì)于那些頻率高到訓(xùn)練數(shù)據(jù)也看不到的成分,因?yàn)橛?xùn)練過(guò)程不能限制它們,所以在訓(xùn)練完成后,它們?nèi)匀挥斜容^大的幅度而導(dǎo)致 DNN 的泛化能力變差。


      總結(jié)


      傅里葉分析的理論框架非常好地解釋了 DNN 為什么在擁有大量參數(shù)的情況下既能學(xué)好訓(xùn)練數(shù)據(jù),又能保持好的泛化能力,簡(jiǎn)單地說(shuō),由于頻率原則,DNN 學(xué)習(xí)到的函數(shù)的頻率范圍是根據(jù)訓(xùn)練數(shù)據(jù)的需要而達(dá)到。對(duì)于那些比訓(xùn)練數(shù)據(jù)的最高頻率還高的頻率成分,DNN 能保持它們幅度很小。


      用傅里葉分析的角度來(lái)研究 DNN 的學(xué)習(xí)問(wèn)題仍處于開(kāi)始的階段,有很多有趣的問(wèn)題值得繼續(xù)深入,比如更加定量地分析 DNN 的學(xué)習(xí)過(guò)程,理解層數(shù)和每層寬度對(duì)訓(xùn)練的不同貢獻(xiàn)等等。


      致謝:感謝張耀宇對(duì)本文初稿的校正和修改。


      參考文獻(xiàn)


      [1]. Zhi-Qin J. Xu, Yaoyu Zhang, Yanyang Xiao. Training behavior of deep neural network in frequency domain, arXiv preprint arXiv: 1807.01251. (May 18, 2018 submitted to NIPS, first submitted to arXiv on Jul 3, 2018) 

      [2]. Nasim Rahaman, Devansh Arpit, Aristide Baratin, Felix Draxler, Min Lin, Fred A. Hamprecht, Yoshua Bengio, Aaron Courville. On the spectral bias of deep neural networks, arXiv preprint arXiv:1806.08734. (First submitted to arXiv Jun 22, 2018) 

      [3]. Zhi-Qin J. Xu. Understanding training and generalization in deep learning by Fourier analysis, arXiv preprint arXiv: 1808.04295. (First submitted to arXiv on Aug 14, 2018)


        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶(hù) 評(píng)論公約

        類(lèi)似文章 更多