作者丨許志欽、張耀宇 學(xué)校丨紐約大學(xué)阿布扎比分校博士后、紐約大學(xué)庫朗研究所訪問學(xué)者 研究方向丨計算神經(jīng)科學(xué)、深度學(xué)習(xí)理論 近些年來,隨著深度學(xué)習(xí)在眾多實際應(yīng)用中取得成功,在越來越多的科學(xué)領(lǐng)域內(nèi),研究人員開始嘗試?yán)蒙疃葘W(xué)習(xí)來解決各自領(lǐng)域的傳統(tǒng)難題。和深度學(xué)習(xí)已獲得成功的問題(比如圖像分類)相比,許多科學(xué)領(lǐng)域內(nèi)的問題往往有完全不同的特性。 因此,理解深度學(xué)習(xí)的適用性,即其能做什么尤其是不能做什么,是一個極為重要的問題。比如設(shè)計算法的時候,它可以幫助我們考慮是完全用深度學(xué)習(xí)來代替?zhèn)鹘y(tǒng)算法,還是僅在這個問題中的某些步驟用深度學(xué)習(xí)。 為了探討這個問題,我們首先來看下面這個例子。在下面兩組圖中,左組中的每張圖和右組有什么差別呢? 答案是左組的每張圖中黑塊數(shù)都是奇數(shù),而右組都是偶數(shù)。這種按奇偶區(qū)分的函數(shù)數(shù)學(xué)上叫做 parity function:。其函數(shù)值由“-1”的個數(shù)決定,如果為偶數(shù),結(jié)果為 1,否則為 -1。 對于該函數(shù),如果取所有可能映射的一個子集進(jìn)行訓(xùn)練,深度神經(jīng)網(wǎng)絡(luò)能夠很好地擬合訓(xùn)練數(shù)據(jù),但對那些未見過的測試數(shù)據(jù),深度學(xué)習(xí)幾乎沒有預(yù)測(泛化)能力。而對于人來說,只要能從訓(xùn)練數(shù)據(jù)集中學(xué)到數(shù)“-1”個數(shù)這個規(guī)則,就很容易對未見過的數(shù)據(jù)進(jìn)行準(zhǔn)確分類。 對于很多問題,如圖像識別,深度學(xué)習(xí)通常能取得較好的效果(泛化能力)。為了敘述方便,我們將這些深度學(xué)習(xí)能處理好的問題稱為第一類問題,同時將深度學(xué)習(xí)處理不好(難以泛化)的問題稱為第二類問題。 那么這兩類問題有什么本質(zhì)差別呢?深度學(xué)習(xí)模型為什么對這兩類問題有截然相反的效果? 目前為止,大部分實驗研究和理論研究集中于研究為什么深度學(xué)習(xí)能取得好的效果(泛化能力)。少部分的研究開始關(guān)注哪些問題深度學(xué)習(xí)難以處理。 在我們的研究中,我們希望能找到一個統(tǒng)一的機(jī)制,可以同時解釋深度學(xué)習(xí)在兩類問題中不同的效果。我們發(fā)現(xiàn)的機(jī)制可以用一句話概括:深度學(xué)習(xí)傾向于優(yōu)先使用低頻來擬合目標(biāo)函數(shù)。我們將這個機(jī)制稱為 F-Principle(頻率原則)。 我們先用一個簡單的例子來理解 F-Principle。用一個深度神經(jīng)網(wǎng)絡(luò)(DNN)去擬合如下的紅色實線函數(shù)。訓(xùn)練完后,該曲線能被深度網(wǎng)絡(luò)(藍(lán)色點)很好地擬合。 我們感興趣的是 DNN 的訓(xùn)練過程。如下圖動畫所示(紅色為目標(biāo)函數(shù)的 FT(傅里葉變換),藍(lán)色為網(wǎng)絡(luò)輸出的 FT,每一幀表示一個訓(xùn)練步,橫坐標(biāo)是頻率,縱坐標(biāo)是振幅),我們發(fā)現(xiàn),在訓(xùn)練過程中,DNN 表示的函數(shù)的演化在頻域空間有一個清晰的規(guī)律,即頻率從低到高依次收斂。 對于真實數(shù)據(jù),如 MNIST 和 CIFAR10,對于不同的網(wǎng)絡(luò)結(jié)構(gòu),如全連接和卷積神經(jīng)網(wǎng)絡(luò)(CNN),對于不同的激活函數(shù),如 tanh 和 ReLU,我們都可以觀察到 F-Principle(如下圖所示)。 ▲ 左邊:數(shù)據(jù)集/DNN的Fourier變換在一個特定高維頻率方向的變化曲線,右圖:左圖中黑色頻率點處的相對誤差與訓(xùn)練步數(shù)的關(guān)系,紅色表示相對誤差小。第一行是MNIST數(shù)據(jù)集的結(jié)果,使用全連接tanh網(wǎng)絡(luò)。第二行是CIFAR10數(shù)據(jù)集的結(jié)果,使用ReLU-CNN網(wǎng)絡(luò)。 接下來,我們可以用 F-Principle 來理解為什么 DNN 在上述兩類問題的處理中有巨大的差異。從頻譜的角度,我們發(fā)現(xiàn) MNIST 和 CIFAR10 數(shù)據(jù)集都有低頻占優(yōu)的特性。實驗結(jié)果顯示,全數(shù)據(jù)集(包含訓(xùn)練集和測試集)在頻域空間與測試數(shù)據(jù)集在低頻部分吻合地很好,如下圖展示 MNIST 的情況。 parity 函數(shù)則不同,它是高頻占優(yōu)的。 由于 aliasing 效應(yīng),相比真實的頻譜,訓(xùn)練集的頻譜在低頻處有顯著的虛假成分(見上圖)。下圖展示了一個 aliasing 的例子。 因此,對于我們舉的例子,這兩類問題在 Fourier 空間可以看到本質(zhì)的差別。前者低頻占優(yōu),后者高頻占優(yōu)。在訓(xùn)練過程中,基于 F-Principle 低頻優(yōu)先的機(jī)制,DNN 會傾向于用一個低頻成分較多的函數(shù)去擬合訓(xùn)練數(shù)據(jù)。 對于 MNIST 和 CIFAR10,一方面由于高頻成分較小,aliasing 帶來的虛假低頻微不足道,另一方面由于 DNN 訓(xùn)練中低頻優(yōu)先的傾向與目標(biāo)函數(shù)本身的低頻占優(yōu)的特性相一致,所以 DNN 能準(zhǔn)確抓取目標(biāo)函數(shù)的關(guān)鍵成分(下圖藍(lán)色為 DNN 學(xué)習(xí)到的函數(shù)在全數(shù)據(jù)集上的傅里葉變換在一個特定高維頻率方向的曲線),從而擁有良好的泛化能力。 而對于 parity 函數(shù),由于高頻成分極為顯著,aliasing 帶來的虛假低頻很嚴(yán)重,同時 F-principle 低頻優(yōu)先的傾向與目標(biāo)函數(shù)本身高頻占優(yōu)的特性不匹配,所以 DNN 最終輸出函數(shù)相比于目標(biāo)函數(shù)低頻顯著偏大而高頻顯著偏小。顯然,這種顯著的差異會導(dǎo)致較差的泛化能力。 ▲ 紅色:訓(xùn)練數(shù)據(jù)集的傅里葉變換;綠色:全數(shù)據(jù)集的傅里葉變換;藍(lán)色:網(wǎng)絡(luò)輸出在全數(shù)據(jù)集輸入點的傅里葉變換 我們利用 F-Principle 對深度學(xué)習(xí)能做什么與不能做什么做了初步的探索,理解了具有低頻優(yōu)先特性的深度學(xué)習(xí)對于具有不同頻譜特性的問題的適用性。如果目標(biāo)函數(shù)具有低頻占優(yōu)的特性,那么深度學(xué)習(xí)比較容易取很好的效果,反之則不然。 進(jìn)一步,我們可以利用深度學(xué)習(xí)這一特性更好地處理具體問題中的低頻成分。比如傳統(tǒng)算法(如 Jacobi 迭代)在解 Poisson 方程時,一般低頻收斂慢,而高頻收斂快。我們將在下一篇文章中介紹如何利用 F-Principle 機(jī)制設(shè)計基于 DNN 的 Poisson 方程求解方法。 參考文獻(xiàn)Xu, Zhi-Qin John, Zhang, Yaoyu, Luo, Tao, Xiao, Yanyang & Ma, Zheng (2019), ‘Frequency principle: Fourier analysis sheds light on deep neural networks’, arXiv preprint arXiv:1901.06523 . |
|