最近在學(xué)習(xí)cs231n課程和之前自學(xué)習(xí)的內(nèi)容有了理解上的偏差,現(xiàn)在記錄有點(diǎn)理解在此。 對(duì)于之前知識(shí)需要了解的,請(qǐng)先看 本章第二部分(或者觀看cs231n前五章).
CNN權(quán)重矩陣和特征圖理解
特征是什么
隱層輸出作為特征,權(quán)重矩陣或者叫隱藏權(quán)重,只是一個(gè)特征提取(映射)方法,對(duì)于不同的輸入是固定的,特征對(duì)應(yīng)于特定輸入。
什么叫特征?就是對(duì)某種事物的一種表示。一個(gè)簡(jiǎn)單的例子,一個(gè)點(diǎn),在歐氏坐標(biāo)里表示為(x,y),這就是在歐氏空間的特征,在極坐標(biāo)中表示為(r,θ),這就是在極坐標(biāo)中的特征。我們通過(guò)一個(gè)公式,可以將歐氏坐標(biāo)映射為極坐標(biāo),這個(gè)映射參數(shù)就可以看成隱藏層參數(shù),而映射后的值就是提取的新的特征。
(這里是作為 特征映射、空間轉(zhuǎn)換的例子;CNN中 W也是作為一種映射,不同的W來(lái)提取 映射到達(dá)的某些特殊的空間結(jié)構(gòu) 。所以CNN是學(xué)到了一些與空間結(jié)構(gòu)有關(guān)的信息用于識(shí)別。)
權(quán)重訓(xùn)練完就固定了,對(duì)于不同輸入都一樣,所以不可能是從數(shù)據(jù)中提取的特征。
權(quán)重矩陣\濾波器理解
 這20幅圖像分別對(duì)應(yīng)20個(gè)不同的特征映射(filters, kernels)。每個(gè)特征映射由5X5的圖像表示,代表局部感知域中的5X5個(gè)權(quán)重。亮的像素點(diǎn)代表小的權(quán)重,與之對(duì)應(yīng)的圖像中的像素產(chǎn)生的影響較小。暗的像素點(diǎn)代表大的權(quán)重,意味著對(duì)應(yīng)的圖像中的像素的影響較大??煽闯鲞@些特征映射反應(yīng)了某些特殊的空間結(jié)構(gòu),因此CNN學(xué)習(xí)到了一些與空間結(jié)構(gòu)有關(guān)的信息用于識(shí)別。
特征圖\輸出值理解
特征圖:網(wǎng)絡(luò)中學(xué)習(xí)和調(diào)節(jié)的確實(shí)是一些參數(shù)、但是參數(shù)只是一個(gè)映射;最終需要的是隱藏層輸出的特征圖(FeatureMap);
輸出值:CNN不斷學(xué)習(xí)更新卷積核,卷積核更新了,學(xué)習(xí)到的特征也就被更新了(Map數(shù)值也就改變了);對(duì)分類(lèi)問(wèn)題而言,目的就是:對(duì)圖像提取特征,再以合適的特征來(lái)判斷它所屬的類(lèi)別。類(lèi)似這種概念:你有哪些個(gè) 子的特征,我就根據(jù)這些特征,把你劃分到某個(gè)類(lèi)別去。所以一般最后都會(huì)加一個(gè)FC層(或者GAP)進(jìn)行分類(lèi)輸出值(化為對(duì)應(yīng)的概率值)。
總結(jié)
其實(shí)不需要糾結(jié),大家明上說(shuō)的調(diào)參、學(xué)習(xí)權(quán)重,在CNN這里就很好理解了。卷積神經(jīng)網(wǎng)絡(luò)的一整套流程就是:更新卷積核參數(shù)(weights),就相當(dāng)于是一直在更新所提取到的圖像特征,以得到可以把圖像正確分類(lèi)的最合適的特征們。(一句話:更新weights以得到可以把圖像正確分類(lèi)的特征。)
在這里引用cs231n的PPT,說(shuō)明一下幾個(gè)理解重點(diǎn)。方便之后回憶查看。 二來(lái)是,上方理解不透徹的情況下,可以先順一遍 本章“基礎(chǔ)知識(shí)”;再進(jìn)行 “權(quán)重矩陣和特征值\輸出值理解”
基礎(chǔ)知識(shí)
從線性分類(lèi)器說(shuō)起
這里直接把貓的圖片拉直(作為x的輸入 沒(méi)有考慮局部的特征情況)。w 像是多個(gè)輸入channel(這里三類(lèi) 三個(gè)channel)的線性濾波器,進(jìn)行了 平滑映射。

視覺(jué)角度——輸出值為 分類(lèi)感知的特征 
代數(shù)、視覺(jué)、幾何角度的理解:線性分類(lèi)器y=wx 的輸出特征.(分類(lèi)器) 
最終評(píng)分矩陣W為——特征映射。
損失函數(shù)
SoftMax概率分布的交叉熵?fù)p失函數(shù)進(jìn)行分類(lèi)

線性SVM和Softmax損失函數(shù)對(duì)比:
優(yōu)化
梯度下降法
- BGD (批量梯度下降法)
- SGD Stochastic Gradient Descent (隨機(jī)梯度下降法)
- Mini-Batch GD(小批量 梯度下降法)
后向傳播算法
重點(diǎn)掌握:反向的鏈?zhǔn)角髮?dǎo)法則——這個(gè)在普通NN、CNN、RNN等都會(huì)用到!來(lái)進(jìn)行梯度計(jì)算!
神經(jīng)網(wǎng)絡(luò)-非線性映射
起源:SVM的線性分類(lèi)機(jī),無(wú)法處理\不好處理 非線性的分類(lèi)關(guān)系。人們開(kāi)始研究:
-
特征轉(zhuǎn)換\映射(Feature Transformation)  以上希望將特征直接轉(zhuǎn)換為另一個(gè)特征映射。使用顏色數(shù)值、方向梯度直方圖——使其線性可分。 -
特征提?。‵eature Extraction) 1)直接用CNN進(jìn)行特征提取,使用多種卷積核——提取局部的特征;并進(jìn)行高維的組合映射——以期 提取更為積極的分類(lèi)特征(一方面通過(guò)不斷訓(xùn)練得來(lái)、另一方面 CNN極強(qiáng)的先驗(yàn)條件,使得CNN對(duì)于圖片 特征的提取,先天就有自然地積極地效果 。)  2)另外一點(diǎn),CNN加入了非線性特征(激活函數(shù),否則 只是單純的深層線性組合),可以解決異或問(wèn)題(XOR Problem)——使得神經(jīng)網(wǎng)絡(luò),原則(理論)上可以擬合任何函數(shù),進(jìn)行特征提取或分類(lèi)。  3)反向傳播鏈?zhǔn)角髮?dǎo)法則: 從右到左:使用 上游的梯度 *當(dāng)前梯度 =當(dāng)前反向傳播處的梯度值  
|