局部連接+權值共享全連接神經(jīng)網(wǎng)絡需要非常多的計算資源才能支撐它來做反向傳播和前向傳播,所以說全連接神經(jīng)網(wǎng)絡可以存儲非常多的參數(shù),如果你給它的樣本如果沒有達到它的量級的時候,它可以輕輕松松把你給他的樣本全部都記下來,這會出現(xiàn)過擬合的情況。 所以我們應該把神經(jīng)元和神經(jīng)元之間的連接的權重個數(shù)降下來,但是降下來我們又不能保證它有較強的學習能力,所以這是一個糾結的地方,所以有一個方法就是局部連接+權值共享,局部連接+權值共享不僅權重參數(shù)降下來了,而且學習能力并沒有實質的降低,除此之外還有其它的好處,下來看一下,下面的這幾張圖片: 一個圖像的不同表示方式 這幾張圖片描述的都是一個東西,但是有的大有的小,有的靠左邊,有的靠右邊,有的位置不同,但是我們構建的網(wǎng)絡識別這些東西的時候應該是同一結果。為了能夠達到這個目的,我們可以讓圖片的不同位置具有相同的權重(權值共享),也就是上面所有的圖片,我們只需要在訓練集中放一張,我們的神經(jīng)網(wǎng)絡就可以識別出上面所有的,這也是權值共享的好處。 而卷積神經(jīng)網(wǎng)絡就是局部連接+權值共享的神經(jīng)網(wǎng)絡。 卷積神經(jīng)網(wǎng)絡現(xiàn)在我們對卷積神經(jīng)網(wǎng)絡有一個初步認識了,下面具體來講解一下卷積神經(jīng)網(wǎng)絡,卷積神經(jīng)網(wǎng)絡依舊是層級結構,但層的功能和形式做了改變,卷積神經(jīng)網(wǎng)絡常用來處理圖片數(shù)據(jù),比如識別一輛汽車: 卷積神經(jīng)網(wǎng)絡結構 其中數(shù)據(jù)輸入的是一張圖片(輸入層),CONV表示卷積層,RELU表示激勵層,POOL表示池化層,F(xiàn)c表示全連接層 卷積神經(jīng)網(wǎng)絡之輸入層在圖片輸出到神經(jīng)網(wǎng)絡之前,常常先進行圖像處理,有三種常見的圖像的處理方式:
均值化和歸一化 去相關和白化 卷神網(wǎng)絡之卷積層:圖片有一個性質叫做局部關聯(lián)性質,一個圖片的像素點影響最大的是它周邊的像素點,而距離這個像素點比較遠的像素點二者之間關系不大。這個性質意味著每一個神經(jīng)元我們不用處理全局的圖片了(和上一層全連接),我們的每一個神經(jīng)元只需要和上一層局部連接,相當于每一個神經(jīng)元掃描一小區(qū)域,然后許多神經(jīng)元(這些神經(jīng)元權值共享)合起來就相當于掃描了全局,這樣就構成一個特征圖,n個特征圖就提取了這個圖片的n維特征,每個特征圖是由很多神經(jīng)元來完成的。 在卷積神經(jīng)網(wǎng)絡中,我們先選擇一個局部區(qū)域(filter),用這個局部區(qū)域(filter)去掃描整張圖片。 局部區(qū)域所圈起來的所有節(jié)點會被連接到下一層的一個節(jié)點上。我們拿灰度圖(只有一維)來舉例: 局部區(qū)域 圖片是矩陣式的,將這些以矩陣排列的節(jié)點展成了向量。就能更好的看出來卷積層和輸入層之間的連接,并不是全連接的,我們將上圖中的紅色方框稱為filter,它是2*2的,這是它的尺寸,這不是固定的,我們可以指定它的尺寸。 我們可以看出來當前filter是2*2的小窗口,這個小窗口會將圖片矩陣從左上角滑到右下角,每滑一次就會一下子圈起來四個,連接到下一層的一個神經(jīng)元,然后產生四個權重,這四個權重(w1、w2、w3、w4)構成的矩陣就叫做卷積核。 卷積核是算法自己學習得到的,它會和上一層計算,比如,第二層的0節(jié)點的數(shù)值就是局部區(qū)域的線性組合(w1*0+w2*1+w3*4+w4*5),即被圈中節(jié)點的數(shù)值乘以對應的權重后相加。 卷積核計算 卷積操作 我們前面說過圖片不用向量表示是為了保留圖片平面結構的信息。 同樣的,卷積后的輸出若用上圖的向量排列方式則丟失了平面結構信息。 所以我們依然用矩陣的方式排列它們,就得到了下圖所展示的連接,每一個藍色結點連接四個黃色的結點。 卷積層的連接方式 圖片是一個矩陣然后卷積神經(jīng)網(wǎng)絡的下一層也是一個矩陣,我們用一個卷積核從圖片矩陣左上角到右下角滑動,每滑動一次,當然被圈起來的神經(jīng)元們就會連接下一層的一個神經(jīng)元,形成參數(shù)矩陣這個就是卷積核,每次滑動雖然圈起來的神經(jīng)元不同,連接下一層的神經(jīng)元也不同,但是產生的參數(shù)矩陣確是一樣的,這就是權值共享。 卷積核會和掃描的圖片的那個局部矩陣作用產生一個值,比如第一次的時候,(w1*0+w2*1+w3*4+w4*5),所以,filter從左上到右下的這個過程中會得到一個矩陣(這就是下一層也是一個矩陣的原因),具體過程如下所示: 卷積計算過程 上圖中左邊是圖矩陣,我們使用的filter的大小是3*3的,第一次滑動的時候,卷積核和圖片矩陣作用(1*1+1*0+1*1+0*0+1*1+1*0+0*1+0*0+1*1)=4,會產生一個值,這個值就是右邊矩陣的第一個值,filter滑動9次之后,會產生9個值,也就是說下一層有9個神經(jīng)元,這9個神經(jīng)元產生的值就構成了一個矩陣,這矩陣叫做特征圖,表示image的某一維度的特征,當然具體哪一維度可能并不知道,可能是這個圖像的顏色,也有可能是這個圖像的輪廓等等。 單通道圖片總結:以上就是單通道的圖片的卷積處理,圖片是一個矩陣,我們用指定大小的卷積核從左上角到右下角來滑動,每次滑動所圈起來的結點會和下一層的一個結點相連,連接之后就會形成局部連接,每一條連接都會產生權重,這些權重就是卷積核,所以每次滑動都會產生一個卷積核,因為權值共享,所以這些卷積核都是一樣的。卷積核會不斷和當時卷積核所圈起來的局部矩陣作用,每次產生的值就是下一層結點的值了,這樣多次產生的值組合起來就是一個特征圖,表示某一維度的特征。也就是從左上滑動到右下這一過程中會形成一個特征圖矩陣(共享一個卷積核),再從左上滑動到右下又會形成另一個特征圖矩陣(共享另一個卷積核),這些特征圖都是表示特征的某一維度。 三個通道的圖片如何進行卷積操作? 至此我們應該已經(jīng)知道了單通道的灰度圖是如何處理的,實際上我們的圖片都是RGB的圖像,有三個通道,那么此時圖像是如何卷積的呢? 彩色圖像 filter窗口滑的時候,我們只是從width和height的角度來滑動的,并沒有考慮depth,所以每滑動一次實際上是產生一個卷積核,共享這一個卷積核,而現(xiàn)在depth=3了,所以每滑動一次實際上產生了具有三個通道的卷積核(它們分別作用于輸入圖片的藍色、綠色、紅色通道),卷積核的一個通道核藍色的矩陣作用產生一個值,另一個和綠色的矩陣作用產生一個值,最后一個和紅色的矩陣作用產生一個值,然后這些值加起來就是下一層結點的值,結果也是一個矩陣,也就是一張?zhí)卣鲌D。 三通道的計算過程 要想有多張?zhí)卣鲌D的話,我們可以再用新的卷積核來進行左上到右下的滑動,這樣就會形成新的特征圖。 三通道圖片的卷積過程 也就是說增加一個卷積核,就會產生一個特征圖,總的來說就是輸入圖片有多少通道,我們的卷積核就需要對應多少通道,而本層中卷積核有多少個,就會產生多少個特征圖。這樣卷積后輸出可以作為新的輸入送入另一個卷積層中處理,有幾個特征圖那么depth就是幾,那么下一層的每一個特征圖就得用相應的通道的卷積核來對應處理,這個邏輯要清楚,我們需要先了解一下基本的概念:
卷積計算的公式 4x4的圖片在邊緣Zero padding一圈后,再用3x3的filter卷積后,得到的Feature Map尺寸依然是4x4不變。 填充 當然也可以使用5x5的filte和2的zero padding可以保持圖片的原始尺寸,3x3的filter考慮到了像素與其距離為1以內的所有其他像素的關系,而5x5則是考慮像素與其距離為2以內的所有其他像素的關系。 規(guī)律: Feature Map的尺寸等于 (input_size + 2 * padding_size ? filter_size)/stride+1 我們可以把卷積層的作用總結一點:卷積層其實就是在提取特征,卷積層中最重要的是卷積核(訓練出來的),不同的卷積核可以探測特定的形狀、顏色、對比度等,然后特征圖保持了抓取后的空間結構,所以不同卷積核對應的特征圖表示某一維度的特征,具體什么特征可能我們并不知道。特征圖作為輸入再被卷積的話,可以則可以由此探測到'更大'的形狀概念,也就是說隨著卷積神經(jīng)網(wǎng)絡層數(shù)的增加,特征提取的越來越具體化。 卷積神經(jīng)網(wǎng)絡之激勵層下面講解激勵層的作用,激勵層的作用可以理解為把卷積層的結果做非線性映射。 激勵層 上圖中的f表示激勵函數(shù),常用的激勵函數(shù)幾下幾種: 常用的激勵函數(shù) 我們先來看一下激勵函數(shù)Sigmoid導數(shù)最小為0,最大為1/4, 激勵函數(shù)Sigmoid Tanh激活函數(shù):和sigmoid相似,它會關于x軸上下對應,不至于朝某一方面偏向 Tanh激活函數(shù) ReLU激活函數(shù)(修正線性單元):收斂快,求梯度快,但較脆弱,左邊的梯度為0 ReLU激活函數(shù) Leaky ReLU激活函數(shù):不會飽和或者掛掉,計算也很快,但是計算量比較大 Leaky ReLU激活函數(shù) 一些激勵函數(shù)的使用技巧:一般不要用sigmoid,首先試RELU,因為快,但要小心點,如果RELU失效,請用Leaky ReLU,某些情況下tanh倒是有不錯的結果。 這就是卷積神經(jīng)網(wǎng)絡的激勵層,它就是將卷積層的線性計算的結果進行了非線性映射。可以從下面的圖中理解。它展示的是將非線性操作應用到一個特征圖中。這里的輸出特征圖也可以看作是'修正'過的特征圖。如下所示: 非線性操作 卷積神經(jīng)網(wǎng)絡之池化層池化層:降低了各個特征圖的維度,但可以保持大分重要的信息。池化層夾在連續(xù)的卷積層中間,壓縮數(shù)據(jù)和參數(shù)的量,減小過擬合,池化層并沒有參數(shù),它只不過是把上層給它的結果做了一個下采樣(數(shù)據(jù)壓縮)。下采樣有兩種常用的方式: Max pooling:選取最大的,我們定義一個空間鄰域(比如,2x2 的窗口),并從窗口內的修正特征圖中取出最大的元素,最大池化被證明效果更好一些。 Average pooling:平均的,我們定義一個空間鄰域(比如,2x2 的窗口),并從窗口內的修正特征圖算出平均值 Max pooling 我們要注意一點的是:pooling在不同的depth上是分開執(zhí)行的,也就是depth=5的話,pooling進行5次,產生5個池化后的矩陣,池化不需要參數(shù)控制。池化操作是分開應用到各個特征圖的,我們可以從五個輸入圖中得到五個輸出圖。 池化操作 無論是max pool還是average pool都有分信息被舍棄,那么部分信息被舍棄后會損壞識別結果嗎? 因為卷積后的Feature Map中有對于識別物體不必要的冗余信息,我們下采樣就是為了去掉這些冗余信息,所以并不會損壞識別結果。 我們來看一下卷積之后的冗余信息是怎么產生的? 我們知道卷積核就是為了找到特定維度的信息,比如說某個形狀,但是圖像中并不會任何地方都出現(xiàn)這個形狀,但卷積核在卷積過程中沒有出現(xiàn)特定形狀的圖片位置卷積也會產生一個值,但是這個值的意義就不是很大了,所以我們使用池化層的作用,將這個值去掉的話,自然也不會損害識別結果了。 比如下圖中,假如卷積核探測'橫折'這個形狀。 卷積后得到3x3的Feature Map中,真正有用的就是數(shù)字為3的那個節(jié)點,其余數(shù)值對于這個任務而言都是無關的。 所以用3x3的Max pooling后,并沒有對'橫折'的探測產生影響。 試想在這里例子中如果不使用Max pooling,而讓網(wǎng)絡自己去學習。 網(wǎng)絡也會去學習與Max pooling近似效果的權重。因為是近似效果,增加了更多的參數(shù)的代價,卻還不如直接進行最大池化處理。 最大池化處理 卷積神經(jīng)網(wǎng)絡之全連接層在全連接層中所有神經(jīng)元都有權重連接,通常全連接層在卷積神經(jīng)網(wǎng)絡尾部。當前面卷積層抓取到足以用來識別圖片的特征后,接下來的就是如何進行分類。 通常卷積網(wǎng)絡的最后會將末端得到的長方體平攤成一個長長的向量,并送入全連接層配合輸出層進行分類。比如,在下面圖中我們進行的圖像分類為四分類問題,所以卷積神經(jīng)網(wǎng)絡的輸出層就會有四個神經(jīng)元。 四分類問題 我們從卷積神經(jīng)網(wǎng)絡的輸入層、卷積層、激活層、池化層以及全連接層來講解卷積神經(jīng)網(wǎng)絡,我們可以認為全連接層之間的在做特征提取,而全連接層在做分類,這就是卷積神經(jīng)網(wǎng)絡的核心。 |
|