目標(biāo)檢測算法總結(jié)

印度阿三17 2019-04-18

展開全文

目前主流的目標(biāo)檢測算法分為兩大類（兩階段檢測和一階段檢測）

兩階段檢測：第一步：生成可能包含物體的候選區(qū)域（專業(yè)術(shù)語：Region Proposal）第二步：對候選區(qū)域做進一步分類和校準(zhǔn)，得到最終的檢測結(jié)果。代表：R-CNN，SPPNet，F(xiàn)ast R-CNN， Faster R-CNN

一階段檢測：直接給出最終的結(jié)果，沒有顯示地生成候選區(qū)域的步驟。代表： Yolo， SSD

下面詳細介紹這幾種算法的原理：

R-CNN:

第一步：先通過Selective Search算法生成候選區(qū)域（Proposal），這個算法的思想是：認為可能存在物體的區(qū)域應(yīng)該是有某種相似性或連續(xù)性的區(qū)域。所以，它首先是用分割算法在圖像上生成很多小的區(qū)域，這些區(qū)域為最基礎(chǔ)的子區(qū)域，然后根據(jù)這些區(qū)域之間的相似性進行區(qū)域合并，衡量相似性的標(biāo)準(zhǔn)可以是顏色，紋理和大小等。不斷疊加這種小區(qū)域，直到全部合并到一塊，然后給每個區(qū)域做一個外切的矩形，就得到了許許多多的可能是物體的區(qū)域方框。候選區(qū)域搞定好，找了一張圖，感受一下這個算法的執(zhí)行

簡要說明，左邊是根據(jù)分割算法生成小的候選區(qū)域，接著往上合并（相似度高）。反應(yīng)到圖中，就是中間那個圖。

第二步：強行將這些圖形放大到一個尺寸，因為在卷積網(wǎng)絡(luò)之后，我們要對圖片進行分類，R-CNN采用的是多個SVM進行分類。所以對于卷積網(wǎng)絡(luò)，我們必須要求輸出的向量維度一樣，這樣SVM才可以分類，為了保證輸出維度一樣，那你就必須保證卷積網(wǎng)絡(luò)的輸入的圖片大小一致。所以這就是我們強行放大的原因。

第三步：將圖片送進卷積網(wǎng)絡(luò)，后面還必須有個全連接層。。輸入一個高維向量，我們在通過SVM進行物體的分類，這樣就檢測出物體，并會預(yù)測出這個物體屬于這個類型的概率。。

第四步：檢測出以后，必須畫框，我們第一步已經(jīng)有了邊框，這里直接畫出就行了？不行，因為你的框可能不夠好，我們還要根據(jù)訓(xùn)練數(shù)據(jù)中標(biāo)記的框去校正第一步生成的框。。見下圖：（網(wǎng)上隨便找的）

假設(shè)紅色框使我們標(biāo)記的框，而藍色框使我們Selective Search生成的寬，我們還需根據(jù)紅框去校正藍色框。。具體校正方法：不就是回歸那四個點嘛。。讓他們對應(yīng)點的歐式距離減小。。

SPPNet：

為什么會提出SSPNet，我們的R-CNN有什么不好的？其實，在R-CNN中，為了讓所有候選區(qū)域生成一個維度相等的向量，對候選區(qū)域進行了強行放縮，這樣會破壞圖像的比例關(guān)系，對特征的提取不利，而且，這個放縮還是相當(dāng)耗時的，R-CNN論文中顯示生成候選區(qū)域和放縮的時間大概都在兩秒。所以，SPPnet就在這里進行了優(yōu)化。

SPPNet采用了空間金字塔池化。怎么做的呢？在R-CNN中對候選區(qū)域進行縮放，而在SPPNet中不對圖片進行縮放，直接送進卷積，然后將卷積網(wǎng)絡(luò)中最后的幾個全連接層去掉，采用空間金字塔池化，什么是空間金字塔池化？見下圖

從下往上看，黑色的東西就是最后一次卷積完輸出的東西，厚度很厚，我們先找一個4x4的網(wǎng)格蓋在每張?zhí)卣鲌D上，那么總共有十六個格子，每個格子中的像素肯定有多個，我們選其最大的像素，組成一個向量，然后，再找一個2x2的網(wǎng)格蓋在特征圖上，選出對應(yīng)格子中的最大像素，最后用1x1的格子（也就是找出每張?zhí)卣鲌D中的最大像素值）。

舉個例子：假設(shè)最后一個卷積卷完后，生成的是（高度不定） x（寬度不定）x 256。。為什么不確定？因為我們給卷積網(wǎng)絡(luò)喂的候選區(qū)域大小不同，那他輸出肯定也就不同，但厚度肯定是相同的。厚度跟卷積核個數(shù)有關(guān)。。那我們開始計算：①：先通過4x4的網(wǎng)格，則生成的就是16x256 = 4096維向量。②：接著用2x2的網(wǎng)格，生成的就是4x256=1024維向量。③：最后通過1x1的網(wǎng)格，生成的是256維向量。接著將這三步生成的向量拼接起來，那就是4096 1024 256 = 5376維向量。很顯然，不同大小的圖片，我們卻得到了相同大小的向量，這就是空間金字塔池化的優(yōu)點。。

最后，用這些向量進行分類，然后再校正這些框。和R-CNN一樣，主要是空間金字塔池化。。

Fast R-CNN：

善于思考的同學(xué)應(yīng)該發(fā)現(xiàn)了一個問題，那就是為什么要將候選區(qū)域逐個送進網(wǎng)絡(luò)？我們可以直接將整張圖送進卷積網(wǎng)絡(luò)中，然后再找出當(dāng)初候選區(qū)域?qū)?yīng)的邊界，這樣速度就會有質(zhì)的提升。因為每張圖片在卷積網(wǎng)絡(luò)中運算的時間是很長的。這就是Fast R-CNN的一個改進，同時，它還汲取了SPPnet中空間金字塔池化的優(yōu)點，還有一個最重要的改進，就是引入了多任務(wù)的學(xué)習(xí)，在卷積網(wǎng)絡(luò)出來一個，接了兩個輸出，一個搞圖片的分類，一個搞邊框的回歸。結(jié)構(gòu)見下圖：

這里多啰嗦一句：候選區(qū)域?qū)?yīng)卷積出來的那個區(qū)域，我們通常把那個區(qū)域成為ROI （region of interest 感興趣的區(qū)域）

Faster R-CNN：

Fast R-CNN 依然還有一個耗時操作，那就是候選框的生成（依然采用的是Selective Search算法），faster-RCNN創(chuàng)造性的提出了RPN（region proposal network），在卷積神經(jīng)網(wǎng)絡(luò)之后加入RPN，作為分支網(wǎng)絡(luò)，可以實現(xiàn)候選框的提取。從而實現(xiàn)了將候選框提取這一環(huán)節(jié)合并到深度網(wǎng)絡(luò)中。RPN的提出也是faster-RCNN最大創(chuàng)新點。