乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      Mask R

       昵稱65326455 2019-07-15

      論文鏈接:論文鏈接

      論文代碼:Facebook代碼鏈接;Tensorflow版本代碼鏈接; Keras and TensorFlow版本代碼鏈接;MxNet版本代碼鏈接

       

      一、Mask R-CNN是什么,可以做哪些任務(wù)?

      圖1 Mask R-CNN整體架構(gòu)

      Mask R-CNN是一個(gè)實(shí)例分割(Instance segmentation)算法,可以用來做“目標(biāo)檢測(cè)”、“目標(biāo)實(shí)例分割”、“目標(biāo)關(guān)鍵點(diǎn)檢測(cè)”。

      1. 實(shí)例分割(Instance segmentation)和語(yǔ)義分割(Semantic segmentation)的區(qū)別與聯(lián)系

      聯(lián)系:語(yǔ)義分割和實(shí)例分割都是目標(biāo)分割中的兩個(gè)小的領(lǐng)域,都是用來對(duì)輸入的圖片做分割處理;

      區(qū)別:

      圖2 實(shí)例分割與語(yǔ)義分割區(qū)別

      1.  通常意義上的目標(biāo)分割指的是語(yǔ)義分割,語(yǔ)義分割已經(jīng)有很長(zhǎng)的發(fā)展歷史,已經(jīng)取得了很好地進(jìn)展,目前有很多的學(xué)者在做這方面的研究;然而實(shí)例分割是一個(gè)從目標(biāo)分割領(lǐng)域獨(dú)立出來的一個(gè)小領(lǐng)域,是最近幾年才發(fā)展起來的,與前者相比,后者更加復(fù)雜,當(dāng)前研究的學(xué)者也比較少,是一個(gè)有研究空間的熱門領(lǐng)域,如圖1所示,這是一個(gè)正在探索中的領(lǐng)域;

      圖3 實(shí)例分割與語(yǔ)義分割區(qū)別

      2.  觀察圖3中的c和d圖,c圖是對(duì)a圖進(jìn)行語(yǔ)義分割的結(jié)果,d圖是對(duì)a圖進(jìn)行實(shí)例分割的結(jié)果。兩者最大的區(qū)別就是圖中的"cube對(duì)象",在語(yǔ)義分割中給了它們相同的顏色,而在實(shí)例分割中卻給了不同的顏色。即實(shí)例分割需要在語(yǔ)義分割的基礎(chǔ)上對(duì)同類物體進(jìn)行更精細(xì)的分割。

      注:很多博客中都沒有完全理解清楚這個(gè)問題,很多人將這個(gè)算法看做語(yǔ)義分割,其實(shí)它是一個(gè)實(shí)例分割算法。

      2. Mask R-CNN可以完成的任務(wù)

      圖4 Mask R-CNN進(jìn)行目標(biāo)檢測(cè)與實(shí)例分割

      圖5 Mask R-CNN進(jìn)行人體姿態(tài)識(shí)別

      總之,Mask R-CNN是一個(gè)非常靈活的框架,可以增加不同的分支完成不同的任務(wù),可以完成目標(biāo)分類、目標(biāo)檢測(cè)、語(yǔ)義分割、實(shí)例分割、人體姿勢(shì)識(shí)別等多種任務(wù),真不愧是一個(gè)好算法!

      3. Mask R-CNN預(yù)期達(dá)到的目標(biāo)

      • 高速
      • 高準(zhǔn)確率(高的分類準(zhǔn)確率、高的檢測(cè)準(zhǔn)確率、高的實(shí)例分割準(zhǔn)確率等)
      • 簡(jiǎn)單直觀
      • 易于使用

      4. 如何實(shí)現(xiàn)這些目標(biāo)

      高速和高準(zhǔn)確率:為了實(shí)現(xiàn)這個(gè)目的,作者選用了經(jīng)典的目標(biāo)檢測(cè)算法Faster-rcnn和經(jīng)典的語(yǔ)義分割算法FCN。Faster-rcnn可以既快又準(zhǔn)的完成目標(biāo)檢測(cè)的功能;FCN可以精準(zhǔn)的完成語(yǔ)義分割的功能,這兩個(gè)算法都是對(duì)應(yīng)領(lǐng)域中的經(jīng)典之作。Mask R-CNN比Faster-rcnn復(fù)雜,但是最終仍然可以達(dá)到5fps的速度,這和原始的Faster-rcnn的速度相當(dāng)。由于發(fā)現(xiàn)了ROI Pooling中所存在的像素偏差問題,提出了對(duì)應(yīng)的ROIAlign策略,加上FCN精準(zhǔn)的像素MASK,使得其可以獲得高準(zhǔn)確率。

      簡(jiǎn)單直觀:整個(gè)Mask R-CNN算法的思路很簡(jiǎn)單,就是在原始Faster-rcnn算法的基礎(chǔ)上面增加了FCN來產(chǎn)生對(duì)應(yīng)的MASK分支。即Faster-rcnn + FCN,更細(xì)致的是 RPN + ROIAlign + Fast-rcnn + FCN。

      易于使用:整個(gè)Mask R-CNN算法非常的靈活,可以用來完成多種任務(wù),包括目標(biāo)分類、目標(biāo)檢測(cè)、語(yǔ)義分割、實(shí)例分割、人體姿態(tài)識(shí)別等多個(gè)任務(wù),這將其易于使用的特點(diǎn)展現(xiàn)的淋漓盡致。我很少見到有哪個(gè)算法有這么好的擴(kuò)展性和易用性,值得我們學(xué)習(xí)和借鑒。除此之外,我們可以更換不同的backbone architecture和Head Architecture來獲得不同性能的結(jié)果。
       

      二、Mask R-CNN框架解析

      圖6 Mask R-CNN算法框架

      1. Mask R-CNN算法步驟

      • 首先,輸入一幅你想處理的圖片,然后進(jìn)行對(duì)應(yīng)的預(yù)處理操作,或者預(yù)處理后的圖片;
      • 然后,將其輸入到一個(gè)預(yù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中(ResNeXt等)獲得對(duì)應(yīng)的feature map;
      • 接著,對(duì)這個(gè)feature map中的每一點(diǎn)設(shè)定預(yù)定個(gè)的ROI,從而獲得多個(gè)候選ROI;
      • 接著,將這些候選的ROI送入RPN網(wǎng)絡(luò)進(jìn)行二值分類(前景或背景)和BB回歸,過濾掉一部分候選的ROI;
      • 接著,對(duì)這些剩下的ROI進(jìn)行ROIAlign操作(即先將原圖和feature map的pixel對(duì)應(yīng)起來,然后將feature map和固定的feature對(duì)應(yīng)起來);
      • 最后,對(duì)這些ROI進(jìn)行分類(N類別分類)、BB回歸和MASK生成(在每一個(gè)ROI里面進(jìn)行FCN操作)。

      2. Mask R-CNN架構(gòu)分解

      在這里,我將Mask R-CNN分解為如下的3個(gè)模塊,F(xiàn)aster-rcnn、ROIAlign和FCN。然后分別對(duì)這3個(gè)模塊進(jìn)行講解,這也是該算法的核心

      3. Faster-rcnn(該算法請(qǐng)參考該鏈接,我進(jìn)行了詳細(xì)的分析)

      4. FCN

      圖7 FCN網(wǎng)絡(luò)架構(gòu)

      FCN算法是一個(gè)經(jīng)典的語(yǔ)義分割算法,可以對(duì)圖片中的目標(biāo)進(jìn)行準(zhǔn)確的分割。其總體架構(gòu)如上圖所示,它是一個(gè)端到端的網(wǎng)絡(luò),主要的??彀ň矸e和去卷積,即先對(duì)圖像進(jìn)行卷積和池化,使其feature map的大小不斷減?。蝗缓筮M(jìn)行反卷積操作,即進(jìn)行插值操作,不斷的增大其feature map,最后對(duì)每一個(gè)像素值進(jìn)行分類。從而實(shí)現(xiàn)對(duì)輸入圖像的準(zhǔn)確分割。具體的細(xì)節(jié)請(qǐng)參考該鏈接。

      5. ROIPooling和ROIAlign的分析與比較

      圖8 ROIPooling和ROIAlign的比較

       

       

      如圖8所示,ROI Pooling和ROIAlign最大的區(qū)別是:前者使用了兩次量化操作,而后者并沒有采用量化操作,使用了線性插值算法,具體的解釋如下所示。

       

       

      圖9 ROI Pooling技術(shù)

      如圖9所示,為了得到固定大?。?X7)的feature map,我們需要做兩次量化操作:1)圖像坐標(biāo) — feature map坐標(biāo),2)feature map坐標(biāo) — ROI feature坐標(biāo)。我們來說一下具體的細(xì)節(jié),如圖我們輸入的是一張800x800的圖像,在圖像中有兩個(gè)目標(biāo)(貓和狗),狗的BB大小為665x665,經(jīng)過VGG16網(wǎng)絡(luò)后,我們可以獲得對(duì)應(yīng)的feature map,如果我們對(duì)卷積層進(jìn)行Padding操作,我們的圖片經(jīng)過卷積層后保持原來的大小,但是由于池化層的存在,我們最終獲得feature map 會(huì)比原圖縮小一定的比例,這和Pooling層的個(gè)數(shù)和大小有關(guān)。在該VGG16中,我們使用了5個(gè)池化操作,每個(gè)池化操作都是2Pooling,因此我們最終獲得feature map的大小為800/32 x 800/32 = 25x25(是整數(shù)),但是將狗的BB對(duì)應(yīng)到feature map上面,我們得到的結(jié)果是665/32 x 665/32 = 20.78 x 20.78,結(jié)果是浮點(diǎn)數(shù),含有小數(shù),但是我們的像素值可沒有小數(shù),那么作者就對(duì)其進(jìn)行了量化操作(即取整操作),即其結(jié)果變?yōu)?0 x 20,在這里引入了第一次的量化誤差;然而我們的feature map中有不同大小的ROI,但是我們后面的網(wǎng)絡(luò)卻要求我們有固定的輸入,因此,我們需要將不同大小的ROI轉(zhuǎn)化為固定的ROI feature,在這里使用的是7x7的ROI feature,那么我們需要將20 x 20的ROI映射成7 x 7的ROI feature,其結(jié)果是 20 /7 x 20/7 = 2.86 x 2.86,同樣是浮點(diǎn)數(shù),含有小數(shù)點(diǎn),我們采取同樣的操作對(duì)其進(jìn)行取整吧,在這里引入了第二次量化誤差。其實(shí),這里引入的誤差會(huì)導(dǎo)致圖像中的像素和特征中的像素的偏差,即將feature空間的ROI對(duì)應(yīng)到原圖上面會(huì)出現(xiàn)很大的偏差。原因如下:比如用我們第二次引入的誤差來分析,本來是2,86,我們將其量化為2,這期間引入了0.86的誤差,看起來是一個(gè)很小的誤差呀,但是你要記得這是在feature空間,我們的feature空間和圖像空間是有比例關(guān)系的,在這里是1:32,那么對(duì)應(yīng)到原圖上面的差距就是0.86 x 32 = 27.52。這個(gè)差距不小吧,這還是僅僅考慮了第二次的量化誤差。這會(huì)大大影響整個(gè)檢測(cè)算法的性能,因此是一個(gè)嚴(yán)重的問題。好的,應(yīng)該解釋清楚了吧,好累!

      圖10 ROIAlign技術(shù)

      如圖10所示,為了得到為了得到固定大?。?X7)的feature map,ROIAlign技術(shù)并沒有使用量化操作,即我們不想引入量化誤差,比如665 / 32 = 20.78,我們就用20.78,不用什么20來替代它,比如20.78 / 7 = 2.97,我們就用2.97,而不用2來代替它。這就是ROIAlign的初衷。那么我們?nèi)绾翁幚磉@些浮點(diǎn)數(shù)呢,我們的解決思路是使用“雙線性插值”算法。雙線性插值是一種比較好的圖像縮放算法,它充分的利用了原圖中虛擬點(diǎn)(比如20.56這個(gè)浮點(diǎn)數(shù),像素位置都是整數(shù)值,沒有浮點(diǎn)值)四周的四個(gè)真實(shí)存在的像素值來共同決定目標(biāo)圖中的一個(gè)像素值,即可以將20.56這個(gè)虛擬的位置點(diǎn)對(duì)應(yīng)的像素值估計(jì)出來。厲害哈。如圖11所示,藍(lán)色的虛線框表示卷積后獲得的feature map,黑色實(shí)線框表示ROI feature,最后需要輸出的大小是2x2,那么我們就利用雙線性插值來估計(jì)這些藍(lán)點(diǎn)(虛擬坐標(biāo)點(diǎn),又稱雙線性插值的網(wǎng)格點(diǎn))處所對(duì)應(yīng)的像素值,最后得到相應(yīng)的輸出。這些藍(lán)點(diǎn)是2x2Cell中的隨機(jī)采樣的普通點(diǎn),作者指出,這些采樣點(diǎn)的個(gè)數(shù)和位置不會(huì)對(duì)性能產(chǎn)生很大的影響,你也可以用其它的方法獲得。然后在每一個(gè)橘紅色的區(qū)域里面進(jìn)行max pooling或者average pooling操作,獲得最終2x2的輸出結(jié)果。我們的整個(gè)過程中沒有用到量化操作,沒有引入誤差,即原圖中的像素和feature map中的像素是完全對(duì)齊的,沒有偏差,這不僅會(huì)提高檢測(cè)的精度,同時(shí)也會(huì)有利于實(shí)例分割。這么細(xì)心,做科研就應(yīng)該關(guān)注細(xì)節(jié),細(xì)節(jié)決定成敗。

      we propose an RoIAlign layer that removes the harsh quantization of RoIPool, properly aligning the extracted features with the input. Our proposed change is simple: we avoid any quantization of the RoI boundaries or bins (i.e., we use x=16 instead of [x=16]). We use bilinear interpolation [22] to compute the exact values of the input features at four regularly sampled locations in each RoI bin, and aggregate the result (using max or average), see Figure 3 for details. We note that the results are not sensitive to the exact sampling locations, or how many points are sampled, as long as no quantization is performed。

      圖11 雙線性插值

      6. LOSS計(jì)算與分析

      由于增加了mask分支,每個(gè)ROI的Loss函數(shù)如下所示:

      其中Lcls和Lbox和Faster r-cnn中定義的相同。對(duì)于每一個(gè)ROI,mask分支有Km*m維度的輸出,其對(duì)K個(gè)大小為m*m的mask進(jìn)行編碼,每一個(gè)mask有K個(gè)類別。我們使用了per-pixel sigmoid,并且將Lmask定義為the average binary cross-entropy loss 。對(duì)應(yīng)一個(gè)屬于GT中的第k類的ROI,Lmask僅僅在第k個(gè)mask上面有定義(其它的k-1個(gè)mask輸出對(duì)整個(gè)Loss沒有貢獻(xiàn))。我們定義的Lmask允許網(wǎng)絡(luò)為每一類生成一個(gè)mask,而不用和其它類進(jìn)行競(jìng)爭(zhēng);我們依賴于分類分支所預(yù)測(cè)的類別標(biāo)簽來選擇輸出的mask。這樣將分類和mask生成分解開來。這與利用FCN進(jìn)行語(yǔ)義分割的有所不同,它通常使用一個(gè)per-pixel sigmoid和一個(gè)multinomial cross-entropy loss ,在這種情況下mask之間存在競(jìng)爭(zhēng)關(guān)系;而由于我們使用了一個(gè)per-pixel sigmoid 和一個(gè)binary loss ,不同的mask之間不存在競(jìng)爭(zhēng)關(guān)系。經(jīng)驗(yàn)表明,這可以提高實(shí)例分割的效果。

      一個(gè)mask對(duì)一個(gè)目標(biāo)的輸入空間布局進(jìn)行編碼,與類別標(biāo)簽和BB偏置不同,它們通常需要通過FC層而導(dǎo)致其以短向量的形式輸出。我們可以通過由卷積提供的像素和像素的對(duì)應(yīng)關(guān)系來獲得mask的空間結(jié)構(gòu)信息。具體的來說,我們使用FCN從每一個(gè)ROI中預(yù)測(cè)出一個(gè)m*m大小的mask,這使得mask分支中的每個(gè)層能夠明確的保持m×m空間布局,而不將其折疊成缺少空間維度的向量表示。和以前用fc層做mask預(yù)測(cè)的方法不同的是,我們的實(shí)驗(yàn)表明我們的mask表示需要更少的參數(shù),而且更加準(zhǔn)確。這些像素到像素的行為需要我們的ROI特征,而我們的ROI特征通常是比較小的feature map,其已經(jīng)進(jìn)行了對(duì)其操作,為了一致的較好的保持明確的單像素空間對(duì)應(yīng)關(guān)系,我們提出了ROIAlign操作。

       

      三、Mask R-CNN細(xì)節(jié)分析

      1. Head Architecture

       

      圖12 Head Architecture

      如上圖所示,為了產(chǎn)生對(duì)應(yīng)的Mask,文中提出了兩種架構(gòu),即左邊的Faster R-CNN/ResNet和右邊的Faster R-CNN/FPN。對(duì)于左邊的架構(gòu),我們的backbone使用的是預(yù)訓(xùn)練好的ResNet,使用了ResNet倒數(shù)第4層的網(wǎng)絡(luò)。輸入的ROI首先獲得7x7x1024的ROI feature,然后將其升維到2048個(gè)通道(這里修改了原始的ResNet網(wǎng)絡(luò)架構(gòu)),然后有兩個(gè)分支,上面的分支負(fù)責(zé)分類和回歸,下面的分支負(fù)責(zé)生成對(duì)應(yīng)的mask。由于前面進(jìn)行了多次卷積和池化,減小了對(duì)應(yīng)的分辨率,mask分支開始利用反卷積進(jìn)行分辨率的提升,同時(shí)減少通道的個(gè)數(shù),變?yōu)?4x14x256,最后輸出了14x14x80的mask模板。而右邊使用到的backbone是FPN網(wǎng)絡(luò),這是一個(gè)新的網(wǎng)絡(luò),通過輸入單一尺度的圖片,最后可以對(duì)應(yīng)的特征金字塔,如果想要了解它的細(xì)節(jié),請(qǐng)參考該鏈接。得到證實(shí)的是,該網(wǎng)絡(luò)可以在一定程度上面提高檢測(cè)的精度,當(dāng)前很多的方法都用到了它。由于FPN網(wǎng)絡(luò)已經(jīng)包含了res5,可以更加高效的使用特征,因此這里使用了較少的filters。該架構(gòu)也分為兩個(gè)分支,作用于前者相同,但是分類分支和mask分支和前者相比有很大的區(qū)別。可能是因?yàn)镕PN網(wǎng)絡(luò)可以在不同尺度的特征上面獲得許多有用信息,因此分類時(shí)使用了更少的濾波器。而mask分支中進(jìn)行了多次卷積操作,首先將ROI變化為14x14x256的feature,然后進(jìn)行了5次相同的操作(不清楚這里的原理,期待著你的解釋),然后進(jìn)行反卷積操作,最后輸出28x28x80的mask。即輸出了更大的mask,與前者相比可以獲得更細(xì)致的mask。

      圖13 BB輸出的mask結(jié)果

      如上圖所示,圖像中紅色的BB表示檢測(cè)到的目標(biāo),我們可以用肉眼可以觀察到檢測(cè)結(jié)果并不是很好,即整個(gè)BB稍微偏右,左邊的一部分像素并沒有包括在BB之內(nèi),但是右邊顯示的最終結(jié)果卻很完美。

      2. Equivariance in Mask R-CNN
      Equivariance 指隨著輸入的變化輸出也會(huì)發(fā)生變化。
       

      圖14 Equivariance 1

      即全卷積特征(Faster R-CNN網(wǎng)絡(luò))和圖像的變換具有同變形,即隨著圖像的變換,全卷積的特征也會(huì)發(fā)生對(duì)應(yīng)的變化;

      圖15 Equivariance2

      在ROI上面的全卷積操作(FCN網(wǎng)絡(luò))和在ROI中的變換具有同變性;

      圖16 Equivariance3

       

      ROIAlign操作保持了ROI變換前后的同變性;

      圖17 ROI中的全卷積

      圖18 ROIAlign的尺度同變性

      圖19 Mask R-CNN中的同變性總結(jié)

      3. 算法實(shí)現(xiàn)細(xì)節(jié)

      圖20 算法實(shí)現(xiàn)細(xì)節(jié)

      觀察上圖,我們可以得到以下的信息:

      • Mask R-CNN中的超參數(shù)都是用了Faster r-cnn中的值,機(jī)智,省時(shí)省力,效果還好,別人已經(jīng)替你調(diào)節(jié)過啦,哈哈哈;
      • 使用到的預(yù)訓(xùn)練網(wǎng)絡(luò)包括ResNet50、ResNet101、FPN,都是一些性能很好地網(wǎng)絡(luò),尤其是FPN,后面會(huì)有分析;
      • 對(duì)于過大的圖片,它會(huì)將其裁剪成800x800大小,圖像太大的話會(huì)大大的增加計(jì)算量的;
      • 利用8個(gè)GPU同時(shí)訓(xùn)練,開始的學(xué)習(xí)率是0.01,經(jīng)過18k次將其衰減為0.001,ResNet50-FPN網(wǎng)絡(luò)訓(xùn)練了32小時(shí),ResNet101-FPN訓(xùn)練了44小時(shí);
      • 在Nvidia Tesla M40 GPU上面的測(cè)試時(shí)間是195ms/張;
      • 使用了MS COCO數(shù)據(jù)集,將120k的數(shù)據(jù)集劃分為80k的訓(xùn)練集、35k的驗(yàn)證集和5k的測(cè)試集;

       

      四、性能比較

       

      1. 定量結(jié)果分析

      表1 ROI Pool和ROIAlign性能比較

      由前面的分析,我們就可以定性的得到一個(gè)結(jié)論,ROIAlign會(huì)使得目標(biāo)檢測(cè)的效果有很大的性能提升。根據(jù)上表,我們進(jìn)行定量的分析,結(jié)果表明,ROIAlign使得mask的AP值提升了10.5個(gè)百分點(diǎn),使得box的AP值提升了9.5個(gè)百分點(diǎn)。

      表2 Multinomial和Binary loss比較

      根據(jù)上表的分析,我們知道Mask R-CNN利用兩個(gè)分支將分類和mask生成解耦出來,然后利用Binary Loss代替Multinomial Loss,使得不同類別的mask之間消除了競(jìng)爭(zhēng)。依賴于分類分支所預(yù)測(cè)的類別標(biāo)簽來選擇輸出對(duì)應(yīng)的mask。使得mask分支不需要進(jìn)行重新的分類工作,使得性能得到了提升。

      表3 MLP與FCN mask性能比較

      如上表所示,MLP即利用FC來生成對(duì)應(yīng)的mask,而FCN利用Conv來生成對(duì)應(yīng)的mask,僅僅從參數(shù)量上來講,后者比前者少了很多,這樣不僅會(huì)節(jié)約大量的內(nèi)存空間,同時(shí)會(huì)加速整個(gè)訓(xùn)練過程(因此需要進(jìn)行推理、更新的參數(shù)更少啦)。除此之外,由于MLP獲得的特征比較抽象,使得最終的mask中丟失了一部分有用信息,我們可以直觀的從右邊看到差別。從定性角度來講,F(xiàn)CN使得mask AP值提升了2.1個(gè)百分點(diǎn)。

      表4 實(shí)例分割的結(jié)果

      表5 目標(biāo)檢測(cè)的結(jié)果

      觀察目標(biāo)檢測(cè)的表格,我們可以發(fā)現(xiàn)使用了ROIAlign操作的Faster R-CNN算法性能得到了0.9個(gè)百分點(diǎn),Mask R-CNN比最好的Faster R-CNN高出了2.6個(gè)百分點(diǎn)。

      2. 定性結(jié)果分析

      圖21 實(shí)例分割結(jié)果1

      圖22 實(shí)例分割結(jié)果2

      圖23 人體姿勢(shì)識(shí)別結(jié)果

      圖24 失敗檢測(cè)案例1

      圖25 失敗檢測(cè)案例2

       

      五、總結(jié)

      Mask R-CNN論文的主要貢獻(xiàn)包括以下幾點(diǎn):

      • 分析了ROI Pool的不足,提升了ROIAlign,提升了檢測(cè)和實(shí)例分割的效果;
      • 將實(shí)例分割分解為分類和mask生成兩個(gè)分支,依賴于分類分支所預(yù)測(cè)的類別標(biāo)簽來選擇輸出對(duì)應(yīng)的mask。同時(shí)利用Binary Loss代替Multinomial Loss,消除了不同類別的mask之間的競(jìng)爭(zhēng),生成了準(zhǔn)確的二值mask;
      • 并行進(jìn)行分類和mask生成任務(wù),對(duì)模型進(jìn)行了加速。

       

      參考文獻(xiàn):

      [1] 何鎧明大神在ICCV2017上在的Slides,視頻鏈接

      [2] Ardian Umam對(duì)Mask R-CNN的講解,視頻鏈接

       

      注意事項(xiàng):

      [1] 該博客是本人原創(chuàng)博客,如果您對(duì)該博客感興趣,想要轉(zhuǎn)載該博客,請(qǐng)與我聯(lián)系(qq郵箱:1575262785@qq.com),我會(huì)在第一時(shí)間回復(fù)大家,謝謝大家。

      [2] 由于個(gè)人能力有限,該博客可能存在很多的問題,希望大家能夠提出改進(jìn)意見。

      [3] 如果您在閱讀本博客時(shí)遇到不理解的地方,希望可以聯(lián)系我,我會(huì)及時(shí)的回復(fù)您,和您交流想法和意見,謝謝。

      [4] 本人業(yè)余時(shí)間承接各種本科畢設(shè)設(shè)計(jì)和各種小項(xiàng)目,包括圖像處理(數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等)、matlab仿真、python算法及仿真等,有需要的請(qǐng)加QQ:1575262785詳聊?。。?/strong>

       

       

       

       

       

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多