乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      基于關(guān)系網(wǎng)絡(luò)的視覺建模:有望替代卷積神經(jīng)網(wǎng)絡(luò)

       taotao_2016 2019-07-12

      大腦和機(jī)器智能都應(yīng)是通用學(xué)習(xí)機(jī)器?

      首先,我們從一個(gè)很有意思的實(shí)驗(yàn)講起,這個(gè)實(shí)驗(yàn)將老鼠大腦里的聽覺皮層接到視覺的輸入上,經(jīng)過一段時(shí)間訓(xùn)練后,發(fā)現(xiàn)聽覺皮層也能實(shí)現(xiàn)視覺的感知任務(wù)。這個(gè)實(shí)驗(yàn)引起我們思考一個(gè)問題,機(jī)器智能是否同樣能實(shí)現(xiàn)結(jié)構(gòu)和學(xué)習(xí)的通用性呢?

      目前的機(jī)器學(xué)習(xí)范式基本是統(tǒng)一的,一般遵循收集數(shù)據(jù)、進(jìn)行標(biāo)注、定義網(wǎng)絡(luò)結(jié)構(gòu)、以及利用方向傳播算法訓(xùn)練網(wǎng)絡(luò)權(quán)值的過程,但是不同任務(wù)里用到的基本模型卻是多樣的。當(dāng)前計(jì)算機(jī)視覺主要被卷積網(wǎng)絡(luò)所主導(dǎo),而自然語言處理則經(jīng)歷了LSTM、GRU、卷積以及自注意等多種模型階段。那是否有一種基本模型,能解決視覺、NLP、圖結(jié)構(gòu)數(shù)據(jù)感知、甚至推理等不同智能任務(wù)呢?

      目前最通用的模型:關(guān)系和圖網(wǎng)絡(luò)

      目前來看,關(guān)系網(wǎng)絡(luò)是最接近這一目標(biāo)的一種模型。在解釋這個(gè)模型之前,我們首先對(duì)一些名詞作一些澄清,包括圖神經(jīng)網(wǎng)絡(luò)以及自注意力機(jī)制。

      圖1:關(guān)系網(wǎng)絡(luò)架構(gòu)

      圖神經(jīng)網(wǎng)絡(luò)概念上更通用一些,包括了對(duì)節(jié)點(diǎn)、對(duì)邊、對(duì)全局屬性的特征表示,而自注意模型則是圖神經(jīng)網(wǎng)絡(luò)的一種特殊實(shí)現(xiàn),里面只對(duì)節(jié)點(diǎn)進(jìn)行了特征表示,而邊(也就是關(guān)系)則通過key嵌入和query嵌入后的內(nèi)積計(jì)算得到,是一種圖為全連接時(shí)(所有節(jié)點(diǎn)之間都有連接)非常經(jīng)濟(jì)的模型,但表達(dá)能力又足夠強(qiáng),因?yàn)槿魏问挛锖透拍钪g都可以通過不同的投影后(key和query)的特征來使得兩者可比。

      注意力機(jī)制里key和query的集合往往不一致,例如分別是單詞集合和圖像塊集合,或者分別是不同語言的句子,而自注意機(jī)制則是key和query的對(duì)象為同一集合的情況。最近在NLP領(lǐng)域的革命,主要在于發(fā)現(xiàn)了“自”注意力機(jī)制在編碼同一句子單詞與單詞之間關(guān)系上的價(jià)值。而關(guān)系網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)還有自注意機(jī)制從實(shí)現(xiàn)上是同樣的,字面上更關(guān)注對(duì)于節(jié)點(diǎn)與節(jié)點(diǎn)間聯(lián)系的建模。

      將關(guān)系網(wǎng)絡(luò)應(yīng)用于基本視覺建模

      考慮到關(guān)系網(wǎng)絡(luò)在圖結(jié)構(gòu)數(shù)據(jù)和NLP序列數(shù)據(jù)建模上取得了巨大成功,很自然的一個(gè)問題是這一建模方法是否也適用于視覺里的建模。計(jì)算機(jī)視覺里面主要涉及兩個(gè)層次的基本元素:一個(gè)是物體;一個(gè)是像素。于是我們研究了物體和物體、物體和像素以及像素和像素的關(guān)系建模問題。

      圖2:將關(guān)系網(wǎng)絡(luò)應(yīng)用于基本視覺建模

      物體與物體關(guān)系建模,第一個(gè)完全端到端的物體檢測器

      物體是很多視覺感知任務(wù)的核心,在深度學(xué)習(xí)時(shí)代,單個(gè)物體的感知有了很好的進(jìn)展,但如何去建模物體與物體間的關(guān)系卻一直沒有很好的工具。我們?cè)谌ツ闏VPR上提出了一個(gè)能即插即用的物體關(guān)系模塊(Object Relation Module),簡稱ORM。物體關(guān)系模塊的建?;旧鲜且环N自注意機(jī)制的應(yīng)用,和基本的自注意機(jī)制的主要不同在于添加了相對(duì)幾何項(xiàng),我們發(fā)現(xiàn)這一項(xiàng)對(duì)于視覺問題來說很重要,物體之間的相對(duì)位置關(guān)系能幫助對(duì)于物體本身的感知。這一模塊可以很方便地嵌入到現(xiàn)有的物體檢測框架(圖3所示是目前應(yīng)用最廣泛的Faster R-CNN算法),去改進(jìn)頭部(head)網(wǎng)絡(luò),以及替換手工的去重模塊,也就是目前通常采用的非極大化抑制方法(NMS)。其中替換前者使得物體不是獨(dú)立識(shí)別的,而是一起識(shí)別的,而替換后者則幫助實(shí)現(xiàn)了第一個(gè)完全的端到端物體檢測系統(tǒng)。我們還將物體關(guān)系模塊推廣到時(shí)空維度,去解決多目標(biāo)跟蹤問題。

      圖3:第一個(gè)完全端到端的物體檢測器

      物體與像素關(guān)系建模

      物體與像素關(guān)系建模的一個(gè)最直接的應(yīng)用是從圖像特征里提取物體區(qū)域特征,此前最常用的算法是RoIPooling或者RoIAlign,我們用關(guān)系網(wǎng)絡(luò)實(shí)現(xiàn)了自適應(yīng)地從圖像特征里提取區(qū)域特征的方法,并證明這一方法比RoIAlign在物體檢測的標(biāo)準(zhǔn)數(shù)據(jù)集COCO上要好1 mAP左右。

      像素與像素關(guān)系建模,替代卷積的局部關(guān)系網(wǎng)絡(luò)及全局上下文網(wǎng)絡(luò)

      像素與像素關(guān)系的建模可以用來實(shí)現(xiàn)最基本的圖像局部特征提取,也可以用來提取圖像的全局信息,從而作為基本圖像特征提取網(wǎng)絡(luò)(例如卷積神經(jīng)網(wǎng)絡(luò))的補(bǔ)充。

      1)替代卷積神經(jīng)網(wǎng)絡(luò)的局部關(guān)系網(wǎng)絡(luò)

      現(xiàn)在的基本圖像特征提取方法幾乎都采用卷積算子,但卷積本質(zhì)上是一個(gè)模板匹配(template matching)算子,效率是偏低的,例如圖4中的三個(gè)鳥頭,很簡單的變化,卻需要三個(gè)通道來去建模它。我們提出了一個(gè)局部關(guān)系層(local relation layer)來實(shí)現(xiàn)更高效的圖像特征提取,它本質(zhì)上還是基于關(guān)系網(wǎng)絡(luò)。在應(yīng)用到基本的像素與像素關(guān)系建模問題時(shí),我們發(fā)現(xiàn)如下幾個(gè)細(xì)節(jié)很重要:一是關(guān)系的建模要限制在局部內(nèi),只有限制在局部才能構(gòu)造信息瓶頸,才能把圖像里的模式學(xué)出來;二是需要引入可學(xué)習(xí)的幾何先驗(yàn)項(xiàng),這一項(xiàng)的引入也是注意到目前最流行的卷積算子所采用的模板匹配過程就是嚴(yán)重依賴相對(duì)位置關(guān)系的建模方法;三是采用標(biāo)量的key和query,在標(biāo)準(zhǔn)的關(guān)系網(wǎng)絡(luò)中,key和query通常是用向量表示的,采用標(biāo)量的key和query能節(jié)省很多參數(shù)和計(jì)算,也因此能在有限計(jì)算量情況下建模多種關(guān)系。

      與卷積相比,局部關(guān)系層概念上最大的不同是它是在根據(jù)兩個(gè)像素自己的特征來計(jì)算像素間的可組合性,而不是用一個(gè)全局的模板來作匹配。圖4右上還顯示了學(xué)到的部分key和query圖(標(biāo)量),從左到右分別是由淺到深的層,發(fā)現(xiàn)淺層學(xué)到了邊緣和內(nèi)部的概念,深層學(xué)到了不同物體的概念。圖4右下顯示了學(xué)到的幾何先驗(yàn),從上到下分別是由淺到深的層,發(fā)現(xiàn)在淺層里幾何先驗(yàn)比較集中和稀疏,暗示幾何先驗(yàn)起很大作用,而深層里幾何先驗(yàn)比較模糊,暗示key和query起更主要的作用。

      圖4:局部關(guān)系層

      局部關(guān)系層可以用來替換卷積網(wǎng)絡(luò)里面所有的空間卷積層,包括所有的3x3的卷積,以及一開始的7x7卷積,于是得到了一個(gè)完全沒有空間卷積層的網(wǎng)絡(luò),我們稱為局部關(guān)系網(wǎng)絡(luò)(LR-Net),圖5左側(cè)是用局部關(guān)系層替代ResNet-50網(wǎng)絡(luò)中所有卷積層的例子,在相同計(jì)算量情況下,LR-Net相比于ResNet擁有更少的參數(shù)。圖5右側(cè)是26層LR-Net與26層帶標(biāo)準(zhǔn)卷積或depthwise卷積的ResNet在ImageNet分類上top-1準(zhǔn)確率的比較。可以看出,在不包含任何幾何先驗(yàn)的情況下,LR-Net已與ResNet相匹敵,而在添加幾何先驗(yàn)項(xiàng)后,與標(biāo)準(zhǔn)卷積的ResNet-50相比能取得高2.7%的性能。此外,局部關(guān)系網(wǎng)絡(luò)在鄰域?yàn)?x7時(shí)表現(xiàn)最好,而對(duì)應(yīng)的標(biāo)準(zhǔn)ResNet網(wǎng)絡(luò)則在3x3和5x5時(shí)表現(xiàn)更好,這表明局部關(guān)系網(wǎng)絡(luò)相比普通基于卷積算子的ResNet網(wǎng)絡(luò)能建模更大范圍的像素關(guān)系。

      圖5:局部關(guān)系層替代ResNet-50網(wǎng)絡(luò)中所有卷積層(左);26層的LR-Net與ResNet相同運(yùn)算量下在ImageNet分類上top-1準(zhǔn)確率的對(duì)比(右)

      2) 非局部網(wǎng)絡(luò)遇上SE-Net,更高效的全局上下文網(wǎng)絡(luò)

      非局部關(guān)系網(wǎng)絡(luò)在多個(gè)視覺感知任務(wù)上取得了非常好的效果,學(xué)界通常認(rèn)為這得益于非局部網(wǎng)絡(luò)對(duì)于遠(yuǎn)距離像素與像素間關(guān)系的建模。但我們?cè)诳梢暬瘜W(xué)到的像素與像素間相似度時(shí)發(fā)現(xiàn)一個(gè)很不一樣的現(xiàn)象,對(duì)于不同的query像素點(diǎn)(圖中紅色點(diǎn)),不管query像素點(diǎn)在前景、或是草地、或是天空中,它們和key像素的相似度形成的attention map幾乎一模一樣。

      圖6:不同query像素點(diǎn)對(duì)應(yīng)的attention map

      很自然地,如果我們顯示地讓所有query像素點(diǎn)共享同一個(gè)attention map,是否會(huì)降低performance呢?我們實(shí)驗(yàn)發(fā)現(xiàn)在一些重要的感知任務(wù),例如圖像分類、物體檢測、動(dòng)作識(shí)別中,這一答案是否定的。也就是說,即使讓所有query像素點(diǎn)共享同一個(gè)attention map,也不會(huì)降低識(shí)別的精度,而相應(yīng)的計(jì)算則大幅降低,即使添加到ResNet網(wǎng)絡(luò)中所有的residual block后也不怎么增加網(wǎng)絡(luò)整體的計(jì)算量。

      進(jìn)一步可以發(fā)現(xiàn)這樣一種簡化的非局部網(wǎng)絡(luò)(SNL)和2017年ImageNet比賽的冠軍算法SE-Net結(jié)構(gòu)很相似,都是首先建模全局上下文信息,把HxW的圖像特征集合起來,生成一個(gè)全局的向量,第二步都是對(duì)這一全局的向量作特征變換,最后是變換后的全局特征和圖像每個(gè)位置原來的特征融合起來,于是可以抽象出來一個(gè)通用的建模全局上下文信息的框架。進(jìn)一步的,在每一步里面選擇最好的實(shí)現(xiàn),于是可以得到全局上下文模塊(Global Context Block),這一網(wǎng)絡(luò)可以在COCO物體檢測,ImageNet圖像分類,和動(dòng)作識(shí)別任務(wù)中均取得比非局部網(wǎng)絡(luò)和SE-Net更優(yōu)的準(zhǔn)確率,而計(jì)算量則保持基本不變或者低于非局部網(wǎng)絡(luò)和SE-Net。

      圖7:通用的建模全局上下文信息的框架

      演講PPT下載


        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多