乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      基于骨架的動作識別的時空圖卷積網(wǎng)絡(luò)

       taotao_2016 2020-01-14

      人體骨架為人類動作識別傳遞了重要的信息。傳統(tǒng)的骨架建模方法通常依賴于手工制作的部件或遍歷規(guī)則,因此表達(dá)能力有限,難以推廣。本文中,我們提出了一種新的動態(tài)骨架模型,稱為時空圖卷積網(wǎng)絡(luò)(ST-GCN),它通過從數(shù)據(jù)中自動學(xué)習(xí)空間和時間模式,突破了以往方法的局限性。這種方法不僅具有更強(qiáng)的表現(xiàn)力,而且具有更強(qiáng)的泛化能力。在兩個大型數(shù)據(jù)集Kinetics和NTU-RGBD上,與主流方法相比取得了實質(zhì)性的改進(jìn)。

      關(guān)注文章公眾號

      對話框回復(fù)“paper27”獲取本篇論文


      動機(jī)


      1)現(xiàn)有的大多數(shù)方法都依賴于手工制作的部件或規(guī)則來分析空間模式。因此,為特定應(yīng)用設(shè)計的模型很難推廣到其他應(yīng)用。

      2)目前的使用圖神經(jīng)網(wǎng)絡(luò)的方法,都假設(shè)一個固定的圖作為輸入,這樣的方式對于基于骨架的動作識別任務(wù)來說并不是最優(yōu)的。

      因此,本文通過將圖神經(jīng)網(wǎng)絡(luò)擴(kuò)展到時空圖模型,設(shè)計了一種用于動作識別的骨架序列的通用表示方法,稱為時空圖卷積網(wǎng)絡(luò)(ST-GCN)。


      貢獻(xiàn)


      1)提出了一種通用的基于圖的動態(tài)骨架建模方法ST-GCN,首次將基于圖的神經(jīng)網(wǎng)絡(luò)應(yīng)用于這一課題。

      2)針對骨骼建模的具體要求,提出了在ST-GCN中設(shè)計卷積核的幾個原則。

      3)在兩個用于基于骨架的動作識別的大規(guī)模數(shù)據(jù)集上,與以前使用手工制作的部分或遍歷規(guī)則的方法相比,所提出的模型獲得了更好的性能,并且比手工設(shè)計的工作量要小得多。



      時空圖卷積網(wǎng)絡(luò)


      本文通過將圖神經(jīng)網(wǎng)絡(luò)擴(kuò)展到時空圖模型,設(shè)計了一種用于動作識別的骨架序列的通用表示方法,稱為時空圖卷積網(wǎng)絡(luò)(ST-GCN)。

      骨架圖結(jié)構(gòu)

      骨架序列通常由每個幀中每個人體關(guān)節(jié)的2D或3D坐標(biāo)表示,我們構(gòu)建了一個以關(guān)節(jié)為圖節(jié)點,人體結(jié)構(gòu)和時間中的自然連通性為圖邊的時空圖G=(V,E),其為具有N個關(guān)節(jié)和T個幀的骨架序列。

      節(jié)點集合V表示為:

      包括骨架序列中的所有關(guān)節(jié)。作為ST-GCN的輸入,節(jié)點上的特征向量由第t幀上第i個關(guān)節(jié)的坐標(biāo)向量和置信度組成。

      邊E的集合由兩個子集組成。首先,根據(jù)人體結(jié)構(gòu)的連通性,將一個骨架內(nèi)的關(guān)節(jié)用邊連接起來:

      然后,每個關(guān)節(jié)將連接到連續(xù)幀中的同一關(guān)節(jié):

      空間圖卷積神經(jīng)網(wǎng)絡(luò)

      考慮單個幀內(nèi)的CNN模型。在這種情況下,在時間T 的單個幀上,有N個關(guān)節(jié)節(jié)點以及骨架邊。在空間卷積神經(jīng)網(wǎng)絡(luò)中,我們以圖像中的卷積神經(jīng)網(wǎng)絡(luò)為依托,根據(jù)動態(tài)骨胳序列的特點,定義了新的應(yīng)用與圖卷積的采樣函數(shù)與權(quán)重函數(shù)。

      采樣函數(shù)

      在圖像上,采樣函數(shù)p(h,w)是在相對于中心位置x的相鄰像素上定義的。在圖上,我們可以類似地在節(jié)點鄰居集合上定義采樣函數(shù):

      其中:

      • 表示從的任意路徑的最小長度

      • D=1,即關(guān)節(jié)節(jié)點的1-hop 鄰居集

      權(quán)重函數(shù)

      在圖像的2D卷積中,鄰居內(nèi)的像素可以具有固定的空間順序。然后,可以通過根據(jù)空間順序索引(c,K,K)維的張量來實現(xiàn)權(quán)重函數(shù)。而對于骨架序列這樣的圖,沒有這樣的隱式排列。

      為了解決這個問題,我們按照目標(biāo)節(jié)點周圍的鄰居的圖標(biāo)記過程定義來構(gòu)造權(quán)重函數(shù)。不是給每個鄰居節(jié)點一個唯一的標(biāo)簽,而是通過將關(guān)節(jié)點的鄰集劃分成固定數(shù)量的K個子集,每個子集都有一個數(shù)字標(biāo)簽。因此,可以有一個映射,將鄰域中的節(jié)點映射到其子集標(biāo)簽:

      則權(quán)重函數(shù)表示為:

      可以通過索引(c,K)維張量或下式實現(xiàn):

      子集劃分策略

      我們提出了三種子集劃分策略,如下圖所示:

      利用改進(jìn)的采樣函數(shù)和權(quán)函數(shù),空間圖卷積表示為:

      若將圖像視為規(guī)則的2D網(wǎng)格,該公式可以類似于標(biāo)準(zhǔn)的2D卷積。在以像素為中心的3×3網(wǎng)格中,若有一個9像素的鄰居。然后應(yīng)將相鄰集合劃分為9個子集,每個子集具有一個像素。

      時空建模

      在建立了空間圖卷積之后,我們現(xiàn)在開始對骨架序列中的時空動力學(xué)進(jìn)行建模。在構(gòu)建圖形時,圖在時間方面是通過連接連續(xù)幀上的相同關(guān)節(jié)來構(gòu)建的。為了對時間建模,我們擴(kuò)展了鄰域的概念,將時間連接的關(guān)節(jié)也包括在內(nèi):

      其中:

      • 參數(shù)Γ控制要包括在相鄰圖中的時間范圍,因此可以稱為時間核大小。

      由于時間軸是有序的,因此,我們直接修改以目標(biāo)節(jié)點的時空鄰域的標(biāo)簽映射

      其中:

      • 處的單幀情況的標(biāo)簽映射。

      ST-GCN 的實現(xiàn)

      單個幀內(nèi)關(guān)節(jié)的身體內(nèi)部連接由表示自身連接的鄰接矩陣A和單位矩陣 I 表示。

      1)在單個幀的情況下,采用第一分割策略的ST-GCN可以用以下公式實現(xiàn):

      其中:

      在實際應(yīng)用中,在時空情況下,我們可以將輸入特征映射表示為(C,V,T)維的張量。圖卷積通過執(zhí)行1×Γ標(biāo)準(zhǔn)2D卷積來實現(xiàn),并將所得到的張量與第二維上的歸一化鄰接矩陣Λ^(?1/2).(A+i).Λ^(?1/2)相乘。

      2)對于具有多個子集的劃分策略(距離劃分和空間配置劃分),鄰接矩陣被分解成幾個矩陣,其中。例如在距離劃分策略中,,則SI-GCN表示為:

      其中:

      并且,為了表示不同節(jié)點的重要性,對于每個鄰接矩陣,都伴隨著一個可學(xué)習(xí)的權(quán)重矩陣M。則ST-GCN中的A+I與可以表示為:

      其中:

      • ?表示兩個矩陣之間的逐元素乘積。

      • 掩碼M初始化為全一矩陣



      實驗


      我們在兩個骨架動作識別數(shù)據(jù)集上來驗證 ST-GCN 的性能。

      數(shù)據(jù)集

      1)Kinetics-Skeleton:包含從YouTube上檢索到的大約30萬個視頻剪輯。所為了獲得骨架關(guān)鍵點信息,我們將視頻調(diào)整到340×256的分辨率,并將幀率轉(zhuǎn)換為30FPS。使用公共的OpenPose工具箱,估計每幀上18個關(guān)節(jié)的位置。該數(shù)據(jù)集共有約 30 萬個視頻與 400 類動作。

      2)NTU-RGB+D:該數(shù)據(jù)集共有約 6 萬個視頻,60 個動作類別,每一幀有25個關(guān)節(jié)點。這個數(shù)據(jù)集包含了兩個測試基準(zhǔn):1)跨表演人(X-Sub):訓(xùn)練片段來自一個演員,并且其余演員的片段用于評估;2)跨視角(X-View):訓(xùn)練片段來自相機(jī)視圖2和3,評估片段都來自相機(jī)視圖1。

      實驗結(jié)果

      各種基線模型在兩個數(shù)據(jù)集上的的對比結(jié)果如下表所示:

      從上表可以看到我們所提出的ST-GCN在兩個數(shù)據(jù)集上都能很好地工作的,證明了所提出的時空圖卷積運算和所得到的ST-GCN模型的有效性。

      格式 1 ( 15px, #3E3E3E )

      除了對比基準(zhǔn)模型之外,我們分析了可學(xué)習(xí)邊重要性權(quán)重M(ST-GCN+Imp)對識別性能的影響:

      可以看到,加入了可學(xué)習(xí)邊重要性權(quán)重M之后,識別性能比元ST-GCN有所提升。并且,在表1中我們還可以看到,三種劃分規(guī)則對識別精度的影響,距離劃分與空間構(gòu)型劃分相對于原始 GCN 使用的唯一劃分在精度上均有較大提高。


      總結(jié)


      本文提出了一種新的基于骨架的動作識別模型--時空圖卷積網(wǎng)絡(luò)(ST-GCN)。該模型在骨架序列上構(gòu)造了一組時空圖卷積。在兩個具有挑戰(zhàn)性的大規(guī)模數(shù)據(jù)集上,所提出的ST-GCN模型的性能優(yōu)于以往最先進(jìn)的基于骨架的模型。此外,ST-GCN能夠捕獲動態(tài)骨架序列中的運動信息,這是對RGB模態(tài)的補(bǔ)充。基于骨架模型和基于幀地模型的結(jié)合進(jìn)一步提高了動作識別的性能。ST-GCN模型的靈活性也為以后的工作開辟了許多可能的方向。例如,如何將場景、對象和交互等上下文信息合并到ST-GCN中。

      轉(zhuǎn)載來源:專知

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多