近日,計算機(jī)視覺頂會 ECCV 2020 已正式公布論文接收結(jié)果。本文介紹的是來自愛奇藝團(tuán)隊一篇論文,研究者提出了 Boundary Content Graph Neural Network (BC-GNN),通過圖神經(jīng)網(wǎng)絡(luò)對邊界和內(nèi)容預(yù)測之間的關(guān)系進(jìn)行建模,生成更精確的時序邊界和可靠的內(nèi)容置信度分?jǐn)?shù)。  時序動作提名生成 (Temporal action proposal generation) 任務(wù)需要從未處理的長視頻中精確定位包含高質(zhì)量動作內(nèi)容的片段,該任務(wù)在視頻理解中起著重要的作用?,F(xiàn)有的方法多為先生成起止邊界,再將起止邊界組合成候選動作提名,然后再生成候選時序片段的內(nèi)容置信度,這種處理方式忽略了邊界預(yù)測與內(nèi)容預(yù)測之間的聯(lián)系。為了解決這個問題,愛奇藝提出了 Boundary Content Graph Neural Network (BC-GNN),通過圖神經(jīng)網(wǎng)絡(luò)對邊界和內(nèi)容預(yù)測之間的關(guān)系進(jìn)行建模,通過利用兩者之間的內(nèi)在聯(lián)系生成更精確的時序邊界和可靠的內(nèi)容置信度分?jǐn)?shù)。 在 BC-GNN 中,將候選時序片段的內(nèi)容(content)作為圖的邊(edge),將候選時序片段的邊界(boundary,開始點和結(jié)束點)作為圖的節(jié)點(node),然后設(shè)計了一種更新邊和節(jié)點特征的推理方法,將更新之后的特征用來預(yù)測起始點概率和內(nèi)容的置信度,最終生成高質(zhì)量的 proposal。該方法最終在 ActivityNet-1.3 和 THUMOS14 這兩個公開數(shù)據(jù)集的時序動作提名生成任務(wù)以及時序行為檢測任務(wù)上均達(dá)到了領(lǐng)先水平。論文鏈接:https:///abs/2008.01432 上圖是 BC-GNN 的整體框架圖,主要包括五個流程,分別為:3)圖構(gòu)建模塊(Graph Construction Module, GCM)4)圖推理模塊(Graph Reasoning Module, GRM) 研究者使用在視頻行為識別中取得良好效果的 two-stream 網(wǎng)絡(luò)將視頻編碼成特征。Two-stream 由 spatial 和 temporal 兩個分支網(wǎng)絡(luò)構(gòu)成,spatial 分支網(wǎng)絡(luò)的輸入是單張 rgb 圖像,用來提取空間特征,temporal 分支網(wǎng)絡(luò)的輸入是多張光流圖像,用來提取運(yùn)動特征。對于一個未處理的長視頻,將對應(yīng)的視頻幀切分為 T 個可處理單元(snippet),每個可處理單元經(jīng) two-stream 之后被編碼成為 D 維的特征向量,其中 D 維特征向量由 spatial 和 temporal 分支網(wǎng)絡(luò)的最后一層輸出拼接而成,從而視頻被編碼成一個 TxD 的特征矩陣,T 是特征序列的長度,D 表示特征的維度。BC-GNN 主要包括四個模塊:基礎(chǔ)模塊、圖構(gòu)建模塊、圖推理模塊和輸出模塊。基礎(chǔ)模塊由兩層 1D 卷積組成,主要用來擴(kuò)大感受野并作為整個網(wǎng)絡(luò)的基礎(chǔ)。 圖構(gòu)建模塊用來構(gòu)建一個邊界內(nèi)容圖,構(gòu)建圖的過程如上圖所示。研究者構(gòu)建的邊界內(nèi)容圖是一個二分圖,二分圖是一類特殊的圖,它的頂點由兩個獨立集 U 和 V 組成,并且所有的邊都是連結(jié)一個 U 中的點和一個 V 中的點。在構(gòu)建圖的過程中,視頻的每個處理單元 snippet 對應(yīng)的時刻可以看作是 proposal 的起始點和結(jié)束點,從而可以得到起始點集合 N_s 和結(jié)束點集合 N_e,N_s 和 N_e 作為邊界內(nèi)容圖的兩個互相獨立的頂點集。用 t_s,i、t_e,j 分別表示 Ns 中的任意起始點 n_s,i 和 N_e 中的任意結(jié)束點 n_e,j 對應(yīng)的時刻,其中 i,j=1,2,…,T,當(dāng)滿足 t_e,j > t_s,i 時 n_s,i 和 n_e,j 之間有邊連接,用 d_i,j 表示。當(dāng)連接起始點和結(jié)束點之間的邊沒有方向時可以得到(a)所示的無向圖。由于起始點代表 proposal 的開始時間,結(jié)束點代表 proposal 的結(jié)束時間,連接起始點和結(jié)束點的邊應(yīng)該帶有方向性,并且從起始點到結(jié)束點的邊代表的信息與從結(jié)束點到起始點的邊代表的信息是不同的,因此研究者將(a)所示的無向圖轉(zhuǎn)換為圖(b)所示的有向圖。具體的轉(zhuǎn)換過程為,將無向圖中的無向邊分成兩個有相同節(jié)點和相反方向的有向邊。在進(jìn)行圖推理操作之前,研究者為構(gòu)建的邊界內(nèi)容圖中的每個節(jié)點和邊賦予其特征。為了得到節(jié)點和邊的特征,研究者在基礎(chǔ)模塊后面連接三個并行的 1D 卷積,從而得到三個特征矩陣,分別為起始點特征矩陣 F_s、結(jié)束點特征矩陣 F_e 和內(nèi)容特征矩陣 F_c,這三個特征矩陣的時間維度和特征維度均相同,大小為 TxD。對于任意起始節(jié)點 n_s,i,對應(yīng)的時間為 t_s,i,則該節(jié)點的特征為 F_s 特征矩陣第 i-1 行對應(yīng)的特征向量。同理,對于任意的結(jié)束節(jié)點 n_e,j,其特征為 Fe 特征矩陣第 j-1 行對應(yīng)的特征向量。若 n_s,i 和 n_e,j 之間有邊連接,邊 d_i,j 對應(yīng)的特征獲取過程為:1)首先對 F_c 特征矩陣第 i-1 行到 j-1 對應(yīng)的特征矩陣在時序方向上進(jìn)行線性插值,得到固定大小的特征矩陣 NxD’(N 為人為設(shè)置的常數(shù));2)然后將 NxD’轉(zhuǎn)化為(N·D’)x1;3)在 (N·D’)x1 特征后連接一個全連接層,得到維度為 D’的特征向量即為邊 d_i,j 對應(yīng)的特征。在有向圖中,節(jié)點和邊的特征更新之前,連接兩個節(jié)點方向不同的兩條邊共享同一個特征向量。為了實現(xiàn)節(jié)點和邊緣之間的信息交換,研究者提出了一種新的圖推理方法,該推理方法可分為邊特征更新和節(jié)點特征更新兩個步驟。邊特征更新步驟旨在匯總有邊連接的兩個節(jié)點的屬性,更新過程如下所示: 其中σ表示激活函數(shù) ReLU,θs2e 和θe2s 代表不同的可訓(xùn)練的參數(shù),× 代表矩陣相乘,? 代表 element-wise 相乘。節(jié)點特征更新步驟旨在聚合邊及其相鄰節(jié)點的屬性,更新過程如下所示:
 其中 e_(h,t)表示從頭結(jié)點 h 指向尾節(jié)點 t 的邊對應(yīng)的特征,K 表示以 h 為頭節(jié)點的邊的總數(shù)。為了避免輸出特征數(shù)值規(guī)模的增加,研究者在更新節(jié)點特征前先對對應(yīng)的邊的特征進(jìn)行歸一化,之后再把更新后的邊的特征作為相應(yīng)頭結(jié)點特征的權(quán)重。σ表示激活函數(shù) ReLU,θ_node 代表可訓(xùn)練的參數(shù)。如 BC-GNN 的整體框架圖所示,候選 proposal 由一對節(jié)點與連接它的邊產(chǎn)生,并且其起始點、結(jié)束點和內(nèi)容的置信度分別基于更新后的節(jié)點特征和邊特征生成,具體過程如下所示: 研究者在 ActivityNet-1.3 和 THUMOS-14 這兩個公開數(shù)據(jù)集上分別進(jìn)行時序動作提名生成實驗和時序行為檢測實驗。
 從上面兩個表中可以看出,研究者在兩個通用的數(shù)據(jù)集上的效果均達(dá)到領(lǐng)先水平。
 采用對 proposal 進(jìn)行分類的方式得到時序行為檢測結(jié)果,從上面兩個圖中可以看出,在兩個數(shù)據(jù)上研究者提出的方法均取得領(lǐng)先的結(jié)果。在 BC-GNN 算法中,相比于直接使用傳統(tǒng)的 GCN,將無向圖轉(zhuǎn)變成有向圖,并且增加了邊特征更新步驟,為了驗證這兩個策略的有效性,在 ActivityNet-1.3 數(shù)據(jù)集的時序動作提名生成任務(wù)上進(jìn)行了消融實驗。從下圖的表格和結(jié)果曲線上可以看出,這兩種策略均有利于結(jié)果的提升。
 相比于目前通用的將邊界預(yù)測與內(nèi)容預(yù)測劃分為兩個步驟的算法,本文提出的方法使用圖神經(jīng)網(wǎng)絡(luò),對邊界預(yù)測與內(nèi)容預(yù)測的關(guān)系進(jìn)行建模,將邊界預(yù)測和內(nèi)容預(yù)測的過程聯(lián)系起來。高質(zhì)量的動作內(nèi)容有利于邊界的調(diào)整,同時精確的邊界定位會幫助內(nèi)容置信度的預(yù)測。此外,研究者還提出一種新的圖推理方法,融合邊界信息和內(nèi)容信息去更新對應(yīng)的節(jié)點和邊的信息。本文提出的對有關(guān)聯(lián)的兩個步驟進(jìn)行建模的方法可以應(yīng)用于其他相似任務(wù)中。包括本文在內(nèi),目前學(xué)術(shù)界在時序行為檢測任務(wù)上取得不錯效果的方法大多采用先提取動作提名再對動作提名進(jìn)行分類的方法,這種兩階段的方式增加了整個流程的復(fù)雜度和運(yùn)算量,未來將針對這類問題將有更多的設(shè)計與探索。Amazon SageMaker 是一項完全托管的服務(wù),可以幫助開發(fā)人員和數(shù)據(jù)科學(xué)家快速構(gòu)建、訓(xùn)練和部署機(jī)器學(xué)習(xí) 模型。SageMaker完全消除了機(jī)器學(xué)習(xí)過程中每個步驟的繁重工作,讓開發(fā)高質(zhì)量模型變得更加輕松。 現(xiàn)在,企業(yè)開發(fā)者可以免費(fèi)領(lǐng)取1000元服務(wù)抵扣券,輕松上手Amazon SageMaker,快速體驗5個人工智能應(yīng)用實例。
|