Learning Normal Dynamics in Videos with Meta Prototype Network 作者:Hui lv, Chen Chen, Zhen Cui, Chunyan Xu, Yong Li, Jian Yang 單位:南京理工大學(xué);北卡夏洛特分校 論文:https:///abs/2104.06689 代碼:https://github.com/ktr-hubrt/MPN 摘要: 該工作提出了一個(gè)場景模式自適應(yīng)的動態(tài)原型(prototype)學(xué)習(xí)框架,實(shí)時(shí)的學(xué)習(xí)視頻中的正常模式,來輔助視頻幀的預(yù)測,然后通過視頻幀的預(yù)測誤差和原型與輸入特征的距離來檢測異常。算法在多個(gè)無監(jiān)督異常檢測的數(shù)據(jù)集上均達(dá)到了SOTA performance。 1. 簡介 近來,基于自編碼器的視頻幀重建(或未來幀預(yù)測)方法成為視頻異常檢測的一個(gè)潮流算法。這些僅僅使用包含正常模式的數(shù)據(jù)訓(xùn)練的模型,在遇到?jīng)]有見過的異常模式的數(shù)據(jù)時(shí),往往會產(chǎn)生比較大的重構(gòu)誤差。 但是由于深度神經(jīng)網(wǎng)絡(luò)極強(qiáng)的泛化能力,深度模型對一些異常的視頻幀也會重建(或預(yù)測)的較好,這就導(dǎo)致“過度泛化”問題。 在這份工作中,我們設(shè)計(jì)了一個(gè)動態(tài)原型學(xué)習(xí)的組件,來動態(tài)實(shí)時(shí)地建模和壓縮視頻中的正常模式為原型(prototype),以促進(jìn)模型對正常視頻幀的重建(或預(yù)測)和抑制對異常視頻幀的重建(或預(yù)測)。 并且,我們引入元學(xué)習(xí)理論,賦予動態(tài)原型學(xué)習(xí)組件場景模式自適應(yīng)的能力,不需要設(shè)計(jì)對應(yīng)規(guī)則和閾值來更新原型,具有快速高效的自適應(yīng)能力。 2. 方法 Dynamic Prototype Unit(DPU): 我們設(shè)計(jì)的DPU輸入編碼器(E)得到的編碼特征,輸出動態(tài)原型加強(qiáng)后的特征。通過結(jié)合自監(jiān)督注意力機(jī)制,DPU首先得到多個(gè)對應(yīng)輸入編碼特征每個(gè)元素位置的注意力圖,然后分別得到對應(yīng)的多個(gè)原型特征向量。通過對原型向量的查詢和提取,就可以得到加強(qiáng)后的特征圖。 Meta Prototype Unit(MPU): 結(jié)合元學(xué)習(xí)理論,我們把DPU組件進(jìn)化為元學(xué)習(xí)原型組件。利用訓(xùn)練集的不同場景,我們學(xué)習(xí)一組最優(yōu)的初始化參數(shù)集合和對應(yīng)的更新步長,在測試時(shí),更新對應(yīng)的參數(shù),我們就可以得到場景模式自適應(yīng)的異常檢測器。 3. 試驗(yàn)結(jié)果 DPU在無監(jiān)督的異常檢測數(shù)據(jù)集上進(jìn)行了試驗(yàn),均得到最優(yōu)或次優(yōu)的結(jié)果。 MPU在元學(xué)習(xí)few-shot場景下,也取得了不錯(cuò)的結(jié)果。 我們展示了原型學(xué)習(xí)過程中產(chǎn)生的自注意力圖(第一列是未來幀,第二列是檢測得到的異常圖,第三列是多組自注意力圖之和,后面三列均是單個(gè)注意力圖): 我們還展示了算法模型在一些測試視頻上的預(yù)測結(jié)果: 我們還分析了多個(gè)SOTA模型的運(yùn)行效率: 數(shù)據(jù)均在4核CPU(E5-2650),單塊GPURTX-2080Ti機(jī)器上實(shí)驗(yàn)得出。 |
|