01.視覺識別面對的問題和發(fā)展方向
![]() 來源:信息與電子工程前沿FITEE 作者:潘云鶴 論視覺理解 潘云鶴1,2 1浙江大學計算機學院人工智能研究所,中國杭州市,310027 潘云鶴,中國工程院院士,F(xiàn)ITEE主編 01.視覺識別面對的問題和發(fā)展方向 人工智能(artificial intelligence, AI)從一開始就將模式識別作為其重要工作領域之一。近年來,深度神經(jīng)網(wǎng)絡(deep neural network, DNN)的成熟使得視覺識別的準確率大為提高,并在醫(yī)學圖像識別、車輛識別、人臉識別等方面廣泛應用,推動AI產(chǎn)業(yè)發(fā)展進入高潮。但是,基于DNN技術的視覺識別存在重要缺陷,例如,需要標識的樣本數(shù)據(jù)量較大、模型的魯棒性較差、學習與推理的結果難以解釋、模型泛化與跨數(shù)據(jù)域遷移能力較弱等。這些問題已成為當前AI研究和應用發(fā)展的一大挑戰(zhàn),甚至障礙。 如果我們用更大的視野來審視當前的視覺識別技術,可以發(fā)現(xiàn),上述缺陷是基礎性的。原因在于,當前使用的DNN模型在用于視覺識別前,首先需要用大量標識過的視覺數(shù)據(jù)進行訓練。從本質上看,是在進行基于數(shù)據(jù)統(tǒng)計和模式匹配的分類過程(Krizhevsky et al., 2017),所以對樣本數(shù)據(jù)域有很強依賴。要想具備解釋和遷移功能,僅僅做視覺分類是不夠的,還需經(jīng)過進一步的視覺理解。 02.視覺理解的三步模型 視覺識別不等同于視覺理解,它只是理解的第1步。視覺理解共有3步,分類是其第1步。在分類之后應進入第2步:視覺解析。在視覺解析過程中,應當對視覺對象的各組成部分及彼此結構關系作進一步辨認與比較。辨認是根據(jù)已知視覺概念的部件與結構,尋找視覺數(shù)據(jù)中對應的各部件與結構的過程。其結果一方面驗證分類結果的正確性,另一方面建立視覺對象數(shù)據(jù)的結構。完成視覺解析后,還要進入第3步:視覺模擬。在視覺模擬過程中,要對視覺對象的結構進行包括因果推理在內(nèi)的預測性運動模擬和操作,以判斷其在現(xiàn)實空間中滿足物理約束的合理性,從而對前面的識別和分析結果加以驗證。 以一只貓的照片為例,說明視覺理解的過程模型如下: 1. 識別:是只貓。取出貓的視覺概念,進入下一步,否則結束。 2. 解析:根據(jù)視覺概念所含的結構,分別辨認貓的頭、身、腳、尾及彼此關系是否與貓的概念適合,如不適合,返回第1步重新識別;如適合,進入下一步。 3. 模擬:模擬貓的各種活動,考察貓的活動及其與環(huán)境的交互是否能以合理方式完成。如不能,返回第2步;如能,進入下一步。 4. 結束理解,將處理后的結構化數(shù)據(jù)納入貓的知識。 03.視覺理解模型的特點 為進一步認識上述視覺理解的3步過程模型,我們對其若干特點作進一步闡述: 1. 視覺理解的關鍵步驟是視覺解析。視覺解析是一個根據(jù)視覺識別得到的視覺概念(Pan, 2019),按照概念結構所含各部件,對理解對象作相應辨認。解析一個視覺理解對象,按照從頂向下的次序,是一個從概念樹的根開始,到枝、直至到葉的對視覺數(shù)據(jù)的辨認與建構過程。 2. 人類的視覺解析任務往往只針對構成概念的主要部件。主要部件都各有對應的語言名稱進行描述。而對于尚未用語言描述的非主要部件,如面孔的顴骨與下巴間的部位,只有受過專門解剖訓練的專家(如醫(yī)生、畫家等)才具有專業(yè)概念與記憶。所以視覺解析會同時處理視覺與語言等多重知識(Yang et al., 2008),是一個跨媒體(Pan, 2020b)處理過程。 3. 視覺知識(Pan, 2019)對視覺解析和視覺模擬都是必不可少的,因為它提供的部件結構為部件的辨認與比較提供了明確指向。每個人在視覺知識建立之初,都要感謝父母與老師。當他們對孩子講,“看,這是小貓,小貓有尖耳朵、圓眼睛、長胡須、四條短腿,跑得很快,跳得很遠,一下抓到老鼠,”他們就在指導孩子學會如何在長期記憶中建構基本的視覺知識。 4. 經(jīng)過理解的視覺數(shù)據(jù),實際上已經(jīng)被結構化,從而形成視覺知識。這樣的視覺知識也很容易被納入長期記憶。例如你看到一只貓的頭特別小,或者其毛色與斑紋特殊,或其行走姿態(tài)特殊,都可能以擴大“貓”的概念范疇(Pan, 2019)而被納入你記憶中“貓”的視覺概念。視覺概念的范疇很重要,其疆域大小反映了見多識廣的程度。實際上,用于學習DNN模型的樣本數(shù)據(jù)并非越多越好,而是在概念范疇的對應中分布得越廣泛、越均衡才越好,因為基于這樣的樣本數(shù)據(jù)訓練出的模型魯棒性和泛化能力才越強。 04.將視覺識別推進至視覺理解 視覺理解是重要的,因為它與視覺知識(Pan, 2019)、多重知識表達(Pan, 2020b)等共同作用,將為AI研究打開一扇新大門。視覺理解既是視覺識別的深入,又是視覺知識學習(Pan, 2020a)與運用的深入。AI研究視覺識別已超過半個世紀。與之并行起步的語音識別,早已進入分析單詞、句子和段落的語言理解,由此成功發(fā)展了人機對話和機器翻譯,取得眾所周知的里程碑式進展。因此,我們建議將視覺識別推進至視覺理解——現(xiàn)在正是瞄準這一更深刻的視覺智能行為的最佳時機。 感謝浙江大學莊越挺、吳飛、耿衛(wèi)東、楊易、孫凌云、湯斯亮等教授為本文提供富有價值的建議。 本文譯自Pan, 2022. On visual understanding. Front Inform Technol Electron Eng, 23(9):1287 1289. https:///10.1631/FITEE.2130000 |
|
來自: 小飛俠cawdbof0 > 《情報》