潘云鶴,中國工程院院士,F(xiàn)ITEE主編 認知心理學早已指出,視覺知識是人類知識記憶的重要部分,被用來進行形象思維. 因此,基于視覺的人工智能(AI)是AI繞不開的課題,且具有重要意義. 本文繼《論視覺知識》一文(Pan, 2019),討論與之相關的5個基本問題. 認知心理學實驗說明了視覺知識不同于言語知識的特征:(1)能表達對象的大小、色彩、紋理、空間形狀及關系. (2)能表達對象的動作、速度及時間關系. (3)能進行對象的時空變換、操作與推理. 如,形狀變換、動作變換、速度變換、場景變換,各種時空類比、聯(lián)想和基于時空推理結果的預測等. 以計算機圖形學(CG)方式實現(xiàn)的形體表達較適合表達特征(1)和(3)的操作與變化,而模擬想象變化則較困難,因為CG表達的是幾何形態(tài),而不是視覺概念. 視覺概念應由典型(prototype)和范疇(domain)構成. 例如,蘋果有千變萬化的形態(tài),但必有一種或幾種核心形狀和色彩,稱為典型. 圍繞典型,各種蘋果構成一個變化范圍,變化范圍會有一個邊界. 邊界內的形態(tài)屬于蘋果的范疇,超過這個邊界就變成其他水果. 這個變化范圍就是蘋果這一概念的范疇. 視覺概念有層次結構,即含有子概念的空間組織的結構. 視覺概念有動作結構,應包含結構中各子概念的典型運動及動作范疇. 視覺命題是視覺概念的空間關系和時間關系表達. 空間關系表達為場景結構,描述上下、左右、前后等方位關系、距離關系、里外關系、大小關系等幾何模式. 時間關系表達為動態(tài)結構,表達生長、位移、動作、變化、競爭、協(xié)同和演化等時序模式. 視覺敘事由一組視覺命題構成. 如一段視頻中不同視覺對象在各種場景中的動態(tài). 無聲電影是視覺敘事的例子. 視覺敘事是具象連續(xù)表達,言語敘事是抽象離散表達. 啞語是仿語言的視覺表達. 認知心理學研究指出:人類記憶中儲存的視覺知識遠多于言語知識. 視覺知識因難以用語言符號表達,曾被統(tǒng)歸為常識. 如:兒童在5歲之前,看到不同杯子就會以不同手法抓來喝水. 證明兒童已能熟練運用視覺知識,但未能用言語解釋(圖1). 人在幼年,學到的多是視覺知識. 以往AI研究一大弱點便是視覺知識研究的不足. 視覺知識的研究與運用是AI 2.0 (Pan, 2016)的一個重要發(fā)展方向. 從AI早期開始,模式識別便是其中一個最重要的研究領域,其中圖象和視頻識別是發(fā)展最快的方向. 曾使用基于數(shù)字圖象處理技術的圖象識別技術,是一種將局部特征綜合為整體對象的方法. 近來,深度學習以端到端方式提供了另一方法:用大量標識的圖像訓練出深度神經網(wǎng)絡模型(DNN)用于圖象識別,顯著提高正確率,已獲廣泛應用. DNN具有的優(yōu)點是:(1)可從被標識的樣本數(shù)據(jù)中通過學習自動獲得模型知識;(2)可用于非符號數(shù)據(jù)的識別,如圖像與語音識別. 但DNN也有缺點:(1)難以解釋;(2)不可推理;(3)需要大量被標識的數(shù)據(jù)來訓練網(wǎng)絡參數(shù),從而獲得知識. 值得注意的是,與DNN方法不盡相同,人類在工作記憶中進行視覺識別時,不僅分析視網(wǎng)膜感知后傳入短期記憶中的數(shù)據(jù),而且激活了工作記憶處理過程中所需長期記憶中的相關心象,即視覺知識. 正因為如此,人類在完成視覺識別任務時往往只需少量數(shù)據(jù),而且可解釋,也可推理. 因此在視覺識別中,不但使用數(shù)據(jù),而且協(xié)同使用視覺知識,形成數(shù)據(jù)驅動和視覺知識指導的計算范式是重要的研究方向. 形象思維是人類在設計、創(chuàng)意和問題求解時重要的智能行為. 模擬形象思維,需要如下操作:(1)視覺形象的物理變化,如幾何變換、時空變換、場景變換,比較、預測、分解與裝配等;(2)視覺形象的生物變化,如運動、生成、互動等;(3)視覺形象的想象變化,如創(chuàng)意與設計新產品(《西游記》《阿凡達》《獅子王》《小飛象》等)中的各種想象性操作. 視覺形象思維模擬在計算機輔助設計(CAD)、計算機動畫、游戲、兒童教育和數(shù)字媒體創(chuàng)意等領域應用十分廣泛. 按數(shù)字媒體的不同,可分為3類:(1)從文本生成視覺形象. 如,給出一段文字描寫,自動生成一個圖形圖象的背景. 又如,給出一段評價,自動修改產品的設計. (2)從一種視覺形象變換為另一種形象. 如,大鬧天宮中將孫悟空從猴子自動變?yōu)橐蛔鶑R. 又如,浙江大學現(xiàn)代工業(yè)設計研究所的研究人員,將正方形中的標準篆字變?yōu)橛≌略O計中漢印風格的篆字(圖2). (3)從視覺形象生成文本. 如,給一張圖片或一段視頻賦予一個標題或生成一段語言描述,并且分類. 短視頻內容的文本描述自動生成,現(xiàn)已用于網(wǎng)上銷售的商品精準推薦(Zhang SY et al., 2020). 圖2 形象模擬AI技術用于篆刻布局 計算機圖形學已儲備很多基礎技術,但有待與AI打通. 一旦實現(xiàn),有望形成新一代設計軟件的基礎. 計算機視覺(CV)已經體現(xiàn)視覺對象形體重構的重要性,并積累了很多成果,如3D掃描重構形體、多相機重構形體、基于視頻重構形體等等. 形體重構是CV和CG的橋梁. 然而,視覺知識學習則要將目標從視覺形狀的重建任務提升到視覺知識概念和命題的重建,這就需要對現(xiàn)有計算機視覺技術做進一步研究:不僅要重建3D形狀,而且要重構3D形狀的概念結構與層次結構. 在此基礎上,有望發(fā)展出視覺知識的自動學習手段. 當前的場景圖(Xu et al., 2017; Zellers et al., 2018)研究是向視覺知識自動學習前進的一個合適的中間方法. 為此,特別需要當今人工智能、計算機圖形學和計算機視覺3個領域的研究者們聯(lián)手研究視覺知識的自動學習. 人腦中的知識往往是通過多重表達來描述. 所以,在AI 2.0中的知識應有多種表達方式. 列出3種知識的表達與處理方法如下:(1)知識的言語表達. 其特點是使用符號數(shù)據(jù),因此結構清晰,語義可理解,知識可推理. 其典型例子如語義網(wǎng)絡、知識圖譜(Zhang NY et al., 2020). 目前,此類知識的獲取正在從人工構造向自動抽取過渡(Tang et al., 2018). (2)知識的深度神經網(wǎng)絡表達. 其特點是適用于圖像、音頻等非結構化數(shù)據(jù)的分類與識別,缺點是語義解釋困難. 其典型例子如DNN. 目前,此類知識的獲取正在從人工標注的監(jiān)督學習向無監(jiān)督學習發(fā)展(Brown et al., 2020). (3)知識的形象表達. 其特點是適用于圖形、動畫等描述形狀、空間、運動的數(shù)據(jù). 這一類知識結構清晰、語義可解釋、知識可推演. 其典型例子如視覺知識. 目前,此類知識的獲取與利用仍是一個亟需研究和發(fā)展的方向. AI的這3種知識表達符合人類記憶中的3種不同但相通的內容,現(xiàn)說明如下:(1)知識圖譜——語義的記憶內容,宜用于字符類信息的檢索與推理;(2)視覺知識——視覺情景的記憶內容,宜用于視覺形象類信息的時空推演與可視化;(3)深度神經網(wǎng)絡——感知的記憶內容,宜用于對原始數(shù)據(jù)中的模式通過逐層抽象進行學習,進而分類. 其中(1)和(2)與人類長期記憶中兩大內容——言語和心象的編碼方式——相對應. 其中(3)與人類短期記憶中的感知內容相對應. AI 2.0要令多種知識表達相通使用,這就是多重知識表達. 它將形成跨媒體智能(Zhuang et al., 2017)和大數(shù)據(jù)智能的技術基礎. 從視覺智能的5大問題分析可知,問題1、2、4的解決有較好基礎,問題3、5尚需多領域學者協(xié)力攻關. 由此可見,視覺知識及跨媒體知識表達是關鍵所在. 由上述分析可知,視覺知識的獨特優(yōu)點是具有形象的綜合生成能力、時空演化能力和形象顯示能力. 這些正是字符知識和DNN所缺乏的. AI與CAD/CG/VC技術聯(lián)合將為AI在創(chuàng)造、預測和人機融合等方面的新發(fā)展提供重要的基礎動力. 視覺知識和多重知識表達的研究是發(fā)展新的視覺智能的關鍵,也是促進AI 2.0取得重要突破的關鍵理論與技術. 這是一塊荒蕪、寒濕而肥沃的“北大荒”,也是一塊充滿希望、值得多學科合作勇探的“無人區(qū)”. 本文編譯自Pan YH, 2021. Miniaturized five fundamental issues about visual knowledge. Front Inform Technol Electron Eng, 22(5):615-618. https:///10.1631/FITEE.2040000 |
|
來自: taotao_2016 > 《視覺》