信通院AI白皮書：硬核干貨一文打盡，從技術流派到應用趨勢【附下載】| 智東西內參

板橋胡同37號 2018-09-08

展開全文

看點：從產業(yè)發(fā)展的角度，分析AI技術現(xiàn)狀、問題以及趨勢，盤點智能語音、語義理解、計算機視覺等相關應用。

自2016年AlphaGo擊敗李世石之后，人工智能（AI）這個再度翻紅的科技熱詞已經在爭議聲中走過了兩年多。這兩年里，從一鍵美顏、刷臉開機，到編輯快訊、演唱會抓逃犯，人工智能正在突破次元壁，落地現(xiàn)實。

人工智能的戰(zhàn)略重要性不僅吸引了科技巨頭和資本的瘋狂投資，養(yǎng)活了一眾創(chuàng)企，更是得到了各國頂層支持。

我國繼去年7月發(fā)布了《新一代人工智能發(fā)展規(guī)劃》，11月公布了首批國家人工智能開放創(chuàng)新平臺名單之后，工信部本周三又公示了2018年人工智能與實體經濟深度融合創(chuàng)新項目名單（覆蓋106個項目）。

本期的智能內參，我們推薦來自中國信息通信研究院和中國人工智能產業(yè)發(fā)展聯(lián)盟的人工智能發(fā)展白皮書（技術架構篇），從產業(yè)發(fā)展的角度，分析技術現(xiàn)狀、問題以及趨勢，盤點智能語音、語義理解、計算機視覺等相關應用。如果想收藏本文的報告（信通院-人工智能發(fā)展白皮書2018），可以在智東西（公眾號：zhidxcom）回復關鍵詞“nc285”獲取。

以下為智能內參整理呈現(xiàn)的干貨：

AI技術流派

讓機器實現(xiàn)人的智能，一直是人工智能學者不斷追求的目標，不同學科背景或應用領域的學者，從不同角度，用不同的方法，沿著不同的途徑對智能進行了探索。其中，符號主義、連接主義和行為主義是人工智能發(fā)展歷史上的三大技術流派。

符號主義

符號主義又稱為邏輯主義，在人工智能早期一直占據主導地位。

該學派認為人工智能源于數(shù)學邏輯，其實質是模擬人的抽象邏輯思維，用符號描述人類的認知過程。早期的研究思路是通過基本的推斷步驟尋求完全解，出現(xiàn)了邏輯理論家和幾何定理證明器等。

上世紀 70 年代出現(xiàn)了大量的專家系統(tǒng)，結合了領域知識和邏輯推斷，使得人工智能進入了工程應用。PC 機的出現(xiàn)以及專家系統(tǒng)高昂的成本，使符號學派在人工智能領域的主導地位逐漸被連接主義取代。

連接主義

連接主義又稱為仿生學派，當前占據主導地位。該學派認為人工智能源于仿生學，應以工程技術手段模擬人腦神經系統(tǒng)的結構和功能。

連接主義最早可追溯到 1943 年麥卡洛克和皮茨創(chuàng)立的腦模型，由于受理論模型、生物原型和技術條件的限制，在 20 世紀 70 年代陷入低潮。

直到 1982 年霍普菲爾特提出的 Hopfield 神經網絡模型和 1986年魯梅爾哈特等人提出的反向傳播算法，使得神經網絡的理論研究取得了突破。

2006 年，連接主義的領軍者 Hinton 提出了深度學習算法，使神經網絡的能力大大提高。2012 年，使用深度學習技術的 AlexNet模型在 ImageNet 競賽中獲得冠軍。

行為主義

行為主義又稱為進化主義，近年來隨著 AlphaGo 取得的突破而受到廣泛關注。

該學派認為人工智能源于控制論，智能行為的基礎是“感知—行動”的反應機制，所以智能無需知識表示，無需推斷。智能只是在與環(huán)境交互作用中表現(xiàn)出來，需要具有不同的行為模塊與環(huán)境交互，以此來產生復雜的行為。

在人工智能的發(fā)展過程中，符號主義、連接主義和行為主義等流派不僅先后在各自領域取得了成果，各學派也逐漸走向了相互借鑒和融合發(fā)展的道路。特別是在行為主義思想中引入連接主義的技術，從而誕生了深度強化學習技術，成為 AlphaGo 戰(zhàn)勝李世石背后最重要的技術手段。

深度學習一招翻紅

可以說，本輪人工智能的發(fā)展，是在大數(shù)據環(huán)境和計算能力大幅提升的基礎上，由深度學習帶動的。

深度學習全稱深度神經網絡，本質上是多層次的人工神經網絡算法，即從結構上模擬人腦的運行機制，從最基本的單元上模擬了人類大腦的運行機制。目前，深度學習已經在計算機視覺、語音識別、自然語言理解等領域取得了突破（詳情參考第209期智東西內參）。

▲深度學習已在多領域實現(xiàn)突破

深度學習分為訓練(training)和推斷(inference)兩個環(huán)節(jié)。訓練需要海量數(shù)據輸入，訓練出一個復雜的深度神經網絡模型。推斷指利用訓練好的模型，使用待判斷的數(shù)據去“推斷”得出各種結論。

大數(shù)據時代的到來，圖形處理器（GPU）等各種更加強大的計算設備的發(fā)展，使得深度學習可以充分利用海量數(shù)據（標注數(shù)據、弱標注數(shù)據或無標注數(shù)據），自動地學習到抽象的知識表達，即把原始數(shù)據濃縮成某種知識。

▲基于深度學習的人工智能技術架構

當前，基于深度學習的人工智能算法主要依托計算機技術體系架構實現(xiàn)，深度學習算法通過封裝至軟件框架的方式供開發(fā)者使用。

軟件框架是整個技術體系的核心，實現(xiàn)對人工智能算法的封裝，數(shù)據的調用以及計算資源的調度使用。為提升算法實現(xiàn)的效率，其編譯器及底層硬件技術也進行了功能優(yōu)化。

▲深度學習技術體系概述

人工智能算法的設計邏輯可以從“學什么”（表征所需完成任務的函數(shù)模型）、“怎么學”（通過不斷縮小函數(shù)模型結果與真實結果誤差來達到學習目的）和“做什么”（回歸、分類和聚類三類基本任務）三個維度進行概括。

▲人工智能主要算法分類

近年來，隨著AI算法在多領域的突破，相關算法的理論性研究持續(xù)加強，新算法如膠囊網絡、生成對抗網絡、遷移學習等，也被不斷提出。

▲人工智能新算法

下文將概述圍繞深度學習的五方面技術現(xiàn)狀和發(fā)展趨勢。

大佬開源造生態(tài)

如前所述，軟件框架是整個技術體系的核心，是算法的工程實現(xiàn)。當前，人工智能基礎性算法已經較為成熟，各大廠商紛紛發(fā)力建設算法模型工具庫，并將其封裝為軟件框架，供開發(fā)者使用。

企業(yè)的軟件框架實現(xiàn)有閉源和開源兩種形式：蘋果公司等少數(shù)企業(yè)選擇閉源方式開發(fā)軟件框架，目的是打造技術壁壘；目前業(yè)內巨頭基本都是基于自身技術體系的訓練及推斷軟
件框架，將開源深度學習軟件框架作為打造開發(fā)及使用生態(tài)核心的核心。

▲人工智能開源平臺對比（援引招商證券）

總體來說開源軟件框架在模型庫建設及調用功能方面具有相當共性，但同時又各具特點。業(yè)界目前主要有深度學習訓練軟件框架（TensorFlow、MXNet等）和推斷軟件框架（Caffe2go等）兩大類別。

當前開源軟件框架的技術發(fā)展呈現(xiàn)出以下幾方面的特點：

1、谷歌與其他公司間持續(xù)競爭。巨頭公司在技術上將積極探尋包括模型互換，模型遷移等技術聯(lián)合，以對抗谷歌公司。例如臉書（Facebook）和微軟已經合作開發(fā)了一個可互換的人工智能軟件框架解決方案。

2、開源軟件框架在向統(tǒng)一和標準化方向發(fā)展。隨著人工智能應用的爆發(fā)，開發(fā)人員在不同平臺上創(chuàng)建模型及部署模型的需求愈發(fā)強烈，在各類軟件框架間的模型遷移互換技術研發(fā)已經成為重點。

3、更高級的 API 逐漸占據主導地位。以 Keras 為例，它是建立在TensorFlow、Theano、CNTK、MXNet 和 Gluon 上運行的高級開源神經網絡庫，以其高級 API 易用性而得到了廣泛的使用。

4、模型的集群并發(fā)計算成為業(yè)界研究熱點。當前人工智能網絡對于單計算節(jié)點的算力要求過高，但當前主流開源軟件框架對于模型分割進行計算并沒有實現(xiàn)，而這個問題也將隨著應用場景的不斷豐富而不斷引起重視，成為開源軟件框架下一個核心競爭點。

編譯器解決適配問題

在實際工程應用中，人工智能算法可選擇多種軟件框架實現(xiàn)，訓練和開發(fā)人工智能模型也可有多種硬件選項，這就開發(fā)者帶來了不小的挑戰(zhàn)。

原因一是可移植性問題，各個軟件框架的底層實現(xiàn)技術不同，導致在不同軟件框架下開發(fā)的模型之間相互轉換存在困難；二是適應性問題，軟件框架開發(fā)者和計算芯片廠商需要確保軟件框架和底層計算芯片之間良好的適配性。

▲編譯器解決軟硬件適配問題

解決以上兩個挑戰(zhàn)的關鍵技術之一就是深度神經網絡模型編譯器，它在傳統(tǒng)編譯器功能基礎上，通過擴充面向深度學習網絡模型計算的專屬功能，以解決深度學習模型部署到多種設備時可能存在的適應性和可移植性問題。

▲深度學習的兩大表示規(guī)范

深度學習網絡模型的表示規(guī)范分為兩大陣營。

第一陣營是 Open Neural Network Exchange（ONNX，開放神經網絡交換），是一個用于表示深度學習模型的標準，可使模型在不同軟件框架之間進行轉移。ONNX 由微軟和 Facebook 聯(lián)合發(fā)布，該系統(tǒng)支持的軟件框架目前主要包括 Caffe2，PyTorch，Cognitive Toolkit 和 MXNet，而谷歌的TensorFlow 并沒有被包含在內。

第二陣營是 Neural Network Exchange Format（NNEF，神經網絡交換格式），是由 Khronos Group 主導的跨廠商神經網絡文件格式，計劃支持包括 Torch, Caffe, TensorFlow, 等幾乎所有人工智能軟件框架的模型格式轉換，目前已經有 30 多家計算芯片企業(yè)參與其中。

芯片提供算力保障

現(xiàn)有深度神經網絡需要用更短的時間、更低功耗完成計算，這就給深度學習計算芯片提出了更高的要求：一是計算芯片和存儲間海量數(shù)據通信需求，包括緩存（Cache）和片上存儲（Memory）要大，計算單元和存儲之間的數(shù)據交互帶寬要大；二是專用計算能力的提升，解決對卷積、殘差網絡、全連接等計算類型的大量計算需求，同時降低功耗。

總的來說，AI 計算芯片的發(fā)展過程可以總結為一直在圍繞如何有效解決存儲與計算單元的提升這兩個問題而展開，成本問題則作為一個舵手控制著最終的航向。

▲AI 計算芯片分類

在深度學習訓練環(huán)節(jié)，除了使用 CPU 或 GPU （深度學習訓練的首選）進行運算外，現(xiàn)場可編程門陣列（FPGA）以及專用集成電路（ASIC）也發(fā)揮了重大作用；而用于終端推斷的計算芯片主要以 ASIC 為主（詳情可參考第208期智東西內參）。

▲典型AI芯片商一覽

數(shù)據：人工智能的基礎資源

基于深度學習的人工智能技術，核心在于通過計算找尋數(shù)據中的規(guī)律，運用該規(guī)律對具體任務進行預測和決斷。

源數(shù)據需要進行采集、標注等處理后才能夠使用，標注的數(shù)據形成相應數(shù)據集。業(yè)務類型主要包括數(shù)據采集、數(shù)據處理、數(shù)據存儲以及數(shù)據交易等環(huán)節(jié)。

▲人工智能數(shù)據集的參與主體

當前，人工智能基礎數(shù)據類型主要包括語音語言類（包括聲音、文字、語言學規(guī)則）、圖像識別類（包括自然物體、自然環(huán)境、人造物體、生物特征等）以及視頻識別類三個大類，從世界范圍來看，數(shù)據服務商總部主要分布在美國、歐洲等發(fā)達國家。但其數(shù)據處理人員則大多數(shù)分布在第三世界國家；我國語音、圖像類資源企業(yè)機構正處于快速發(fā)展階段，為產業(yè)發(fā)展增添了動力。

計算和服務平臺的快速崛起

深度學習使用GPU計算具有優(yōu)異表現(xiàn)，催生了各類GPU服務器，帶動了 GPU 服務器的快速發(fā)展；同時，也帶動了以服務的形式提供人工智能所需要的能力，如深度學習計算類的計算平臺，以及語音識別，人臉識別等服務，這也成為人工智能企業(yè)打造生態(tài)的重要抓手。

一方面，服務器廠商相繼推出了專為 AI 而設計的、搭載 GPU 的，應用于視頻編解碼、深度學習、科學計算等多種場景的服務器，為 AI 云場景對彈性配置能力予以優(yōu)化，以增強 PCI-E 拓撲和數(shù)量配比的彈性，增加適配多種軟件框架的運算需求，支持 AI 模型的線下訓練和線上推理兩類場景。

另一方面，為了解決企業(yè)自行搭建 AI 能力時遇到的資金、技術和運維管理等方面困難，人工智能企業(yè)紛紛以平臺類服務和軟件 API 形式的服務等形式，提供 AI 所需要的計算資源、平臺資源以及基礎應用能力。

科幻落地未來已來

目前隨著深度學習算法工程化實現(xiàn)效率的提升和成本的逐漸降低，一些基礎應用技術逐漸成熟，如智能語音，自然語言處理和計算機視覺等，并形成相應的產業(yè)化能力和各種成熟的商業(yè)化落地。同時，業(yè)界也開始探索深度學習在藝術創(chuàng)作、路徑優(yōu)化、生物信息學相關技術中的實現(xiàn)與應用，并已經取得了矚目的成果。

▲基礎應用架構圖

智能語音

按機器在其中所發(fā)揮作用的不同，分為語音合成技術、語音識別技術、語音評測技術等。智能語音技術會成為未來人機交互的新方式，將從多個應用形態(tài)成為未來人機交互的主要方式。

已經面世的智能語音技術應用有智能音箱（智能家庭設備的入口）、個人智能語音助手（個性化應用整合），以及以 API 形式提供的智能語音服務，覆蓋了智能客服、教育/口語評測、醫(yī)療/電子病歷、金融/業(yè)務辦理、安防、法律、個人手機、自動駕駛及輔助駕駛、傳統(tǒng)家電、智能家居等領域的應用。

計算機視覺

一般來講，計算機視覺主要分為圖像分類、目標檢測、目標跟蹤和圖像分割四大基本任務。

目前，計算機視覺識別這一人工智能基礎應用技術部分已達商業(yè)化應用水平，被用于身份識別、醫(yī)學輔助診斷、自動駕駛等場景。

▲計算機視覺的三大熱點

在政策引導、技術創(chuàng)新、資本追逐以及消費需求的驅動下，基于深度學習的計算機視覺應用不斷落地成熟，并出現(xiàn)了三大熱點應用方向：人臉識別、視頻結構化、姿態(tài)識別。

自然語言處理

自然語言處理（NLP）是研究計算機處理人類語言的一門技術，是機器理解并解釋人類寫作與說話方式的能力，也是人工智能最初發(fā)展的切入點和目前大家關注的焦點。

自然語言處理的主要步驟包括分詞、詞法分析、語法分析、語義分析等，其應用方向主要有文本分類和聚類、信息檢索和過濾、信息抽取、問答系統(tǒng)、機器翻譯等方向。

展望AI的五大趨勢

人工智能這座礦還遠沒有挖完，還有一籮筐的問題等待解決。

一方面，深度學習算法模型存在可靠性及不可解釋性問題，因此存在產生不可控結果的隱患；另一方面，當前的數(shù)據環(huán)境不夠完善，存在著流通不暢、數(shù)據質量良莠不齊和關鍵數(shù)據集缺失等問題。

此外，推斷軟件框架質量參差不齊，制約了業(yè)務開展，編譯器缺乏統(tǒng)一的中間表示層標準，云、側端AI芯片的市場格局有待形成。

基于技術和產業(yè)的發(fā)展現(xiàn)狀，信通院總結出了以下五大趨勢：

1、遷移學習的研究及應用將成為重要方向。

遷移學習由于側重對深度學習中知識遷移、參數(shù)遷移等技術的研究，能夠有效提升深度學習模型復用性，同時對于深度學習模型解釋也提供了一種方法，能夠針對深度學習算法模型可靠性及不可解釋性問題提供理論工具。

2、深度學習訓練軟件框架將逐漸趨同，開源推斷軟件框架將迎來發(fā)展黃金期。

隨著人工智能應用在生產生活中的不斷深入融合，對于推斷軟件框架功能及性能的需求將逐漸爆發(fā)，催生大量相關工具及開源推斷軟件框架，降低人工智能應用部署門檻。

3、中間表示層之爭將愈演愈烈。

以計算模型為核心的深度學習應用，由于跨軟件框架體系開發(fā)及部署需要投入大量資源，因此模型底層表示的統(tǒng)一將是業(yè)界的亟需，未來中間表示層將成為相關企業(yè)的重點。

4、AI 計算芯片朝云側和終端側方向發(fā)展。

從云側計算芯片來看，目前 GPU 占據主導市場，以 TPU 為代表的 ASIC 只用在巨頭的閉環(huán)
生態(tài)，未來 GPU、TPU 等計算芯片將成為支撐人工智能運算的主力器件，既存在競爭又長期共存，一定程度可相互配合；FPGA 有望在數(shù)據中心中以 CPU+FPGA 形式作為有效補充。從終端側計算芯片來看，這類芯片將面向功耗、延時、算力、特定模型、使用場景等特定需求，朝著不同發(fā)展。

5、行業(yè)巨頭以服務平臺為核心打造生態(tài)鏈。

對于國內外的云服務和人工智能巨頭，如亞馬遜、微軟，阿里云、騰訊云、科大訊飛、曠視
科技等企業(yè)，將圍繞各自應用，與設備商、系統(tǒng)集成商、獨立軟件開發(fā)商等聯(lián)合，為政府，企業(yè)等垂直領域提供一站式服務，共同打造基于服務平臺的生態(tài)系統(tǒng)。

智東西認為，上一波的企業(yè)數(shù)字化為深度學習的產業(yè)化落地提供了初步引導，隨后，人工智能相關的大數(shù)據、云服務、芯片、算法產業(yè)和市場格局逐漸成熟。在智能語音、計算機視覺、自然語言理解等細分技術的發(fā)展下，智能醫(yī)療、智能金融、智能汽車等“AI+”項目掀起了一波創(chuàng)投熱。無疑，AI泡沫確實存在，但AI曙光勢必降臨。

今年9月20日，智東西將在重慶召開2018全球智能汽車供應鏈創(chuàng)新峰會，邀請來自整車廠、Tier1供應商、自動駕駛、車聯(lián)網等領域公司高管共同探討智能汽車的時代機遇。目前峰會報名已經全面開啟，大家可以掃描海報底部的二維碼直接報名。