乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      曠視首席科學(xué)家孫劍:深度學(xué)習(xí)變革視覺計算

       taotao_2016 2019-07-18

      孫劍從視覺智能、計算機(jī)攝影學(xué)以及AI計算3個方面介紹了計算機(jī)視覺研究領(lǐng)域的變革。

       作者 | 張棟 

      AI科技評論按:7月12日-7月14日,2019第四屆全球人工智能與機(jī)器人峰會(CCF-GAIR 2019)于深圳正式召開。

      峰會由中國計算機(jī)學(xué)會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,深圳市人工智能與機(jī)器人研究院協(xié)辦,得到了深圳市政府的大力指導(dǎo),是國內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流博覽盛會,旨在打造國內(nèi)人工智能領(lǐng)域極具實力的跨界交流合作平臺。

      7月14日,「智慧城市·視覺智能」專場正式拉開帷幕,本專場全面圍繞“未來城市級視覺AI的發(fā)展方向”這一主題展開。

      會上,曠視首席科學(xué)家、研究院院長、西安交通大學(xué)人工智能學(xué)院院長孫劍帶來了題為《深度學(xué)習(xí)變革視覺計算》的精彩分享。

      孫劍從視覺智能、計算機(jī)攝影學(xué)以及AI計算3個方面介紹了計算機(jī)視覺研究領(lǐng)域的變革。

      他首先回顧了深度學(xué)習(xí)發(fā)展歷史,深度學(xué)習(xí)發(fā)展到今天并不容易,過程中遇到了兩個主要障礙:

      第一,深度神經(jīng)網(wǎng)絡(luò)能否很好地被訓(xùn)練。在深度學(xué)習(xí)獲得成功之前曾被很多人懷疑,相比傳統(tǒng)的機(jī)器學(xué)習(xí)理論,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的參數(shù)要比數(shù)據(jù)大10倍甚至上百倍;

      第二,當(dāng)時的訓(xùn)練過程非常不穩(wěn)定,論文即使給出了神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,其他研究者也很難把結(jié)果復(fù)現(xiàn)出來。

      這些障礙直到2012年才開始慢慢被解除。

      孫劍認(rèn)為,深度學(xué)習(xí)和傳統(tǒng)機(jī)器學(xué)習(xí)最大的差別是,隨著數(shù)據(jù)量越來越大,使用更大的神經(jīng)網(wǎng)絡(luò)就有可能超越人類性能。

      而具體到計算平臺上,目前包括云、端、芯上的很多硬件上都可以部署智能,技術(shù)發(fā)展趨勢是如何自適應(yīng)地根據(jù)計算平臺做自動模型設(shè)計。在這方面,曠視提出了Single Path One-Shot NAS的模型搜索新方法,它分為兩步:

      第一步是訓(xùn)練一個SuperNet,是一個超網(wǎng)絡(luò),包含我們想搜索的子網(wǎng)絡(luò),先訓(xùn)SuperNet所有的權(quán)重;

      第二步是搜索Sub-Nets子網(wǎng)絡(luò),好處是第二步不需要訓(xùn)練,非常高效。整個模型搜索時間只是正常訓(xùn)練時間的1.5-2倍,但可以得到非常好的效果。目前在多個測試集上得到了領(lǐng)先的結(jié)果。

      此外,為了構(gòu)建核心技術(shù),曠視還打造了自研的人工智能框架Brain++,包括具備多中心、強(qiáng)大算力的Brain++ Infrastructure,公司全員使用的深度學(xué)習(xí)引擎Brain++ Engine,以及整合最新模型搜索的AutoML技術(shù);同時,曠視還有人工智能數(shù)據(jù)標(biāo)注和管理平臺Data++,借助算法輔助數(shù)據(jù)清洗和標(biāo)注。


      曠視首席科學(xué)家、研究院院長、西安交通大學(xué)人工智能學(xué)院院長孫劍

      以下是孫劍博士大會現(xiàn)場演講內(nèi)容,雷鋒網(wǎng)作了不改變原意的整理及編輯:

      孫劍:謝謝大家,今天非常高興來到本次盛會,會議的火爆程度比去年高很多。這次Talk的主題是回顧深度學(xué)習(xí)對計算機(jī)視覺研究帶來的變化。 

      我們知道,計算機(jī)視覺在人工智能里占有非常重要的地位。人工智能可分為感知、認(rèn)知兩大部分,語音、自然語言、視覺是人工智能的三大支柱。我用不同的顏色表示不同方向的技術(shù)突破和落地程度。

      曠視成立之初一直致力于計算機(jī)視覺研究,其發(fā)展如此興盛的原因與我們周圍存在的海量攝像頭有關(guān)。

      我們知道,攝像頭作為一種重要載體,有非常多的應(yīng)用場景,這也是今天計算機(jī)視覺領(lǐng)域有非常多公司的原因之一。

      今天的分享主要分為三個方面,這也是深度學(xué)習(xí)引入計算機(jī)視覺后,對我們的研究帶來的三大變革:

      • 第一,視覺智能是回答了機(jī)器如何理解一張照片或者視頻,這方面的研究發(fā)生了哪些變化?

      • 第二,計算機(jī)攝影學(xué)研究如何從輸入圖像生成另一幅我們期望的圖像,這個領(lǐng)域發(fā)生了哪些變化?

      • 第三,今天的AI計算發(fā)生了哪些變化? 

      視覺智能

      Marvin Minsky是人工智能領(lǐng)域的奠基者。他在研究人工智能之初,曾研究一個計算機(jī)視覺問題:將一個攝像頭對著一堆積木用機(jī)械臂去抓取,以及讓機(jī)器堆放的和人擺放的一樣。

      他招了幾個實習(xí)生希望能在幾個月就完成這個項目,但是幾年后都沒有太大進(jìn)展。這說明計算機(jī)視覺是個非常難的課題。 

      計算機(jī)視覺研究雖然場景很多,至今可以歸類為幾個問題:分類、檢測、分割以及將前三者用于視頻序列的識別工作。

      計算機(jī)視覺尤其是語義理解核心是如何在計算機(jī)中表示一張照片,以至于可以操作它、理解它,用它做各種各樣的應(yīng)用。最早期的研究包括David Marr提出的 2.5D Sketch, 和Part-base的表示。

      90年代的神經(jīng)網(wǎng)絡(luò)主要用來做做字符識別、人臉檢測。2000年左右,類似Boosting的機(jī)器學(xué)習(xí)方法第一次引入學(xué)習(xí)特征。

      2000年后最好的方法是Feature-base,從一張圖中抽取很多局部的特征,編碼成一個非常長的向量。2010年深度學(xué)習(xí)后,神經(jīng)網(wǎng)絡(luò)給我們帶來了更強(qiáng)大的視覺表示方法。 

      深度神經(jīng)網(wǎng)絡(luò)有兩個特征:

      首先,它是對一張圖片做映射,映射到一個高維空間的向量上;它由非常長的非線性變換組成,進(jìn)來的信號進(jìn)行多次非線性變換,直到人們得到想要的圖像表示。

      第二,這個非線性變換中的所有參數(shù)都是根據(jù)監(jiān)督信號全自動學(xué)習(xí)的,不需要人工設(shè)計。

      這是一個可視化工作,展示了神經(jīng)網(wǎng)絡(luò)在前面一些層學(xué)到了類似邊緣、角點或紋理等初級模式,在后面一些層學(xué)到越來越多的語義模式例如物體或物體部分。整體學(xué)到了分層結(jié)構(gòu)的表示。 

      深度學(xué)習(xí)走到今天經(jīng)歷了很多的坎坷,直到2010年才重新占據(jù)了統(tǒng)治性地位,發(fā)展過程中主要遇到了兩個障礙:

      • 第一,深度神經(jīng)網(wǎng)絡(luò)能否很好地被訓(xùn)練。在今天深度學(xué)習(xí)成功之前很多人是不相信的。按照傳統(tǒng)的機(jī)器學(xué)習(xí)理論,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的參數(shù)比訓(xùn)練數(shù)據(jù)要大10倍甚至上百倍,如何很好地學(xué)習(xí)出來,很多人不相信。 

      • 第二,當(dāng)時的訓(xùn)練過程非常不穩(wěn)定,論文報了深度學(xué)習(xí)或者神經(jīng)網(wǎng)絡(luò)訓(xùn)練的方法,別人很難把結(jié)果復(fù)現(xiàn)出來。作為一名導(dǎo)師,很難鼓勵他的學(xué)生從事這方面研究。

      這兩個障礙直到2012年開始慢慢地被解除。

      從2012年AlexNet,一個8 Layers的神經(jīng)網(wǎng)絡(luò),后來有VGG, 一個19 Layers的神經(jīng)網(wǎng)絡(luò),到了2015年,我們提出了152 Layers的神經(jīng)網(wǎng)絡(luò)。隨著網(wǎng)絡(luò)層數(shù)的增加與數(shù)據(jù)的增多,我們第一次在ImageNet數(shù)據(jù)集上讓機(jī)器超越了人類。

      從ImageNet數(shù)據(jù)集建立,到打破人類的性能大概用了5-6年時間。我想當(dāng)初李飛飛教授團(tuán)隊完全沒有想象到可以這么快,機(jī)器的能力超過人的能力。

      我們當(dāng)時做152 Layers網(wǎng)絡(luò)經(jīng)常被問一個問題:為什么這個網(wǎng)絡(luò)是152 Layers?我們確定的回答是當(dāng)時內(nèi)存就可以裝這么多層。

      去年一個朋友給了一個更好的答案:8乘以19等于152。AlexNet是8層,VGG網(wǎng)絡(luò)是19層,所以ResNet是152層。 

      ResNet的核心思想是加入跳層連接,不要學(xué)習(xí)直接的映射而是學(xué)習(xí)殘差映射,這樣非常有利于訓(xùn)練或優(yōu)化。

      ResNet出來后,同行給了各種各樣的解釋。這是我比較相信的解釋:而非ResNet很容易表示0映射,即輸入信號和輸出很接近0;而ResNet很容易表示Identity映射,即輸入信號和輸出很接近,直觀的理解是當(dāng)一個網(wǎng)絡(luò)非常深時,相鄰的變化越來越小。這種參數(shù)化的形式更利于學(xué)習(xí),以至于我們神經(jīng)網(wǎng)絡(luò)的優(yōu)化更容易。

      這里列出深度學(xué)習(xí)之前遇到的很多困難:

      • 數(shù)據(jù)、計算力不夠;

      • 如何初始化網(wǎng)絡(luò)的方式;

      • 如何使用非線性單元等。

      ResNet補(bǔ)充了一點:網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)當(dāng)對優(yōu)化更友好。綜合這些在深度學(xué)習(xí)方面的各種進(jìn)展,今天每個人都可以很好地重現(xiàn)結(jié)果,做出高度可重復(fù)的實驗。 

      深度學(xué)習(xí)的映射能力非常強(qiáng)大,ResNet去年被用到AlphaGo Zero 中,他們用一個40或者80 Layers的ResNet,來預(yù)測棋子應(yīng)該放置的位置。下棋這么復(fù)雜的映射都可以被一個簡單的ResNet很好地學(xué)到,說明了其映射能力之強(qiáng)。 

      在實際過程中,在有監(jiān)督學(xué)習(xí)問題上,深度學(xué)習(xí)和傳統(tǒng)機(jī)器學(xué)習(xí)最大的差別在于:隨著數(shù)據(jù)量越來越大,如果用更大的網(wǎng)絡(luò),很有可能超越人類的性能。 

      曠視第一個云服務(wù)的產(chǎn)品——Faceplusplus.com,提供了各種計算機(jī)視覺API,服務(wù)了全世界的開發(fā)者。

      我們另一個產(chǎn)品是FaceID.com,它是目前最大的第三方身份認(rèn)證平臺,由于它遠(yuǎn)超人類的能力,目前服務(wù)于包括互聯(lián)網(wǎng)金融、銀行客服、交通出行等領(lǐng)域。

      上述討論的產(chǎn)品主要應(yīng)用在云上,不用太考慮計算速度和神經(jīng)網(wǎng)絡(luò)的大小。云端模型的目標(biāo)是突破認(rèn)知邊界,看我們能做得多好。

      但是在線下場景,很多應(yīng)用需要在移動端或手機(jī)上運行。在移動端這個計算平臺上,有兩個代表性的神經(jīng)網(wǎng)絡(luò)設(shè)計可以參考:

      • 一個是Google的MobileNet系列;

      • 一個是曠視ShuffleNet系列。

      ShuffleNet有V1和V2版本,核心是提出了一套設(shè)計原理:比如讓卷積更平衡;盡量不要產(chǎn)生分支;降低整體結(jié)構(gòu)的碎片化,避免逐元素操作。

      我們的ShuffleNet V2設(shè)計性能非常出色。這是Google AI團(tuán)隊給出評測報告,他們評測ShuffleNet  V2在實際運行速度上經(jīng)常比MobileNet  V2快30-50%。

      由此曠視助力國內(nèi)全部一線手機(jī)廠商,做出了第一款2D人臉解鎖手機(jī)、第一款3D結(jié)構(gòu)光人臉識別解鎖手機(jī)、第一款紅外人臉解鎖手機(jī)等。 

      隨著端上對功耗要求更低、面積體積更小,所以需要進(jìn)一步研究如何把神經(jīng)網(wǎng)絡(luò)在芯片上高效運行。

      因此出現(xiàn)了以低比特表示為代表的一系列工作,包括DorefaNet(曠視首先提出),在低比特運算方面,這是第一個提出將權(quán)重、激活向量、和梯度都進(jìn)行低比特化的工作。

      在芯片上,比計算最大的問題是內(nèi)存訪問帶寬受限,需要內(nèi)存訪問量很大程度壓下去,才可能高效運行。

      這是我們在2017年推出的第一款基于FPGA的智能相機(jī),我們把DorefaNet放在智能相機(jī)里。

      2018年,我們把DorefaNet放在了一顆我們與合作伙伴聯(lián)合研發(fā)的ASIC芯片上,提供了比FPGA高非常多的性能。 

      它不但可以用在手機(jī)上,還能用在實時的自動化場景中。右上圖是AGV,用來搬運貨架或物品,它有兩個攝像頭,朝下和朝前看,分別做車的導(dǎo)航和避障,類似室內(nèi)無人車。

      攝像頭是機(jī)械臂的眼睛,它在搬運物體需要實時識別箱子在哪里,在哪里抓取箱子。在自動化流程過程中需要高效、高速地在端上做智能計算。

      用了這些芯片的計算方法,可以應(yīng)用到非常多的智能硬件上。這張圖是都是曠視自研的硬件。 

      在神經(jīng)網(wǎng)絡(luò)設(shè)計的最新研究方面,目前很熱的趨勢叫AutoML或者NAS。這是一個很好的網(wǎng)站(automl.org),大家可以在這里看最新的文章。

      NAS的問題核心是解一個嵌套的權(quán)重訓(xùn)練問題和網(wǎng)絡(luò)結(jié)構(gòu)搜索問題。

      這個問題非常難,需要非常大的計算量。最早Google用增強(qiáng)學(xué)習(xí)或演化計算方法降低計算量,但計算量依然非常大。

      最新流行的方式是用權(quán)重分享的方式,比如用Darts或ProxyLess等工作。我們曠視今年年初推出了Single Path One-Shot的新方法,分為兩步:

      第一步是訓(xùn)練一個SuperNet,這是一個超大的網(wǎng)絡(luò),任何子網(wǎng)絡(luò)是我們想搜索的網(wǎng)絡(luò)。我們先訓(xùn)SuperNet所有的權(quán)重;

      第二步是做對SuperNet采樣其中的子網(wǎng)絡(luò),好處是這一步不需要訓(xùn)練,非常高效,訓(xùn)練時間是正常訓(xùn)練時間的1.5-2倍,可以得到非常好的效果。目前在多個測試集上得到了最好效果。

      我們的方法不但可以做圖像分類,也可以做物體檢測。

      我們的方法還可以用來做模型簡化(Pruning),同樣可以用SuperNet的方法,先訓(xùn)一個PruningNet,它相當(dāng)于一個SuperNet,由PruningNet生成很多子網(wǎng)絡(luò),得到很多很好的Pruning的效果。 

      以上是今天的第一部分,說的是視覺智能,我們從Feature的功能化定義,到走向模型的設(shè)計,再走到現(xiàn)在的模型搜索。

      計算攝影學(xué)

      第二部分,我想分享以前做了很多年的研究方向——計算攝影學(xué)。除了計算智能,計算機(jī)視覺中還有一個問題是給輸入一個圖像,輸出是另一個圖像。從輸入質(zhì)量比較差的圖像(比如模糊、有噪聲、光照不好)恢復(fù)更好的圖像,這就是計算攝影學(xué),也是目前研究很活躍的方向。  

      計算攝影學(xué)以前是怎么做的?這篇(上圖)是我們2009年的Dehaze去霧,引入黑通道先驗并結(jié)合霧的物理產(chǎn)生過程來恢復(fù)沒有霧的圖像,效果非常好,并獲得了CVPR 2009最佳論文。

      這是我們以前和同事一起做的(上圖),如何從一張模糊圖像和噪聲圖像恢復(fù)成清晰的圖像,這里用了很多傳統(tǒng)的反卷積方法。 

      這是另一問題,被稱為圖像摳圖:左邊是輸入,右邊是輸出,目的是把前景精細(xì)分離出來。

      這是我和今天第一位講者賈佳亞教授當(dāng)年聯(lián)合做的一篇文章(上圖)。

      這是我和賈佳亞合作的第二篇文章(左上圖)。一張圖上缺失一部分或者想移除一個人,我們通過交互的方法,上面畫一些線;后來我們又利用Patch自然統(tǒng)計的方法,能夠做的更好。

      總結(jié)一下傳統(tǒng)的計算攝影學(xué)方法:“八仙過?!?,每個問題需要尋找不同的假設(shè),每個問題都要單獨的去建模和求解。

      不同的研究員有不同的方法,好處是你有能力的話可以做出非常有意思的方法,壞處是每一個方法都要獨立設(shè)計。 

      今天的深度學(xué)習(xí)的方法是拋棄了以前的做法,不需要做任何顯式的假設(shè),通過全卷積的Encoder-Decoder輸出想要的圖像。 

      舉個例子,關(guān)于Image Matting問題,今天的方法是:通過一個多任務(wù)的網(wǎng)絡(luò),可以直接輸出Matting的結(jié)果,非常細(xì)的毛發(fā)都能提取出來。我們的工作在圖像Matting最大的兩個benchmark上都排名第一。 

      Matting不光可以做圖像合成,它還可以用單攝像頭就拍出像單反一樣的效果。 

      還有一個變革是這對相機(jī)里面的圖像信號處理器ISP(Image Signal Processor), 上面是傳統(tǒng)的圖像ISP和圖像信號處理流程,后面是AI-ISP,用一個神經(jīng)網(wǎng)絡(luò)來做。

      左邊是之前,右邊是之后,AI-ISP可以得到非常好的降噪效果和高質(zhì)量的圖像。

      這個方法獲得了今年CVPR圖像降噪的冠軍,同時我們將這個方法應(yīng)用在OPPO今年最新的旗艦手機(jī)OPPO Reno 10倍變焦版的夜攝超畫質(zhì)拍攝技術(shù)上。

      AI計算

      最后我想分享我們在計算上的變革。

      左邊傳統(tǒng)的馮諾伊曼計算架構(gòu),服務(wù)了我們很多年。但隨著數(shù)據(jù)的日益增大,出現(xiàn)了“馮諾伊曼瓶頸”,指內(nèi)存和計算單元之間搬運數(shù)據(jù)的瓶頸。

      右邊是今天神經(jīng)網(wǎng)絡(luò)做訓(xùn)練、推理的方法,它突破了這個瓶頸。因為神經(jīng)網(wǎng)絡(luò)計算非常簡單,基本上只包含向量和矩陣之間的操作,可以避免很多判斷和分支,用大規(guī)模并行的計算方式消除瓶頸。

      雖然摩爾定律慢慢消失了,AI計算能力反而在超指數(shù)增長,從2016年10 TFLOPS的算力,現(xiàn)在到幾百的TFLOPS。

      前期帶來的變化是從以前的大規(guī)模計算CPU Cloud(大盒子)遷移到了 GPU Box(小盒子)。但是大概2015年后,大家發(fā)現(xiàn)這些小盒子也不行,因為我們現(xiàn)在用更大的模型,我們今天在ImageNet上的模型比我們2015年用的大10倍都不止。另外,很多人一起工作時的每人一個小盒子的效率是非常低效的。

      在模型大小方面,物體識別目前最權(quán)威的比賽是COCO,2017年我們得到了3項冠軍,隨著我們更大的模型,效果越來越好。2018年我們有更大的模型,拿下了4項COCO冠軍。

      這么大的模型,在一個小盒子里是不行的。2018年我們提出一個方法MegDet,結(jié)論是你可以用多個計算單元,可以把訓(xùn)練速度非常高效的提高,幾乎是線性速度的加速,性能更好,這是模型的變化,是第一個方面。

      數(shù)據(jù)的話也會越來越大,這是曠視和北京智源人工智能研究院共同推出的Objects365,第一階段開源超過1000萬的標(biāo)注框,這是目前世界上最大的檢測數(shù)據(jù)集,不光是數(shù)據(jù)大,可以真正學(xué)到更好的Feature,這是第二方面。 

      第三方面,如果你的數(shù)據(jù)非常大無法放在小盒子里,必須放在中心。帶來的問題是,如果我們同時訓(xùn)練,傳輸是很大的問題,

      于是,在2015年之后,我們又從小盒子又回到大盒子,但這個大盒子是是GPU或者TPU Cloud。

      為了做這件事,曠視自研了我們的AI平臺Brain++,底層是物理算力,上面有Engine、Computing,Data,和AutoML。 

      這個Brain++ Engine是我們自研的深度學(xué)習(xí)引擎,之前大家用最多的是Caffe、TessorFlow、Pytorch,曠視從2014年研發(fā)Brain++ Engine,到現(xiàn)在曠視全員使用已經(jīng)的版本已經(jīng)是7.0版本。

      據(jù)我所知,曠視是所有創(chuàng)業(yè)公司中唯一一家自研深度學(xué)習(xí)引擎并且全員使用的公司。引擎之下是計算環(huán)境,包括硬件管理,包括計算存儲管理、模型訓(xùn)練支持等。

      最后是自動模型搜索,也是在我們引擎中。它需要用大算力才可以把最好的模型搜索出來。

      以上是我今天的分享,謝謝大家!

      向左滑動,查看本論壇嘉賓

      「AI投研邦」將在近期上線CCF GAIR 2019峰會完整視頻與各大主題專場白皮書,包括機(jī)器人前沿專場、智能交通專場、智慧城市專場、AI芯片專場、AI金融專場、AI醫(yī)療專場、智慧教育專場等。「AI投研邦」會員們可免費觀看全年峰會視頻與研報內(nèi)容,掃碼進(jìn)入會員頁面了解更多,或私信助教小慕(微信:moocmm)咨詢。

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多