乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      【深度學習】洗白“黑科技”深度學習

       Tomsp360lib 2019-04-16

      佟達ThoughtWorks商業(yè)洞見

      [摘要]

      最近幾年,深度學習備受關注。在2016年的每一項人工智能成就背后,幾乎都能看到深度學習的影子。數據的獲取、存儲、計算能力的增強,以及算法的進步等因素合力推動了深度學習技術的崛起。深度學習目前的成果大多來自學術研究,然而,在不遠的將來,以深度學習驅動的人工智能技術,將推動企業(yè)軟件開發(fā)產生巨大的變革。

      洗白“黑科技”深度學習

      2016年3月,由DeepMind研發(fā)的AlphaGo以4:1的戰(zhàn)績完勝世界圍棋冠軍李世乭,拉開人工智能瘋狂席卷IT圈的序幕。5月,Tesla在開啟Autopilot輔助駕駛模式后出現首例致死事故,將人工智能推上了風口浪尖?;艚?、比爾蓋茨、埃隆馬斯克等科技大咖相繼發(fā)言,討論人工智能是否會對人類未來發(fā)展不利,OpenAI應運而生。10月,HBO電視劇《西部世界》的上映,再一次引爆大眾對于人工智能的關注。由于媒體的夸張宣傳,人們甚至覺得《終結者》中的世界就要到來。

      伴隨著這一波人工智能浪潮崛起的,是一種被稱為“深度學習”的技術。不論是AlphaGo、自動駕駛,抑或是其他近期的人工智能突破,我們都能在其背后看到深度學習的影子。深度學習就像是人類打開的潘多拉盒子,放出了黑科技,席卷整個科技行業(yè)。

      Gartner2016年新技術發(fā)展曲線報告中可以看出,和人工智能相關的技術,要么處于泡沫期的頂峰,要么處于正在走向泡沫期的路上。為什么人工智能會突然爆發(fā)?它會不會只是媒體吹出來的一個泡沫?作為人工智能再次興起的核心技術突破,深度學習到底是什么“黑科技”?

      從信息時代到智能時代

      近20年間,互聯網經歷了一場“大躍進”。根據IDC做的統(tǒng)計:在2006年,全世界創(chuàng)造的數據量約為161EB,預計每18個月這個數字會翻一番,在2010年達到988EB(1024GB為1TB,1024TB為1PB,1024PB為1EB,1024EB為1ZB)。而事實上,根據IDC后來的報告,2010年達到的數字是1227EB。最近的一次IDC互聯網報告是在2014年,其中提到2013年全世界產生的數據是4.4ZB,到2020年,這一數字將達到44ZB。

      物聯網的發(fā)展正在加速這一過程。2013年,全世界接入互聯網的設備將近200億,到2020年,這一數字將達到300億。而全世界所有的“物體”總數,大概是2000億。這些設備通過其內嵌的傳感器監(jiān)控并收集數據,并上報到云計算中心。

      云計算、大數據和物聯網的窘境

      我們正處于“數字化一切”的時代。人們的所有行為,都將以某種數字化手段轉換成數據并保存下來。每到新年,各大網站、App就會給用戶推送上一年的回顧報告,比如支付寶會告訴用戶在過去一年里花了多少錢、在淘寶上買了多少東西、去什么地方吃過飯、花費金額超過了百分之多少的小伙伴;航旅縱橫會告訴用戶去年做了多少次飛機、總飛行里程是多少、去的最多的城市是哪里;同樣的,最后讓用戶知道他的行程超過了多少小伙伴。這些報告看起來非??犰?,又冠以“大數據”之名,讓用戶以為是多么了不起的技術。然而,我們實際上在只是做一件事:數(shǔ)數(shù)

      實際上,企業(yè)對于數據的使用和分析,并不比我們每年收到的年度報告更復雜。已經有30多年歷史的商業(yè)智能(Business Intelligence),看起來非常酷炫,其本質依然是數數,并把數出來的結果畫成圖給管理者看。只是在不同的行業(yè)、場景下,同樣的數字和圖表會有不同的名字。即使是最近幾年炙手可熱的大數據處理技術,也不過是可以數更多的數,并且數的更快一些而已。

      比如我們每天都在使用的搜索引擎。在自然語言處理領域,有一種非常流行的算法模型,叫做詞袋模型(Bag of Words Model),即把一段文字看成一袋水果,這個模型就是要算出這袋水果里,有幾個蘋果、幾個香蕉和幾個梨。搜索引擎會把這些數字記下來,如果你想要蘋果,它就會把有蘋果的這些袋子給你。

      當我們在網上買東西或是看電影時,網站會推薦一些可能符合我們偏好的商品或是電影,這個推薦有時候還挺準。事實上,這背后的算法,是在數你喜歡的電影和其他人喜歡的電影有多少個是一樣的,如果你們同時喜歡的電影超過一定個數,就把其他人喜歡、但你還沒看過的電影推薦給你。

      搜索引擎和推薦系統(tǒng)在實際生產環(huán)境中還要做很多額外的工作,但是從本質上來說,它們都是在數數。那么,數數有什么問題么? 有。

      數字的發(fā)明,讓我們的祖先可以用簡便的記法記錄下物體的個數。比如有一個放牛娃,家里最初只有3頭牛,他可以記住每一頭牛的樣子,每天回到家,掃一眼牛棚,就知道家里的牛丟沒丟。后來,因為家里經營的好,放牛娃的牛有100頭之多,隨之而來的是無法記清每頭牛的煩惱。如果沒有發(fā)明數字,他可能要把每一只牛照著模樣刻在石壁上,每天拉著一頭頭的牛到石壁邊去對照,看有沒有丟牛。當有了數字,放牛娃只需要記下“100”這個數字,再畫一頭牛就夠了,以后每天數一下牛群里面牛的數量,再看看石壁上的數字是否一樣。

      數數,讓放牛娃的工作變得簡單,他不用把每一頭牛的樣子都刻在石壁上,減輕了工作量??墒沁@種辦法并非萬無一失,有一天,附近一個游手好閑的小混混從別處找來一頭病牛,混到了放牛娃的牛群之中,同時又牽走了一頭壯牛。放牛娃在一天結束、清點自己的牛群時,發(fā)現還是100頭牛,不多不少,就心滿意足的回家睡覺了。然而他卻不知道,他的一頭壯牛被小混混用病牛換走了。

      對于主要以數數方式來使用數據的企業(yè),同樣面臨著無法關注數據細節(jié)的問題。當數據量比較小的時候,可以通過人工查閱數據。而到了大數據時代,幾百TB甚至上PB的數據在分析師或者老板的報告中,就只是幾個數字結論而已。在數數的過程中,數據中存在的信息也隨之被丟棄,留下的那幾個數字所能代表的信息價值,不抵其真實價值之萬一。過去十年,許多公司花了大價錢,用上了物聯網和云計算,收集了大量的數據,但是到頭來卻發(fā)現得到的收益并沒有想象中那么多。

      深度學習的困境

      我們所知的深度學習,本質上應該叫做“基于深度神經網絡的機器學習”。為什么用了”深度學習”這個名字,而不是深度神經網絡呢?其中一個原因是,“神經網絡”這個詞是一個禁忌。

      神經網絡算法的提出可以追溯到20世紀40年代。這一算法起源于生物學中對于動物大腦神經元的研究,因此早期也被稱為人工神經網絡(Artificial Neural Network)。最初的神經網絡是邏輯電路搭建,到了60年代,由于計算能力不足,無法構建大規(guī)模神經網絡,而小規(guī)模神經網絡的表現又差強人意。隨著其他機器學習方法的提出,很多科研人員開始轉向其他方向,人工神經網絡的研究陷入了停滯。

      典型神經元的結構

      20世紀80年代,隨著通用計算機的出現,人工神經網絡的研究經歷了一波復蘇。在這個階段,反向傳播(Back Propagation)算法逐漸成熟。直到今天,反向傳播算法都是訓練神經網絡的最主要方法。然而,依然受限于當時的硬件條件,神經網絡的規(guī)模依然不大。同時,以支持向量機為代表的基于核方法的機器學習技術,表現出了不俗的能力,因此,大量科研人員再一次放棄了神經網絡。

      然而并不是所有的科學家都放棄了神經網絡。在那些留守的科學家中,有一位剛剛拿到人工智能學位不久的年輕人,他曾在劍橋大學國王學院拿到實驗物理學的學士學位,因為對認知科學抱有濃厚的興趣,因此選擇專攻人工智能。他堅信“既然大腦能夠工作,神經網絡算法也一定能工作。大腦不可能是被編程出來的?!碑斔难芯砍晒⒉蝗珙A期時,他總是對質疑他的人回應:“再給我6個月,到時候我會證明它是可以工作的?!碑攷讉€6個月過去,神經網絡的效果依然不好,他會說:“再給我5年,一定能行?!?span>又是好幾個5年過去,神經網絡真的成了。這個人就是Geoffrey Hinton,深度學習之父。

      神經網絡在最初的幾十年內都沒有表現出過人的性能,主要面臨著兩個困難。首先是計算性能不足。實際上,在90年代,Hinton以及他的學生就已經在試驗和后來深度神經網絡類似的結構,其中就有大名鼎鼎的Yann LeCunn,他所提出的神經網絡結構就是現在的“LeNet”。但是,增加神經網絡的深度,就會讓神經網絡的訓練速度變慢。在那個內存不過幾十MB,GPU還沒有出現的年代,要訓練一個小規(guī)模的深度神經網絡模型,需要花上數周甚至數月。

      其次是訓練數據不夠多。在機器學習領域流傳著一個傳說,叫做“維度詛咒(Curse of Dimensionality)”,隨著特征維度的增加,算法的搜索空間急劇變大,要在這樣的特征空間中尋找適合的模型,需要大量的訓練數據。神經網絡要解決的問題,通常具有成千上萬維的特征,我們假設有1000維特征,每一維特征有100個候選值,那么這個特征空間就是100的1000次方,可以想象,要在如此大的特征中尋找一個模型,需要多少數據,而這個特征空間規(guī)模不過是深度學習問題中比較小的。幸好我們所在的這個世界,可以通過一個非常有用的先驗假設進行簡化:我們這個世界的事物都是通過更小的事物組合而成的。我們知道,所有的物體都是由分子構成,分子由原子構成,原子由質子、中子和電子構成,等等。不僅實際的物體滿足這一先驗假設,抽象的概念也一樣如此。因此深度神經網絡利用了這一假設,通過將網絡層數加深,每一層神經元都是前面一層神經元輸出的組合,通過這樣的假設,將整個搜索空間大大減小。然而,訓練深度神經網絡依然需要大量的數據,才能得到一個比較好的結果。

      深度神經網絡構建層級化特征

      取深度學習之長,補傳統(tǒng)軟件之短

      來到21世紀,正如我們前面所說,在21世紀的十幾年間,我們的數據量和計算能力都增長了不少,這為神經網絡證明其能力提供了條件。事實上,在Hinton的帶領下,神經網絡在2000年之后逐漸開始在一些比較小眾的領域獲得成功。而真正對學術界產生震動的,是2012年,Hinton實驗室的學生Alex Krizhevsky用基于深度神經網絡的方法,在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)圖像識別挑戰(zhàn)賽中一戰(zhàn)成名,其網絡結構也被人們稱為AlexNet。在那之前,圖像識別領域已經被基于支持向量機的算法霸占多年,而AlexNet不僅打敗支持向量機,而且將錯誤率降低了將近一半。自此之后,圖像識別算法的冠軍就一直是深度學習算法。

      基于深度學習的算法讓圖像識別精度在過去幾年大幅度提升

      除了在圖像識別領域獲得巨大成功,在短短的幾年之內,在各種場景下,基于深度神經網絡的算法都橫掃其他機器學習算法。包括語音識別、自然語言處理、搜索引擎、甚至自動控制系統(tǒng)。DeepMind的Alex Graves團隊在2014年的一篇論文中提出的神經圖靈機(Neural Turing Machine)結構,以及后來在2016年提出的DNC(Deep Neural Computer)結構,甚至可以成功學習簡單的算法,這不禁讓我開始遐想有一天,計算機可以自己給自己編程。

      深度學習給企業(yè)帶來的影響

      深度學習的端到端架構,降低了企業(yè)引入深度學習的成本

      相比其他經典的機器學習算法來說,深度學習需要人工干預的比例小很多。比如,在經典機器學習中,特征工程占用了科學家們開發(fā)算法的大部分精力,對于某些問題,比如圖像識別、語音識別,科學家們花了幾十年時間來尋找性能更好的特征。深度學習改變了這一情況。深度學習接收原始數據,在神經網絡的訓練過程中,尋找最適合的特征。事實證明,機器自己找到的特征,比人類科學家用幾十年找到的特征性能更好。正是由于深度學習的這一特點,深度學習的一個明顯趨勢,是端到端的解決問題。

      比如下圖所示的語音識別。經典語音識別需要對原始數據提取特征(比如梅爾倒譜系數),將提取到的特征建立時間序列模型(比如隱式馬爾科夫模型),得到聲學模型,然后根據發(fā)聲詞典,將輸入信號映射為一些音節(jié),最后,根據預先定義好的語言模型,將音節(jié)轉換為有意義的文字。這其中,特征提取、時間序列建模、發(fā)聲詞典等都需要人工預先定義好,對于不同的語種,比如中文和英文,還要使用不同的模型。

      端到端的深度學習越來越流行

      在深度學習流行起來的初期,語音識別流程中的特征提取以及時間序列建模等,都用深度神經網來替代了。到了最近幾年,科學家發(fā)現,對于語音識別這樣的問題,甚至流水線都是多余的,直接將原始數據接入到神經網絡中,就能輸出我們期望的文本,這樣的結構要比人工設計流程得到的結果更好。

      這種端到端的深度學習,在其他領域也被驗證是可行的。比如自動駕駛技術,在MIT的自動駕駛項目中,就是用端到端的深度強化學習技術,輸入是路況的所有信息,輸出就是對汽車的指令,比如加速、剎車、方向盤角度等等。

      深度學習的端到端架構,降低了企業(yè)引入深度學習的成本。過去,企業(yè)要引入機器學習,需要招聘一個科學家團隊,同時還需要一個開發(fā)團隊,將科學家所設計的算法模型翻譯成生產環(huán)境代碼。這樣的開發(fā)模式不僅成本高,響應速度也非常慢。而深度學習的端到端架構,對于科學家的要求降低了很多,而且,由于不需要通過特征工程來尋找特征,開發(fā)周期也大大縮短。對于很多規(guī)模不大、但希望朝智能化演進的企業(yè)來說,先嘗試引入深度學習是個不錯的選擇。

      智能時代的產品研發(fā)將由算法驅動

      在傳統(tǒng)的軟件開發(fā)中,用戶的交互方式是確定的,業(yè)務流程也是確定的;當我們嘗試將人工智能技術融入到產品中,需要面對大量的不確定性。

      首先是和用戶的交互方式將發(fā)生巨大變化。過去,我們通過按鈕、表單等控件來確保用戶是按照產品設計師的思路來使用軟件的。隨著深度學習在圖像識別、語音識別、文本識別等方面的快速發(fā)展,未來,我們的軟件在用戶的交互過程中,將更多的使用自然語言、語音、手勢、甚至是意識。具備觸屏功能的智能手機的出現,掀起了一波用戶體驗升級的浪潮,所有應用開發(fā)者都在尋找在觸屏應用中更自然的交互方式。而這一次,用戶交互方式的升級將比觸屏帶來的影響更加深遠。Amazon在這方面做出了開創(chuàng)性的嘗試,其智能音箱Echo在設計之初就特意去掉了屏幕,讓語音變成唯一的交互渠道。Facebook Messenger在發(fā)布了聊天機器人的平臺之后,同樣也給出了設計指導,開發(fā)者將以一種全新的方式去思考,軟件應該如何與用戶更好的溝通。

      其次是企業(yè)的業(yè)務決策會越來越多的依賴人工智能。過去,企業(yè)要基于數據進行決策,需要搭建數據倉庫,開發(fā)ETL程序,制作報表,等待分析師從各種各樣的報表中找到有價值的信息,最后做出業(yè)務改進的決策。現在,我們有了深度學習這把強大的錘子,可以讓我們對數據有更加深刻的洞察力;同時,實時流式大數據架構讓我們可以更快速地做出反饋。企業(yè)如果可以利用好這兩大利器,將釋放出更大的潛力。

      算法驅動的產品架構

      IT軟件的運維也將迎來新的革命。軟件系統(tǒng)越來越復雜、規(guī)模越來越大,對于運維人員的挑戰(zhàn)就越來越高。在IT行業(yè)的早期,運維更多是修復性工作,即發(fā)現壞了,立即進行修復。后來,為了減少系統(tǒng)修復帶來的損失,運維工作開始強調預防性,即根據歷史維護記錄,找到系統(tǒng)故障的規(guī)律,提前進行修復。然而,據統(tǒng)計,有規(guī)律的故障只占所有故障中的18%。因此,我們需要更好的識別并預測故障的能力,即預測性運維。深度學習在自動學習特征方面的優(yōu)勢,注定其在預測性運維領域也會發(fā)揮很大的作用。

      深度學習不是終結者

      深度學習在這幾年越來越流行,尤其是在AlphaGo擊敗人類棋手之后,一些媒體甚至開始營造人工智能可能會取代人類的緊張氛圍。然而,就目前的研究成果來看,想要發(fā)展出科幻電影中具備獨立思考能力、甚至可以和人類談戀愛的人工智能,還有很長一段距離。且不說情感、人格這類形而上的概念,尚未有嚴格的科學定義,更不用提人工智能能否具備這些屬性。單從目前人類的工作是否會被人工智能所替代來看,至少當前的深度學習還有很多局限性,要想打破局限,讓深度學習具有更大的作用,還有很多挑戰(zhàn)等待解決。

      挑戰(zhàn)1:多功能神經網絡

      盡管深度學習已經讓神經網絡具備了很大的靈活性,然而深度學習目前還只能做到一個神經網絡解決一個問題。比如訓練一個神經網絡要么只能識別圖片,要么只能識別語音,不能同時識別。比如,我們可以給一個神經網絡看一張圖片,神經網絡可以識別到圖片中是貓還是狗;我們也可以給另一個神經網絡聽一段聲音,這個神經網絡可以識別出是聲音中是貓還是狗的叫聲;但是,現在還沒有一個神經網絡,既能通過視覺識別物體,還能通過聽覺識別物體。盡管借助多任務學習(Multi-task learning)技術,神經網絡可以在識別圖片類別的同時,識別輪廓、姿態(tài)、陰影、文字等等相關的內容,相比我們人類多才多藝的大腦,現在的深度神經網絡可以說是非常低能。

      目前如果需要一個應用支持不同的能力,必須組合使用多個神經網絡,這不僅對于計算資源是巨大的消耗,不同神經網絡之間也難以形成有效的互動,比如圖片中的狗、聲音中的狗和一段文字中出現的狗,在各自的神經網絡中都有不同的表示方式。而對于人類來說,這些其實都是同一個概念。

      如何讓神經網絡能夠同時實現多個目標,目前科學家們也都還沒有答案,不過從人類大腦得到的啟示是,通過某種方式,將負責不同功能的神經網絡連接起來,組成更大的神經網絡,也許可以解決這個問題。Google在ICLR 2017上的一篇論文,通過一個系數門矩陣將多個子網絡連接起來,是在這個方向上的一個有趣嘗試。

      挑戰(zhàn)2:終極算法

      Pedro Domingos教授在《The Master Algorithm》一書中回顧了機器學習的5大流派:符號主義、連接主義、進化主義、貝葉斯主義、分析主義。這5類機器學習算法并沒有絕對的優(yōu)劣,不同的算法適用于不同的場景和問題。比如以神經網絡為主的連接主義算法,對于視覺、聽覺這類感知問題,具有更好的效果,但是卻不擅長邏輯推理。而邏輯推理剛好是符號主義算法所擅長的。書中提出了一種終極算法,能夠結合這五種主流機器學習,可以適用于更大范圍的問題域。

      深度學習正是連接主義發(fā)展而來,不過深度學習提供了可擴展性非常強的框架,以深度學習為基礎,很有希望將其他幾類機器學習算法融入進來。OpenAI在進行深度強化學習的實驗過程中發(fā)現,使用進化主義的遺傳算法替代經典的反向傳播(BP)算法,模型可以更快的收斂,性能也更好;Google基于TensorFlow框架開發(fā)的概率編程工具庫Edward,證明了概率圖和神經網絡可以無縫的結合在一起。

      從目前的趨勢看來,終極算法非常有希望。不過,事情不會總是這么順利。當年物理學家們希望尋找大統(tǒng)一理論來結合自然界四種基本力,電磁力、強核力、弱核力很快就結合到一個模型中,然而最后引力卻怎么都找不到結合的辦法。當我們找到終極算法的時候,通用人工智能(Artificial General Intelligence)就離我們不遠了。

      挑戰(zhàn)3:更少的人工干預

      深度學習讓機器學習不再依賴于科學家尋找特征,但調試深度神經網絡依然需要很多人工的工作,其中最主要的就是調參。這里所說的調參,不是調節(jié)神經網絡的每個神經元的參數,而是指調試超參數。超參數是用來控制神經網絡的描述性參數,比如,神經網絡的層數、每一層的神經元個數、學習率(Learning Rate)的大小、訓練時間的長短等等。這些參數的微小差異,會給最終模型帶來巨大的性能差異,而這部分工作大多需要靠經驗完成,很難總結出有效的最佳實踐。

      然而這一狀況在未來將會有所改善。既然神經網絡可以用于學習參數,就應該可以學習超參數。DeepMind提出的Learning to Learn算法,使用神經網絡來學習和調整學習率,可以讓神經網絡更快的收斂到理想的精度。正所謂,授人以魚不如授人以漁。

      結語

      深度學習的火爆,吸引了越來越多的計算機科學家投身到這一領域。如果以目前學術成果的發(fā)展速度來預測,也許不超過10年,上述深度學習的挑戰(zhàn)就會被解決。與其杞人憂天的擔心人工智能會毀滅人類,不如提前布局,做好準備,迎接智能時代的到來。智能時代的IT系統(tǒng),將是“具備自主性的IT系統(tǒng),能夠根據人類制定的目標,針對復雜業(yè)務變化,做出認為的最優(yōu)選擇。”如果深度學習的幾大挑戰(zhàn)能夠在幾年之內被解決,將大大加快未來IT系統(tǒng)實現的腳步。


      本文收錄于《ThoughtWorks商業(yè)洞見——智能時代》

      工業(yè)互聯網 智能制造


      產業(yè)智能官  AI-CPS

      加入知識星球“產業(yè)智能研究院”:先進產業(yè)OT(工藝 自動化 機器人 新能源 精益)技術和新一代信息IT技術(云計算 大數據 物聯網 區(qū)塊鏈 人工智能)深度融合,在場景中構建狀態(tài)感知-實時分析-自主決策-精準執(zhí)行-學習提升的機器智能認知計算系統(tǒng)實現產業(yè)轉型升級、DT驅動業(yè)務、價值創(chuàng)新創(chuàng)造的產業(yè)互聯生態(tài)鏈。

      版權聲明產業(yè)智能官(ID:AI-CPS推薦的文章,除非確實無法確認,我們都會注明作者和來源,涉權煩請聯系協商解決,聯系、投稿郵箱:erp_vip@hotmail.com。

        本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
        轉藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多