乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      AlphaGo外傳——機器學(xué)習(xí)與算法智能

       老夫不請自來也 2018-01-08
      文章來源:科學(xué)網(wǎng)  王東明的博客  2018-1-7 20:46
      ?

      阿狗數(shù)學(xué)的遠房親戚AlphaGo,即阿爾法圍棋,它是由谷歌旗下的DeepMind公司創(chuàng)始人Demis Hassabis團隊開發(fā)的人工智能程序。這個程序在2016年和2017年出盡風(fēng)頭,它讓圍棋高手陷入窘境,讓天才對未來憂心忡忡。那么,AlphaGo的類腦機制的智商因何如此之高?

      2015年10月,AlphaGo的初始版本AlphaGo Fan以5比0的傲人戰(zhàn)績擊敗歐洲圍棋三連冠棋手樊麾;2016年3月,升級版AlphaGo Lee與圍棋世界冠軍、職業(yè)九段棋手李世石對戰(zhàn),以4比1的比分獲勝;2016年末至2017年初,再次升級的新版AlphaGo Master在中國棋類網(wǎng)站上以“大師”(Master)為注冊賬號與中日韓數(shù)十位圍棋高手進行快棋對決,連戰(zhàn)60局未嘗一??;2017年5月,在中國烏鎮(zhèn)圍棋峰會上,AlphaGo Master與排名世界第一的棋手柯潔對決3局,無一敗北。見好就收,AlphaGo團隊宣布不再參加圍棋比賽,退出了人類圍棋圈。圍棋界普遍認為,AlphaGo的棋力已經(jīng)超過了人類頂級職業(yè)棋手的水平。

      2017年10月18日,DeepMind公司發(fā)布了AlphaGo的最新版本AlphaGo Zero。這個Zero經(jīng)過三天三夜的訓(xùn)練,就以100比0的離奇戰(zhàn)績擊潰Lee。再經(jīng)過近四十天的訓(xùn)練,它又擊敗了Master。Zero最引人注目的不僅僅在于它的戰(zhàn)績,更在于它完全脫離了人類棋譜,僅僅依靠自我訓(xùn)練,就以更少的計算力度“超越”了前輩。AlphaGo神奇戰(zhàn)績的秘密都藏在它的腦組織:算法之中。

      根據(jù)AlphaGo團隊發(fā)表的首篇論文,任何完全信息博弈都是一種搜索,而搜索的復(fù)雜性則由搜索空間的寬度與深度決定。對圍棋來說,搜索寬度約為250,深度約為150。AlphaGo的早期版本,包括Lee和Master,其主要原理是深度學(xué)習(xí)、強化學(xué)習(xí)與蒙特卡羅樹搜索。

      深度學(xué)習(xí)主要在于建立兩個受過訓(xùn)練的模型網(wǎng)絡(luò):價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。AlphaGo利用價值網(wǎng)絡(luò)來削減搜索的深度,利用策略網(wǎng)絡(luò)來削減搜索的寬度,從而極大地縮小了搜索空間。

      價值網(wǎng)絡(luò)是一種用來評估、度量當(dāng)前棋盤狀態(tài)的神經(jīng)網(wǎng)絡(luò)。它的輸入是棋盤中19×19個點的狀態(tài),輸出是獲勝的期望值。理論上總存在一個高級函數(shù),它可以用來計算這個期望值。但遺憾的是,目前還沒有找到計算期望值的高級函數(shù),所以人們只能用多層的神經(jīng)元網(wǎng)絡(luò)來擬合這個函數(shù)。對某些棋盤狀態(tài)輸贏是很容易判斷的,因而它們的后續(xù)狀態(tài)并不需要繼續(xù)探索。價值網(wǎng)絡(luò)的目的就是通過確定那些輸贏容易判斷的棋盤狀態(tài)來削減搜索深度。

      策略網(wǎng)絡(luò)則是一種根據(jù)當(dāng)前的棋盤狀態(tài),評估每種著子的勝率,并從中選擇最大勝率著子的神經(jīng)網(wǎng)絡(luò)。其實這就是給出選擇可能著子的概率分布。同樣,也存在一個高級函數(shù),它可以用來計算所述概率分布。也出于同樣原因,人們只能利用多層神經(jīng)元網(wǎng)絡(luò)來擬合所述高級函數(shù)。因為有些著子獲勝概率極低,可以忽略,因此可以利用策略網(wǎng)絡(luò)確定可忽略的著子來削減搜索寬度。

      AlphaGo具體使用深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)來訓(xùn)練價值網(wǎng)絡(luò)與策略網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是用來模擬人類或動物大腦,利用多個神經(jīng)元共同計算逼近某種復(fù)雜函數(shù)的方法。任何一種價值判斷都可以理解為某種從輸入到輸出的多元函數(shù)。數(shù)學(xué)上已經(jīng)證明,使用神經(jīng)網(wǎng)絡(luò)可以無限逼近上述多元函數(shù)。由于圍棋盤可以看作一幅19×19的圖像,所以AlphaGo團隊選擇了適合處理圖像的深度(即多層的)卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)建價值網(wǎng)絡(luò)與策略網(wǎng)絡(luò)。

      基于深度卷積神經(jīng)網(wǎng)絡(luò),AlphaGo先進行策略網(wǎng)絡(luò)學(xué)習(xí),再進行價值網(wǎng)絡(luò)學(xué)習(xí)。策略網(wǎng)絡(luò)學(xué)習(xí)又分為兩步,第一步是有監(jiān)督的學(xué)習(xí),即學(xué)習(xí)人類的既往棋譜,也就是KGS圍棋平臺上的3000萬個著子位置。AlphaGo會隨機選擇著子位置,利用以往的棋譜來預(yù)測人類棋手可能的應(yīng)對著子位置,從而判斷每種著子的勝率。如果僅使用著子歷史和位置信息,預(yù)測成功率為55.7%;加上其他因素,成功率可以提高到57%。第二步是強化學(xué)習(xí),即在監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)的基礎(chǔ)上,不斷讓當(dāng)前策略網(wǎng)絡(luò)與前一策略網(wǎng)絡(luò)進行對弈,并利用輸贏不同的反饋來優(yōu)化策略網(wǎng)絡(luò)。價值網(wǎng)絡(luò)訓(xùn)練與策略網(wǎng)絡(luò)訓(xùn)練類似,不過輸出的是獲勝的概率。

       除了策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò),AlphaGo還有一個重要組成部分:快速著子分析模塊。該模塊與監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)一樣,由人類棋譜訓(xùn)練而來,可以看作是一個簡化版的監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò),用于快速得到蒙特卡羅樹搜索過程中節(jié)點的模擬勝率。

      在通過深度學(xué)習(xí)與強化學(xué)習(xí)完成價值網(wǎng)絡(luò)、策略網(wǎng)絡(luò)與快速著子分析模塊的構(gòu)建后,AlphaGo通過蒙特卡羅樹搜索來實現(xiàn)思考搜索,其過程大致如下。

      首先假定當(dāng)前棋局狀態(tài)為S,并且對每種可能的著子a,都有著子價值Q(S,a)、初始概率P(S,a)及訪問次數(shù)N(S,a)。然后針對當(dāng)前棋局,蒙特卡羅樹搜索不斷地進行棋局模擬。

      在一次棋局模擬過程中,假設(shè)從根節(jié)點(S,a)出發(fā)到達第t個節(jié)點時的棋局狀態(tài)是S(t),這時在所有可能的著子a中找出著子a(t),使得Q(S(t),a)+u(S(t),a)最大。式中的Q(S(t),a)為當(dāng)前節(jié)點的著子價值,它是由之前所有經(jīng)過該節(jié)點的棋局模擬的最終勝率求平均得到,而且u(S(t),a)正比于P(S(t),a)/[1+N(S(t),a)],其中初始概率P(S(t),a)為通過策略網(wǎng)絡(luò)得到的獲勝概率,訪問次數(shù)N(S(t),a)為到目前為止所有棋局模擬過程中經(jīng)過節(jié)點(S(t),a)的次數(shù)(這里引入節(jié)點訪問次數(shù)是為了鼓勵嘗試新的節(jié)點)。

      之后將著子a(t)作為棋局模擬的下一節(jié)點,并重復(fù)這一過程直至一個從未展開過的節(jié)點,該節(jié)點的子節(jié)點的初始概率在之前的棋局模擬中尚未計算。接下來對該節(jié)點的所有子節(jié)點計算最終勝率和初始概率,其中最終勝率是由通過價值網(wǎng)絡(luò)得到的獲勝概率與通過快速著子分析模塊多次模擬棋局得到的模擬勝率加權(quán)平均所得到的。在選定最佳著子后,利用該著子的最終勝率,對當(dāng)前棋局模擬經(jīng)過的所有節(jié)點的著子價值與訪問次數(shù)進行更新。最后,完成本次棋局模擬,并開始下一次棋局模擬。

      在蒙特卡羅樹搜索結(jié)束之后,由于每次棋盤模擬都是選擇最佳節(jié)點,AlphaGo會選擇根節(jié)點下訪問次數(shù)最多的子節(jié)點作為下一步的著子節(jié)點。至于蒙特卡羅樹搜索什么時候終止,這要看AlphaGo有多少時間來走下一步棋。

      以上是AlphaGo在Zero之前的幾個版本所使用的算法。而在2017年10月推出的Zero與前輩相比,棋力有了很大提高,當(dāng)然所用的算法也有很大改善。下面我們來看一下Zero的算法有哪些改進。

      首先,取代之前同時使用策略網(wǎng)絡(luò)與價值網(wǎng)絡(luò),Zero使用同一神經(jīng)網(wǎng)絡(luò),輸入棋局狀態(tài)和歷史著子,輸出當(dāng)前棋局的獲勝概率以及選擇可能著子的概率分布。然后,不再進行監(jiān)督學(xué)習(xí),Zero只進行強化學(xué)習(xí),拋棄了人類棋局經(jīng)驗。之后,與以前的需要在棋局之前進行訓(xùn)練的強化學(xué)習(xí)網(wǎng)絡(luò)不同,Zero可以直接通過棋局進行自我訓(xùn)練。

      最后,Zero在棋局中使用改進后的蒙特卡羅樹搜索來實現(xiàn)思考過程。之前的棋局模擬是在到達未展開的節(jié)點時結(jié)束,而改進后的棋局模擬在下列三種情形發(fā)生時也會結(jié)束:對手認輸,得到的最終勝率低于閾值,棋局模擬長度達到所規(guī)定的最大長度。在每次棋局模擬結(jié)束,Zero還會根據(jù)棋局模擬結(jié)果與神經(jīng)網(wǎng)絡(luò)計算結(jié)果來調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù),更新神經(jīng)網(wǎng)絡(luò)并開始下一輪棋局模擬。

      Zero在不斷與自己對弈的過程中,獲得了許多關(guān)于圍棋博弈的新知識,并糾正了一些人類有關(guān)圍棋博弈的錯誤觀念。換句話說,Zero在探索圍棋博弈的過程中,大大提高了自身的博弈能力,其圍棋博弈技術(shù)與策略在某些方面已經(jīng)超越了人類。目前尚無合理的解釋,Zero是如何在如此短的時間內(nèi)達到了如此高的水平。

      在圍棋領(lǐng)域AlphaGo雖然已經(jīng)在某種程度上超越了人類,可是它已經(jīng)堅定地退出了圍棋界,人們再也無法看到它與人類交手的場景。然而我們有足夠的理由相信,其他類似于AlphaGo的人工智能程序譬如BetaOx(百牛),還會出現(xiàn),還會在不遠的將來讓許多其他領(lǐng)域的天才在與其挑戰(zhàn)中一敗涂地。更令人擔(dān)憂的是,人工智能會不會使很多職業(yè)人士失去自己熱愛的工作,無奈地離開自己的工作崗位?我們是應(yīng)該期待還是拒絕人工智能時代的到來呢?

      (本文參考了AlphaGo團隊的兩篇論文《Mastering the game of Go withdeep neural networks and tree search》、《Mastering the game of Go without human knowledge》,張夢迪等人的《從AlphaGo的成功說起》,趙浩彤的《科普一下AlphaGo的論文算法并談?wù)勛约旱乃伎肌泛完惱蠋熍c待字閨中的《AlphaGo其實挺“笨”的》等著作。文中的圖片均來自網(wǎng)絡(luò)及所列參考文獻。)
      ?
      ?    來源:阿狗數(shù)學(xué)AlgoMath

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多