全網(wǎng)首發(fā)·精選筆記·人工智能 本文優(yōu)質度:★★★★★ 口感:奶酪魚 筆記君邀您,閱讀前先思考:
以下,盡情享用~ 一、寫書的初衷 市場上有很多關于人工智能的書。各種觀點包括2040年奇點降臨,機器人要終結人類的演化歷史等等。包括馬斯克、霍金這樣的大咖也在發(fā)出很擔心的聲音。 大家為什么會對人工智能有這么多不同的理解呢?就因為它很神秘。 不像互聯(lián)網(wǎng)來臨時大家都能懂,互聯(lián)網(wǎng)企業(yè)就是不同的商業(yè)模式,技術也比較簡單。但人工智能就好像是個黑科技。 我就想寫一本書,把黑科技給它祛魅。從我自己的研究看,人工智能背后的東西都是很簡單的。 人工智能對我的刺激,是從AlphaGo下圍棋這件事開始的。 這件事給我們人類帶來兩個震撼: 第一個震撼是我們完全無法理解為什么AlphaGo能這么厲害。 柯潔下完后流著眼淚說:“我根本看不到希望。”聶衛(wèi)平說:“AlphaGo是上帝派來教人類下圍棋的,它的水平至少是20段。” 不僅柯潔和聶衛(wèi)平不懂,連谷歌的工程師都搞不明白為什么AlphaGo每一步會這么走。要知道圍棋在人類世界里被認為是最高智商的游戲。但我們卻被人工智能打得沒有還手之力。 但最震撼的是AlphaGo要先學人類的殘局、學棋譜,然后超過人類。但AlphaZero不學人類的棋譜,完全靠機器的自我對弈、自我學習,結果7天就打敗了AlphaGo,40天以后就天下無敵。 這說明人類2000年積累的圍棋知識,對AlphaZero不僅一錢不值,反而是累贅和包袱,反而束縛了它的水平。 這件事對我們自尊心的打擊太大了。人類覺得圍棋殘局多么牛的東西,居然對機器來說是垃圾。人類積累了2000年的東西,對于機器來說是垃圾。 這件事對我自己也是非常大的沖擊。整本書研究的起點就從這里開始。 二、無法理解人工智能 是基本概念出了問題 2018年年底,AlphaGo團隊做出了阿法蝶(疊)。我把它翻譯成蝶,正好是阿法狗的妹妹。 阿法蝶可以把蛋白質基因序列的蛋白質三維結構給算出來。這個研究結果被發(fā)表在《科學》雜志上。 人類的生命,都是由細胞組成的。細胞的基本單位就是蛋白質。蛋白質的三維結構非常復雜,而蛋白質的所有功能就取決于三維結構。 以制藥舉例。 比如找到了一種造成肝癌的蛋白質,要能發(fā)現(xiàn)小分子卡在這個蛋白質的三維結構里,讓它動彈不了,肝癌就能治好。 所以蛋白質結構是人類理解基本的生命和生命過程最重要的東西。 過去人們觀測蛋白質的三維結構要用X光衍射的方法,非常非常的難。做好幾年的試驗,都可能看不到一個(完整的結構)而且蛋白質特別容易脆。 這兩年出了新儀器叫冷凍電鏡,但需要1000萬美金一臺。 在冷凍電鏡下,比較容易看到三維結構,但冷凍電鏡要做出一張蛋白質三維結構圖,要照幾十萬張照片,再拼湊出來。但現(xiàn)在阿法蝶(疊)很輕松就算出來了。 借助人工智能,我們人類在基礎科學上,有了巨大的突破。 ▲ 長按圖片保存可分享至朋友圈 于是我給出一組定義: 信息:可觀察的事物表征 數(shù)據(jù):被描述出來的信息 知識:數(shù)據(jù)之間的關系 我認為這三個定義是自洽的,簡單的。用這個定義來解釋人工智能是非常嚴謹,后面我會詳細介紹。 三、人是否能可靠的認知世界? 做人工智能研究,我有一個線索是回到人類認識世界的最初。哲學上有一個分支叫認識論。 認識論討論的是世界的本源是什么,人是否能可靠的認識世界? 理性主義認為: 人是有能力認知概念的,比如時間、空間; 知識是來自于推理; 萬事皆有因果。 而經驗主義的代表人物洛克認為: 人天生就是白紙一張,所有的知識都來自于經驗,萬事沒有因果關系,因果關系只是假象,其實就是相關性。就是說經驗主義更相信眼見為實。 但實際上世界上不存在所謂客觀的東西。 我們之所以對世界不理解,是因為我們硬性的把世界分成客觀和主觀,唯物主義與唯心主義,而這種兩分法,實際上是錯的。 任何認識世界離不開主體。 英國數(shù)學家羅素有一個著名的火雞悖論。 火雞就是經驗主義者,每天早上它的主人敲盆來喂食,第二天、第三天也是這樣,那么火雞就得出一個結論:以后每天早上主人都會敲盆來喂食。這個結論的有效性一直持續(xù)到圣誕節(jié)的前一晚。 理性主義和經驗主義爭論的焦點有兩件事:一是知識的來源到底是推理還是經驗?二是什么樣的知識更可靠? 四、默知識和暗知識 回過頭我們再看人類歷史上所謂的知識是什么。 人類有文字以來,所有的知識,不管是現(xiàn)在的文字還是甲骨文,但凡可以用語言文字或公式表達的,就是我們認為的知識。 因為它可以傳播,可以被別人所理解。 直到70年前,奧匈科學家邁克爾·波拉尼寫了《個人知識》,他認為還存在一種非常個人化的知識,是不可傳播的。后來定位為默會知識(tacit knowledge)。 生活中有大量的知識或技能屬于默會知識,比如騎自行車、拉提琴、打乒乓球、游泳,都是需要反復去訓練,卻不可表達。 默知識有個特點,不可記錄,不可集中。而計劃經濟的前提就是要把全國的所有信息都放到一臺計算機里,全算出來,再告訴每個鄉(xiāng)村該生產多少東西。 Iphone沒出來之前,沒有一個人知道智能手機應該是什么樣。這個事只能靠企業(yè)家和發(fā)明家的想象力。 按這個思路想下去,很自然就會想到,會不會存在著一種既不可感受,也不可表達的知識?就是暗知識。 我畫了一張圖,橫軸是否可表達,縱軸是是否可感受。 明知識是既可感受又可表達,比如浮力定律。還有一類人沒法感受到,比如我們感受不到量子力學的微觀世界。但它在數(shù)學上是完美的, 還有一類呢,像量子力學、廣義相對論,我們人沒法感受到有這個,量子力學微觀世界,我們也感覺不出來,所以但是它在數(shù)學上是完美的,一定存在且實驗可證明。這就是不可感知可以被證明的知識。 很顯然四個象限就空了一個,就是暗知識。當我完成對暗知識的發(fā)現(xiàn)時,感覺又回到了30年前做博士論文。 在斯坦福做博士論文有一個要求,contribute to human knowledge,就是要對人類的知識有貢獻性。 暗知識就是原來從來沒有任何人提到過的。除非還能發(fā)現(xiàn)一個獨立的軸,否則人類所有的知識全能放在圖里。 這三種知識之間量的關系可以用冰山圖表示: 人類有文字以來積累的所有的知識,是冰山在水平面之上的部分;默知識是海平面以下人們看不見的冰山,而暗知識就是整片海洋。 人類的基本局限,是接收的信息遠遠大于輸出的信息。 ▲ 長按圖片保存可分享至朋友圈 暗知識作為一個哲學概念,與我們的生活息息相關。 比如機器學習加人臉識別技術,該不該篩選出那些長著一張壞人臉,概率上犯罪幾率更高的人,比如自動駕駛面對突然跳出來的小孩,不撞自己會死,撞孩子會死,該如何選擇。 這都是機器學習或暗知識擺在我們人類面前非常嚴峻的問題。 由于暗知識的不可理解性,會給人類造成一系列的問題。 美國國防部有一篇白皮書提到: 未來人工智能的不可解釋性,是做公共政策決策上最大的障礙。 當機器告訴你要做什么,也無法跟大眾溝通,這就會對多數(shù)決策和制度產生很大的沖突。 五、人工智能產業(yè)生態(tài) 我在公募做投資,每年大概會看幾百上千家公司。我總結整個人工智能的產業(yè)生態(tài),就是金字塔的形狀。最上頭皇冠上的鉆石是算法。 大家說人工智能就是三件事: 算力、算法和數(shù)據(jù)。我覺得算力和數(shù)據(jù)都是胡扯。搭順風車數(shù)據(jù)自動就變大了,算力就變強了,和人工智能行業(yè)沒關系。實際上數(shù)據(jù)的發(fā)展是要算法上有突破。 但算法在今天很難做生意。真正做算法的非常少,主要在大公司和大學里。 算法里比較重要的核心技術就是芯片。 簡單來說,所有的芯片公司里最重要的兩家公司,一個是英偉達,做GPU圖形芯片處理器。 一個是賽恩斯,做FPGA現(xiàn)場可編程門陣列。這兩家公司占統(tǒng)治地位,現(xiàn)在中國一大堆芯片公司還無法挑戰(zhàn)這兩家公司。 人工智能產業(yè)生態(tài)中另外一個重要的環(huán)節(jié)是frame編程框架。編程框架大致可以看成操作系統(tǒng)層面的東西,但它不是一個操作系統(tǒng),而是程序庫。 今天最大的程序庫,是谷歌的TensorFlow。今天所有的人工智能公司,特別是中國的人工智能的公司,全是用的谷歌的開源軟件。它已經形成了生態(tài)系統(tǒng)。 在應用層面,我要強調一點,以目前發(fā)展的線性預測,還看不到很多的應用。就像汽車剛出來時大家會覺得,汽車就是比馬車快的代步工具。 但汽車出現(xiàn)后讓我們有了高速公路,時間更節(jié)省了,就可以不住在城里了,等等。就造成了一系列的變化。這些變化是在汽車剛剛被發(fā)明時想不到的。 我投資過一家做金融醫(yī)療的公司。對慢性病患病的原因可能有很多,包括飲食、基因、臟腑器官等等??赡艿脑蛉苛谐龃蟾藕脦装賯€。 而且直接的原因背后還有間接的原因,第二層、第三層、第四層,一個病就可以畫成一個非常復雜的網(wǎng)絡。 但人類醫(yī)生看病可能只有五分鐘時間,因為一天要看五、六十個病人,根本沒時間。所以只能抓住最最主要的兩三個因素,基本上是根據(jù)經驗做判斷。 但機器不一樣。機器學習是把所有歷史數(shù)據(jù)全部輸進去,這樣可以建立起非常復雜的系統(tǒng)。 機器看500萬個這樣的系統(tǒng),就相當于看了500萬個病人。全世界沒有一個醫(yī)生一生中看那么多病人。這樣AI就可以成為最有經驗的醫(yī)生。這家公司通過了美國的醫(yī)生資格考試。 六、產業(yè)適合或不適合 發(fā)展人工智能的判斷依據(jù) 神經網(wǎng)絡的本質是讓機器在海量的變量里頭,發(fā)現(xiàn)人類發(fā)現(xiàn)不了的復雜的相關性。
|
|
來自: 昵稱52221680 > 《知識》