讓機(jī)器擁有好奇心將提高它們完成復(fù)雜任務(wù)的能力。 一臺(tái)配有人工好奇心的計(jì)算機(jī)將學(xué)會(huì)如何解決復(fù)雜的問(wèn)題,不論解決問(wèn)題的步驟在當(dāng)時(shí)是否看起來(lái)有效。 這就是美國(guó)加州大學(xué)伯克利分校研究人員的最新成果。他們開(kāi)發(fā)出了一種可以讓機(jī)器學(xué)習(xí)算法在缺少?gòu)?qiáng)烈反饋信號(hào)的情況下還可以工作的“好奇心模型”。該模型會(huì)讓控制游戲人物的人工智能系統(tǒng)試圖最大化它對(duì)環(huán)境的理解,尤其是環(huán)境中可以影響它的那一部分。 在此之前,已經(jīng)有許多研究團(tuán)隊(duì)試圖為人工智能增加好奇心,但之前的嘗試都比較簡(jiǎn)單。 而此模型有望為機(jī)器學(xué)習(xí)補(bǔ)上一塊短板,并且指出一條可以讓機(jī)器更加善于解決真實(shí)世界問(wèn)題的出路。 “獎(jiǎng)勵(lì)在真實(shí)世界里十分稀少”,研究團(tuán)隊(duì)的一員,加州大學(xué)伯克利分校博士生Pulkit Agrawal說(shuō)道?!皨雰簳?huì)作出各種奇怪的試驗(yàn),你可以把它看作為一種好奇心。他們是在學(xué)習(xí)一些技能”。 近幾年里,各種機(jī)器學(xué)習(xí)技術(shù)成功的讓計(jì)算機(jī)變得更加“聰明”了。其中,增強(qiáng)學(xué)習(xí)成功的讓機(jī)器學(xué)會(huì)如何進(jìn)行那些曾經(jīng)難以用代碼定義的任務(wù)。其工作原理很簡(jiǎn)單:使用獎(jiǎng)勵(lì)來(lái)引導(dǎo)算法,讓它的行為越來(lái)越接近一個(gè)指定的目標(biāo)。 而增強(qiáng)學(xué)習(xí)也是AlphaGo的基礎(chǔ)。目前,研究人員正在試圖使用增強(qiáng)學(xué)習(xí)讓機(jī)器自我學(xué)會(huì)難以人工編寫(xiě)的技能,比如,讓機(jī)器臂在訓(xùn)練中自己學(xué)會(huì)如何完成指定的動(dòng)作。 但是增強(qiáng)學(xué)習(xí)并不是沒(méi)有缺點(diǎn)。Agrawal表示,使用增強(qiáng)學(xué)習(xí)來(lái)學(xué)會(huì)一個(gè)任務(wù)需要巨量的訓(xùn)練(數(shù)據(jù)),而且一旦所需要的反饋不能立刻出現(xiàn),其整個(gè)訓(xùn)練過(guò)程都會(huì)受到極大的影響。就拿一些電腦游戲來(lái)說(shuō),如果某些行為的利益不是立即又明顯的,增強(qiáng)學(xué)習(xí)就無(wú)法起效。對(duì)此,好奇心可以有著巨大的幫助。 研究人員在把該技術(shù)融入增強(qiáng)學(xué)習(xí)后,使用了兩款簡(jiǎn)單的游戲?qū)ζ溥M(jìn)行了測(cè)試:冒險(xiǎn)游戲—超級(jí)瑪麗,以及3D射擊游戲—?dú)鐟?zhàn)士。 在兩款游戲中,人工好奇心都成功的提高了學(xué)習(xí)過(guò)程的效率。在沒(méi)有其他獎(jiǎng)勵(lì)的情況下,兩款游戲中的人工智游戲人物都表現(xiàn)出了極高的行動(dòng)能力。毀滅戰(zhàn)士中的人工智能人物不再會(huì)花費(fèi)大量的時(shí)間撞墻了,它通過(guò)在環(huán)境中的運(yùn)動(dòng),更快的學(xué)會(huì)了如何尋找方向。超級(jí)瑪麗中的人工智能人物則學(xué)會(huì)了如何避免死亡,因?yàn)檫@種情況會(huì)影響其探索并學(xué)習(xí)周圍環(huán)境的能力。 關(guān)于此技術(shù)更加詳細(xì)的描述將以論文形式發(fā)表于今年即將舉辦的一場(chǎng)大型人工智能峰會(huì)中。 人工好奇心并不是一個(gè)嶄新的研究領(lǐng)域。法國(guó)國(guó)家信息與自動(dòng)化研究所的研究組長(zhǎng)Pierre-Yves Oudeyer在多年前就開(kāi)拓了這個(gè)領(lǐng)域,并在過(guò)去的幾年里曾多次開(kāi)發(fā)具有簡(jiǎn)易好奇心的電腦程序和機(jī)器人。 “現(xiàn)在最令人激動(dòng)的一件事就是,這些曾經(jīng)被主流人工智能和神經(jīng)科學(xué)研究人員看做是“怪異”的想法,正在成為人工智能和神經(jīng)科學(xué)領(lǐng)域中的一大課題”,Oudeyer說(shuō)道。 而這個(gè)課題還有著真實(shí)的利益。伯克利的研究團(tuán)隊(duì)將在使用增強(qiáng)學(xué)習(xí)的機(jī)器人上測(cè)試其人工好奇心技術(shù)。Agrawal表示,機(jī)器人可能在奇怪的動(dòng)作上浪費(fèi)大量時(shí)間,但是當(dāng)它們擁有好奇心之后,它們將可以更快的探索四周的環(huán)境以及對(duì)附近的物體進(jìn)行試驗(yàn)。 紐約大學(xué)搭建人類認(rèn)知能力的計(jì)算模型科學(xué)家Brenden Lake表示,伯克利團(tuán)隊(duì)的成果看起來(lái)潛力十足?!伴_(kāi)發(fā)出擁有與人類相似特征的機(jī)器,是機(jī)器學(xué)習(xí)道路上的重要一步”,他表示,“他們的成果十分厲害,在只用好奇心驅(qū)動(dòng)的情況下,游戲人物可以在超級(jí)瑪麗中學(xué)會(huì)如何打穿一關(guān)。它甚至不需要看分?jǐn)?shù)”。 在此同時(shí),Lake還表示伯克利團(tuán)隊(duì)的人工好奇心其實(shí)與人類兒童的好奇心相差還比較遠(yuǎn)。人類對(duì)周圍世界的興趣要深得多。 “那是一種十分自我的好奇心”,Lake說(shuō)道,“游戲人物只會(huì)對(duì)環(huán)境中與自己相關(guān)的事物感興趣。而人類的好奇心則更為廣闊。人們會(huì)想學(xué)習(xí)世界中與自己沒(méi)有多大關(guān)系的事情”。 -End- 編輯:陳翔宇 點(diǎn)擊圖片查看報(bào)名方式 |
|