這一天還是來了,AI在操作系統(tǒng)里啟動了一個自己的副本。

往小了說,不過是多模態(tài)大模型通過操縱鼠標(biāo)鍵盤的API執(zhí)行任務(wù)。
往大了說,也可以算是“AI復(fù)制自己”的雛形了。

(別被作者的藍(lán)天白云壁紙騙到了,這其實(shí)是MacOS)
從AI這一頓眼花繚亂的操作中可以看出,核心是多模態(tài)大模型,通過截圖判斷屏幕上正在發(fā)生什么,生成下一步操作的計(jì)劃,調(diào)用系統(tǒng)接口執(zhí)行之后再次截圖。

要按網(wǎng)友建議加上語音識別功能,真就能模擬鋼鐵俠的賈維斯了。

AI能不能復(fù)制自己,是OpenAI內(nèi)部始終關(guān)注的安全測試內(nèi)容之一。但GPT-4出道至今,這項(xiàng)測試結(jié)果一直沒有公布。

如今,先不管模型本身有沒有這個能力,接入GPT4V的開源項(xiàng)目已經(jīng)可以做到了。
AI與操作系統(tǒng)結(jié)合
這個開源項(xiàng)目叫做Open Interpreter,GitHub熱榜??停肽陼r間已積攢3.7萬星。

從名字也可以看出,最早只是一個ChatGPT代碼解釋器的開源升級版。
與OpenAI官方版相比,沒有3小時50條對話的限制,以及可以連接網(wǎng)絡(luò)、可以自定義預(yù)安裝的Python包等等好處。
發(fā)布不久后初代作者Killian Lucas就想到,為什么一定要在虛擬沙箱環(huán)境執(zhí)行代碼?直接讓AI接入真實(shí)系統(tǒng)有更大的可能性。
于是,第二個大版本就是操作系統(tǒng)級AI Agent了。

Open Interpreter最近更新了第三個大版本,其中接入的大模型改為多模態(tài)版本。

核心貢獻(xiàn)者Ty Fiero展示了AI自動發(fā)送郵件。

以及更復(fù)雜的AI操作專業(yè)編曲軟件作曲。

團(tuán)隊(duì)在這個版本設(shè)計(jì)了全新的Computer API,并且與原本的Open Interpreter分離,可以獨(dú)立運(yùn)作。

在新版本更新文檔中,可以看出團(tuán)隊(duì)更大的野心:著手開發(fā)AI時代新的計(jì)算機(jī)架構(gòu),也就是語言模型計(jì)算機(jī)LMC(Language Model Computer)。

Kilian借助CES上199元的AI掌機(jī)Rabbit R1爆火的機(jī)會公開招募開發(fā)者加入,打算快速復(fù)刻一個開源版本,硬件成本不到50美元。

不到48小時,就有超過200位工程師和設(shè)計(jì)師愿意加入這個項(xiàng)目,評論區(qū)中還不斷有人繼續(xù)申請中。

不知道這個團(tuán)隊(duì)回復(fù)大量應(yīng)聘郵件和私信,用的是不是AI。
參考鏈接:
[1]https://twitter.com/fieroty/status/1746639975234560101。
[2]https://github.com/KillianLucas/open-interpreter。