現(xiàn)在是2點(diǎn)22分,跟朋友們打完LOL手游,準(zhǔn)備倒頭就睡。 臨睡前,刷了一眼X。 然后,特么的,看到了一個(gè)消息,能給我震驚成傻逼的消息: OpenAI,發(fā)他們的文生視頻大模型,Sora了。。。。。 而且,是強(qiáng)到,能震驚我一萬(wàn)年的程度。。。 https:///sora 如果非要用三個(gè)詞來(lái)總結(jié)Sora,那就是“60s超長(zhǎng)長(zhǎng)度”、“單視頻多角度鏡頭”和“世界模型” 我先放3個(gè)例子,再具體去說(shuō)。 我的腦海中,突然冒出了《三體》中楊冬的一句話: “物理學(xué),不存在了” 套用這句話。 那就是。 “現(xiàn)實(shí),不存在了” 文本、圖片都已經(jīng)被AI攻占,而現(xiàn)在,AI視頻,這個(gè)人類(lèi)最后的最堅(jiān)固的堡壘,在OpenAI的Sora攻勢(shì)下,也已經(jīng)很難再分清,AI和現(xiàn)實(shí)的界限了。 什么以前的AI視頻工作流,全部成了往日泡影,全都滾犢子吧。 都TM跪下,都給OpenAI喊爸爸。 說(shuō)回那三個(gè)最核心的特點(diǎn): “60s超長(zhǎng)長(zhǎng)度”、“單視頻多角度鏡頭”,還有那個(gè)最核心的,“世界模型” 一. 60s超長(zhǎng)長(zhǎng)度 在一眾AI視頻,還掙扎在4s連貫性的邊緣,OpenAI,直接說(shuō): 勞資支持,60s,都TM跪下。 就,太特么嚇人了... 看這個(gè)case。 提示:一位時(shí)尚女性走在充滿溫暖霓虹燈和動(dòng)畫(huà)城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長(zhǎng)裙和黑色靴子,拎著黑色錢(qián)包。她戴著太陽(yáng)鏡,涂著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來(lái)走去。 60s,一鏡到底,而且不止主人物穩(wěn)定,連特么背景里面的人物,都穩(wěn)定的難以置信。從大中景無(wú)縫切換到臉部特寫(xiě)。 這不是我對(duì)于AI視頻這個(gè)淺薄的理解能解釋的了的。 我完全不知道是如何能實(shí)現(xiàn)出來(lái)的,官網(wǎng)的解釋是: 等他們的技術(shù)文檔。 二. 單視頻多角度鏡頭 現(xiàn)在的AI工作流,都是單鏡頭單生成,一個(gè)視頻里面,有多角度的鏡頭,主體還能保證完美的一致性,這在以前,是無(wú)法想象的... 但是OpenAI直接一句Prompt,在一分鐘的鏡頭里,實(shí)現(xiàn)了多角度的鏡頭切換...而且...物體一致... 提示:一個(gè)美麗的剪影動(dòng)畫(huà)展示了一只狼對(duì)著月亮嚎叫,感到孤獨(dú),直到它找到狼群。 太特么嚇人了,一只狼對(duì)著月亮嚎叫,感到孤獨(dú),直到它找到狼群。 孤獨(dú)。 這個(gè)詞,在這個(gè)視頻里,被描述的淋漓盡致。 而且,多鏡頭,無(wú)縫切換,而且每一個(gè)分鏡,都用的極其講究。。。 這就像其他家AI視頻,還在冷兵器作戰(zhàn),刀劍相拼,這玩意直接把超電磁炮掏出來(lái)了。。。然后一炮直接轟在大家大腦門(mén)上了。。。 三. 世界模型 我之前寫(xiě)過(guò)一篇文章,聊過(guò)一些關(guān)于世界模型的話題。 在我的理解里,世界模型最難的,是收集、清洗數(shù)據(jù)。 Runway的世界模型,毫無(wú)動(dòng)靜。 但是OpenAI的Sora,直接來(lái)了一波大的。 前面的視頻case,其實(shí)已經(jīng)能看出Sora,已經(jīng)能懂物理規(guī)律了。 比如這個(gè)Case: 提示:一只貓叫醒熟睡的主人,要求吃早餐。主人試圖忽視這只貓,但貓嘗試了新的策略,最后主人從枕頭下拿出秘密藏匿的零食,讓貓?jiān)俅粢粫?huì)兒。 這個(gè)視頻最離譜的在于... 貓?jiān)贏I里...能踩奶了........這..........養(yǎng)貓的人,都一定深有感觸。。。 還有一個(gè)開(kāi)車(chē)的case,吊打全世界所有AI視頻: 提示:鏡頭跟隨一輛帶有黑色車(chē)頂行李架的白色老式SUV,它在陡峭的山坡上一條被松樹(shù)環(huán)繞的陡峭土路上加速行駛,輪胎揚(yáng)起灰塵,陽(yáng)光照在SUV上飛馳。土路,給整個(gè)場(chǎng)景投射出溫暖的光芒。土路緩緩地蜿蜒延伸至遠(yuǎn)方,看不到其他汽車(chē)或車(chē)輛。道路兩旁都是紅杉樹(shù),零星散落著一片片綠意。從后面看,這輛車(chē)輕松地沿著曲線行駛,看起來(lái)就像是在崎嶇的地形上行駛。土路周?chē)嵌盖偷那鹆旰蜕矫},上面是清澈的藍(lán)天和縷縷云彩。 最后一個(gè)我也覺(jué)得很離譜的case: 提示:與中國(guó)龍一起慶祝中國(guó)農(nóng)歷新年的視頻。 這個(gè)真實(shí)的物理感覺(jué),真的...我很希望他們是...過(guò)擬合了.... 因?yàn)橹案承┐罄袀兞?,得到的信息是?/span> '人經(jīng)歷過(guò)千萬(wàn)年的進(jìn)化,對(duì)于世界的常識(shí),是藏在基因里的,會(huì)自動(dòng)把一些冗余的信息以極快的速度,一步一步剔除直到只剩到最關(guān)鍵的信息,然后做做一些思考推斷。但是機(jī)器沒(méi)有,機(jī)器現(xiàn)在不懂抽象,所以需要人去做類(lèi)似人類(lèi)抽象化過(guò)程的學(xué)習(xí)算法,來(lái)抽離關(guān)鍵信息,收集視頻數(shù)據(jù)。' 收集數(shù)據(jù),是最難的。 而OpenAI,可能...解決了。。。 雖然他們表示,他們的世界模型,還有很多弊端... 但是... 寫(xiě)在最后 ![]() 一年的時(shí)間,OpenAI炸出來(lái)一個(gè)王炸。 一丁點(diǎn)消息不放,一丁點(diǎn)預(yù)熱沒(méi)有,直接王炸。 而且最騷的是,他們宣布,即將在今天晚些時(shí)候,更新技術(shù)論文: 一夜未眠,我在各大群里,看到的最多的幾句話是: “這怎么辦啊...” “都死吧” “這個(gè)行業(yè)要完蛋了...” 不僅僅是AI視頻行業(yè)...還有很多傳統(tǒng)的影視公司... 比如虛擬拍攝、比如特效、比如廣告.... 一將功成,萬(wàn)骨枯。 我找不到更好的形容詞了。 就這樣吧,照這個(gè)AI發(fā)展速度,AGI應(yīng)該很快了。 希望,這不是人類(lèi)的落日。 以上,既然看到這里了,如果覺(jué)得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章。 |
|