行業(yè)正在集體穿越大模型時(shí)代的“創(chuàng)新死亡谷”。 最近幾天,作為AI大模型“六小虎”之一的零一萬(wàn)物,頻頻登上科技行業(yè)熱門話題榜。據(jù)媒體報(bào)道,零一萬(wàn)物將不再追求訓(xùn)練超級(jí)大模型,1月初已與阿里云成立“產(chǎn)業(yè)大模型聯(lián)合實(shí)驗(yàn)室”,零一萬(wàn)物大部分訓(xùn)練和AI infra團(tuán)隊(duì)會(huì)加入該實(shí)驗(yàn)室。這是國(guó)內(nèi)首家對(duì)外公開大幅調(diào)整戰(zhàn)略方向的AI大模型獨(dú)角獸。
這些靈魂拷問(wèn)在2025年剛開年就鋪面而來(lái)。 Scaling Laws失效了? “僅僅一年多的時(shí)間,引領(lǐng)大模型前進(jìn)的傳統(tǒng) Scaling Law 邊際收益遞減明顯,商業(yè)化上同樣如此。”零一萬(wàn)物 CEO 李開復(fù)近日接受媒體采訪時(shí)多次表達(dá)這一觀點(diǎn),“賭上巨量資源去訓(xùn)練超大參數(shù)規(guī)模的模型,超低的性價(jià)比對(duì)初創(chuàng)公司來(lái)說(shuō),肯定不是一個(gè)務(wù)實(shí)的選擇?!?/span> 李開復(fù)的觀點(diǎn)再次激發(fā)了行業(yè)對(duì)于Scaling Laws的爭(zhēng)論。Scaling Laws最早是OpenAI在一篇論文中提出的。用大白話講,它是指,AI大模型的性能會(huì)隨著模型參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)量和計(jì)算資源的增加而相應(yīng)提升。 正是受Scaling Laws的召喚,國(guó)內(nèi)外大模型平臺(tái)爭(zhēng)相花巨資囤積成千上萬(wàn)張GPU,以堆高計(jì)算能力;將模型參數(shù)規(guī)模從數(shù)億推高到數(shù)千億,甚至上萬(wàn)億。比如,OpenAI的GPT-4模型據(jù)稱約有1.8萬(wàn)億參數(shù)。 但是,自去年以來(lái),Scaling Laws“撞南墻”的聲音越來(lái)越響,其有效性受到了眾多質(zhì)疑。外媒報(bào)道,據(jù)內(nèi)部消息人士透露,OpenAI 的下一代模型(代號(hào)為 Orion)在某些任務(wù)上僅比其前身 GPT-4 有微小的改進(jìn),與 GPT-3 到 GPT-4 的飛躍相比,提升幅度顯著縮小。 雖然OpenAI的CEO奧特曼否認(rèn)了這一點(diǎn),在社交媒體上回應(yīng)稱“there is no wall(沒有墻)”。但外界從GPT-5遲遲沒有推出還是看出了一些端倪。而遭遇困境的并非僅有 OpenAI 一家。 彭博社援引知情人士的消息稱,Google 旗下的 Gemini 2.0 同樣未能達(dá)到預(yù)期目標(biāo),與此同時(shí),Anthropic 旗下的 Claude 3.5 Opus 的發(fā)布時(shí)間也一再推遲。 當(dāng)然,還有很多聲音并不認(rèn)同Scaling Laws已經(jīng)失效。英偉達(dá)黃仁勛前兩天在CES 2025上發(fā)言時(shí)堅(jiān)稱,“基礎(chǔ)模型預(yù)訓(xùn)練的Scalinglaws仍然有效,它還在繼續(xù)”,而且除了預(yù)訓(xùn)練擴(kuò)展定律之外,還出現(xiàn)了后訓(xùn)練擴(kuò)展定律和測(cè)試時(shí)間擴(kuò)展定律。 “測(cè)試時(shí)計(jì)算”確實(shí)開辟了擴(kuò)展模型算力和提高AI性能的一種新途徑。相較于前代模型完全依靠在預(yù)訓(xùn)練中擴(kuò)大模型參數(shù)量來(lái)改善表現(xiàn),像OpenAI的o3這樣的新推理模型能在推理過(guò)程中進(jìn)行計(jì)算,推理計(jì)算量的擴(kuò)大可以讓AI模型通過(guò)“思考更長(zhǎng)時(shí)間”來(lái)解鎖新的能力。 雖然有不同聲音,但行業(yè)的普遍共識(shí)是,單純靠堆算力、堆參數(shù)的簡(jiǎn)單粗暴的發(fā)展模式,一去不復(fù)返了。李開復(fù)的呼聲也在國(guó)內(nèi)捅開了這層窗戶紙。 大模型燒不起了 Scaling Laws遇到瓶頸并非意味著大模型不再向上發(fā)展了,深層的問(wèn)題在于高昂成本導(dǎo)致邊際效益的嚴(yán)重遞減。說(shuō)白了,就是投入產(chǎn)出比的考量。 近年來(lái)大模型訓(xùn)練成本的增加是顯而易見的。2017年,Transformer 模型訓(xùn)練成本約為 900 美元;2019年,國(guó)外某模型的訓(xùn)練成本約為16萬(wàn)美元;2023 年,OpenAI 的 GPT-4 和 Google 的 Gemini Ultra 的訓(xùn)練成本預(yù)計(jì)分別約為7800 萬(wàn)美元和 1.91 億美元。五年時(shí)間,成本飆升了10萬(wàn)倍! 國(guó)內(nèi)同樣如此。浙商證券的分析報(bào)告指出,字節(jié)跳動(dòng)2024年在AI領(lǐng)域的資本開支高達(dá)800億元,國(guó)內(nèi)最高,接近百度、阿里、騰訊三家公司的總和。該券商預(yù)測(cè),到2025年,字節(jié)跳動(dòng)的資本開支有望進(jìn)一步增長(zhǎng)至1600億元,其中約900億元將專門用于AI算力的采購(gòu)。 AI算力的采購(gòu)目前主要是買英偉達(dá)的GPU。來(lái)自 Omdia 和英國(guó)《金融時(shí)報(bào)》的報(bào)道顯示,2024年微軟采購(gòu)量全球最多,購(gòu)買了48.5萬(wàn)個(gè)英偉達(dá) Hopper 架構(gòu)芯片;字節(jié)跳動(dòng)和騰訊分別收購(gòu)了大約 23 萬(wàn)個(gè);谷歌、Meta 和亞馬遜等公司也都買了不少。馬斯克今年則以迅雷之勢(shì)搭建了包含10萬(wàn)張H100的AI訓(xùn)練集群Colossu。國(guó)內(nèi)大廠如百度、阿里、小米等,也都在籌劃搭建萬(wàn)卡甚至十萬(wàn)卡GPU集群。 而一個(gè)英偉達(dá) Hopper 架構(gòu)芯片價(jià)格為3.3萬(wàn)美元—4萬(wàn)美元。英偉達(dá)公司市值兩年翻了10倍,靠的就是這個(gè)生意。除了外采,很多科技巨頭還在開發(fā)自己的內(nèi)部定制芯片。研發(fā)費(fèi)用同樣不菲。即便不買卡只租用,每塊GPU每小時(shí)租金也需要數(shù)美元,而一個(gè)模型的訓(xùn)練往往需要幾百萬(wàn)甚至幾千萬(wàn)個(gè)GPU小時(shí)。 不僅訓(xùn)練費(fèi)用高昂,大模型提供服務(wù)時(shí)還要大量消耗其他資源。據(jù)國(guó)外某研究機(jī)構(gòu)報(bào)告,ChatGPT每天要響應(yīng)大約2億個(gè)請(qǐng)求,在此過(guò)程中消耗超過(guò)50萬(wàn)度電力。市場(chǎng)推廣是另一筆不小的開支,競(jìng)爭(zhēng)越激烈,競(jìng)價(jià)成本越水漲船高。 而與此同時(shí),國(guó)內(nèi)市場(chǎng)卻越來(lái)越“卷”。某些大模型的API調(diào)用價(jià)格2024年大幅降低,有的降幅高達(dá)97%,每千Token降至 0.003元,甚至部分版本宣布對(duì)外完全免費(fèi)。 綜上,如此巨額的投入,顯然不是每個(gè)創(chuàng)業(yè)公司都能燒得起的。國(guó)內(nèi)即使幾大AI獨(dú)角獸,每家累計(jì)融資平均也僅幾億美金,百億元級(jí)別,估值約在200億上下。鑒于此,李開復(fù)認(rèn)為,未來(lái)只有大廠才有能力做超大模型。 六小虎們戰(zhàn)略分野 “如果你還要燒巨大的模型,還有5000張、10000張卡,每年帶來(lái)2-3億美金的成本,這些成本怎么分?jǐn)偟綐I(yè)務(wù)收入上去?如果你的虧損是收入的5倍、10倍、20倍,靈魂拷問(wèn)就會(huì)失敗。我在朋友圈里說(shuō)'2025 年是商業(yè)化淘汰年’,就是這么一回事?!?/span> 李開復(fù)認(rèn)為,商湯等AI 1.0公司普遍走了6-8年,才進(jìn)入商業(yè)化靈魂拷問(wèn)時(shí)刻,而現(xiàn)在技術(shù)迭代加快了,從信仰 Scaling Law 到懷疑 Scaling Law 只花了一年時(shí)間。靈魂拷問(wèn)也來(lái)得更快。AI創(chuàng)業(yè)者曾經(jīng)都擁有一個(gè)共同的通用人工智能AGI的夢(mèng)想,但沒有大廠雄厚實(shí)力的六小虎們能接得住加快降臨的商業(yè)化靈魂拷問(wèn)嗎?2025年或?qū)⒂瓉?lái)分野。 2024年全球AI融資排行榜中,馬斯克旗下的xAI及OpenAI、Anthropic憑借120億美元、81億美元、80億美元斬獲前三。相比較而言,國(guó)內(nèi)六小虎的融資額則低了一個(gè)數(shù)量級(jí),排在前面的分別為月之暗面超70億元,百川智能 50億元,MiniMax 超40億元,智譜A1 超40億元,零一萬(wàn)物數(shù)億美元,階躍星辰數(shù)億美元。 但在去年下半年,月之暗面和MiniMax沒有公布新的融資,也有多家企業(yè)出現(xiàn)資金鏈吃緊情況。 零一萬(wàn)物選擇放棄對(duì)超大參數(shù)規(guī)模的模型的追求,除了戰(zhàn)略方向的主動(dòng)選擇,必然也會(huì)有財(cái)務(wù)方面的考慮?!拔业呢?cái)務(wù)同事每幾周跟我過(guò)現(xiàn)金流,看到算力一個(gè)月一個(gè)月的支出,真不是可持續(xù)的方式?!崩铋_復(fù)近日在接受采訪時(shí)坦承。 據(jù)其透露,2024年5月,零一萬(wàn)物發(fā)布了一個(gè)千億參數(shù)模型 Yi-Large,此后決定更換為更務(wù)實(shí)的路線,專注做更輕量化、性能也不錯(cuò)的模型,即去年10月推出的新旗艦?zāi)P?Yi-Lightning。新模型采取MoE(混合專家)架構(gòu),激活參數(shù)僅200多億,但模型表現(xiàn)更出色,號(hào)稱超過(guò)了GPT-4o。更重要的是,Yi-Lightning 的模型訓(xùn)練成本僅350萬(wàn)美元,是 GPT-4o 的 1/30。 近段時(shí)間在海外社交媒體刷屏的另一個(gè)中國(guó)大模型DeepSeek-V3,評(píng)測(cè)成績(jī)亮眼,成為開源模型的新王。同樣的是,該模型也大幅降低了訓(xùn)練成本。模型每訓(xùn)練1萬(wàn)億token僅需要18萬(wàn)個(gè)GPU小時(shí),即在團(tuán)隊(duì)配備2048個(gè)H800 GPU的集群上只需3.7天。“2048個(gè)GPU、2個(gè)月、近600萬(wàn)美元”,相比之下,GPT-4o等模型的訓(xùn)練成本約為1億美元,至少在萬(wàn)個(gè)GPU量級(jí)的計(jì)算集群上訓(xùn)練。成本的下降,使其API調(diào)用價(jià)格更低,千tokens輸入僅0.001元,吸引了大量開發(fā)者。 智譜AI過(guò)去兩年一直緊盯OpenAI的發(fā)展路線。但OpenAI去年的腳步有所放緩,智譜也加大了對(duì)Agent的投入。 階躍星辰在去年底完成B輪融資后表示,將繼續(xù)投入基礎(chǔ)模型研發(fā),強(qiáng)化多模態(tài)和復(fù)雜推理能力,并通過(guò)產(chǎn)品和生態(tài)加大覆蓋C端應(yīng)用場(chǎng)景。 月之暗面與MiniMax在C端市場(chǎng)表現(xiàn)得更為強(qiáng)勁。月之暗面旗下智能助手Kimi初期憑借20萬(wàn)字的長(zhǎng)上下文功能,獲得了大量用戶,全平臺(tái)月活躍用戶號(hào)稱超過(guò)3600萬(wàn);不久前,月之暗面又快速跟進(jìn)推理模型,先后上線了數(shù)學(xué)模型k0-math、視覺思考模型K1。 MiniMax在多模態(tài)大模型方面表現(xiàn)亮眼。視頻領(lǐng)域的海螺AI口碑不錯(cuò);星野,海外版為Talkie,也聚攏了大批用戶。根據(jù)Sensor Tower的數(shù)據(jù),截至2024年6月,Talkie的全球月活躍用戶數(shù)已達(dá)到1100萬(wàn),超過(guò)一半用戶來(lái)自美國(guó)。 百川智能獨(dú)辟蹊徑,明確表態(tài)不做當(dāng)前大熱的視頻模型,而是選擇將AGI與醫(yī)療結(jié)合,認(rèn)為“制造醫(yī)生”是AGI的重要標(biāo)志,推出了“一大四小”醫(yī)療產(chǎn)品,并與兒童醫(yī)院合作。 不同的技術(shù)路線和商業(yè)化路徑,讓眾多的創(chuàng)業(yè)公司開啟了不同的發(fā)展方向。而隨著競(jìng)爭(zhēng)的加劇,這種戰(zhàn)略分化也將加速。像新能源汽車領(lǐng)域進(jìn)入淘汰賽一樣,AI大模型也正迎來(lái)這一時(shí)刻。 |
|