 淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試用各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微信(shizhongmax)。 家人們, AI 已經不滿足于自己卷,而是開始禍禍各行各業(yè)了。。。最近跟人聊天, 只要三句之內你還沒提到你們行業(yè)“大模型怎么代替人類牛馬”,人家就覺得你這行藥丸。但這事兒怎么可能這么簡單?要知道,各行業(yè)對人類技能的要求本就千差萬別:針對每個行業(yè),AI 都得反復摩擦,選定非常特別的姿勢切入才可能成功。最近我剛和一位網絡安全硬核老師傅聊天,他和團隊正在把大模型作為機械戰(zhàn)士,用子彈和鎧甲守衛(wèi)我們的網絡空間。當年,他是影響一代網絡安全研究者的安全工具“冰刃(IceSword)”的作者,如今,他是 360 集團的首席科學家,360 數字安全集團的首席技術官。潘神從小就是學霸, 恨不能直接把卷子翻過來做大題那種。所以他比較反對有些人“為了用大模型而用大模型”,就蹭點兒步驟分。。。為此,他的思路是:遇事不決,照著人學!人有多騷,AI 照抄!這不,團隊這兩年總算用這個姿勢撞開一條小裂縫,看到一絲光明透進來。說起這段故事,潘神決定從一個人工智能幾乎無解的“弱點”聊起。
(一)AI 腦袋里的“坑”幾天前,馬斯克剛剛祭出了據說是地表最強 AI——Grok 3。話說其他 AI 對于這個問題的回答也一個鳥樣,就算能答對,恐怕也只是針對性地打了補丁。因為現在的 AI 訓練方法的基礎是統(tǒng)計學,所以 AI 對世界的理解也是“統(tǒng)計性理解”,而非“本質性理解”。 啥是“統(tǒng)計性理解”和“本質性理解”嘞?他們偷拍了 1 萬張日常照片,發(fā)現了我們會在一起吃“生日蛋糕”↓↓↓于是挑出了幾張含有生日蛋糕的圖片,做了個簡單統(tǒng)計:這種玩意兒大概率是矮圓柱形,滑滑膩膩的,插著一些可燃物。 然后用三體星球上現成的原料,照貓畫虎把這個東西做出來:而后,質子又從地球多拍了 100 萬張照片傳回去,里面有更多生日蛋糕的圖片。三體人又一統(tǒng)計,發(fā)現出問題了:在里面是一坨軟軟的帶有空洞的物質,外面才是滑滑膩膩的材料。 他們于是又一頓忙活,從更多的數據里總結更多特征,改進了自己的蛋糕。三體人學做蛋糕的過程,就類似于人工智能模仿人腦的過程。它展現了統(tǒng)計性學習的兩個特點:1、學生不是想學啥就能學,而是只有本體的某種性質展現出了統(tǒng)計上的特征,才能被學生注意到,才能被學會。2、隨著描述本體的數據不斷增加,可能會有新的特征凸顯出來,學生學到的特征越多,表現就越接近本體。 但是!這里隱藏了一個讓人脊背發(fā)涼的大問題:就算三體人再拍 1 億張生日蛋糕的照片,把蛋糕做得再惟妙惟肖,只要他們來不了地球,無法親自品嘗,他們就永遠不敢肯定自己的蛋糕和地球蛋糕的味道是完全一樣的!我們放的是糖,他們放的是鹽,我們放的是蛋糕胚,他們放的是發(fā)泡塑料。。。殘酷的事實是:在特定的數據采樣體系下,有些本質是不會展現出統(tǒng)計學特征的。也就是說,“統(tǒng)計性理解”原則上能不斷逼近“本質性理解”。但推到終極,你卻無法證明“統(tǒng)計性理解”達到了“本質性理解”↓↓↓三體人拿出塑料蛋糕的一瞬間,不就像極了 AI 說出 9.11 比 9.9 大的那一刻么?想想看,是不是還挺恐怖的?更恐怖的是,你不知道 AI 的腦袋里還有哪些“坑”,也不知道這些坑什么時候會出來把哪個老鐵給坑了。不斷給 AI 學習更多、更好的數據,祈禱新的數據里恰好含有重要的統(tǒng)計學特征,“未亡羊先補牢”唄。但在最近,即便是廣譜藥也快失效了——我們遇到了“數據墻”。人類幾百年積累的知識數據,該喂給 AI 吃的都已經喂了。地主家也沒有余糧了。接下來只能靠 AI 自己合成數據繼續(xù)訓練,這樣自己拉自己吃。。。最后會不會吃出毛病,學術界還頗有爭議。訓練 AI 的數據,無法突破人類既有知識的極限,也就是“數據墻”。既然 AI 短期存在無法突破的能力極限,那就可以把網絡安全的問題分成兩類,用大模型做出兩套不同的體系來解決。1、“快思考”用來做判斷題,不用絞盡腦汁解釋為啥,以對服人,適合放開手腳讓 AI 用自己的方式去干。2、“慢思考”用來做證明題,必須展現復雜的思考步驟,以理服人。AI 自己搞不定,可以遵循人類老師傅已有的經驗框架去干。這個思路,其實就是從人腦的思維方式抄的!接下來我給你展開說說。
(二)快思考像一把火老鐵們估計都知道,“快思考”、“慢思考”的分類來自于心理學家丹尼爾·卡尼曼對人腦的研究。你在叢林里遇到一個長條形的東西,形勢容不得你花時間分析它到底是啥??焖伎紩诘谝粫r間輸出“危險”這個信號,給你的指令就一個字——跑!等你跑開了一段安全距離,慢思考才跟上來。你可以詳細觀察這個東西的紋理、動作,然后綜合判斷它到底是蛇還是翔,以決定接下來的計劃。 慢思考就像一條河,帶著小船時急時緩地漂流,一段時間后才奔流入海。假設中哥開了家公司,辦公網就像一個工業(yè)園區(qū),里面安裝的 360 安全系統(tǒng)就像保安大隊,負責監(jiān)視園區(qū)里的一舉一動,以防有人搞事情。黑客偷來一張工牌,為了尋找敏感資料,他想拿著這個工牌混入檔案大樓。黑客走到檔案樓門口,這位保安只有幾十毫秒的時間做出判斷。如果感覺這個人不對勁就要果斷攔截,否則就得放行,不能耽誤人家的事??!傳統(tǒng)的做法是,把所有已知的黑客行為特點都提前總結成一條條的規(guī)則,放進一個大的“規(guī)則集”里。來了一個人,保安只要無腦對照規(guī)則集里所有的規(guī)則查一遍,就有了結論,這不就很快了嗎?它就像特工電影里那種會觸發(fā)警報的紅外射線,即使數量再多,中間還是會有縫隙,聰明的特工總能找到方法繞過。具體哪兒有問題一時說不清,但沒關系,只要覺得他有問題,就可以攔下來慢慢盤問!現在咱有了大模型,直接用它模擬老保安隊長那種說不清道不明的“直覺”來做判斷,不就直接吊打黑客了嗎?咱們的大腦看似是一坨,實際做復雜判斷時,是里面很多“腦區(qū)”相互配合的結果,就像病人的疑難雜癥需要不同科室的專家會診一樣。如果要模擬人腦識別高級入侵,“一把火”不夠,得把網絡安全所需的不同腦區(qū)都給訓練到一個大模型中↓↓↓這些腦區(qū)有的是看代碼,有的是看日志,有的是做推理,有的是讀語言,知識體系和功能都差異很大。那就是,同時學習多個差異很大的知識體系,就會形成蹺蹺板效應:A 領域學會了,有可能 B 領域就學廢了,反之亦然。其實這個缺陷人腦也存在,你讀一個博士都費勁,同時讀五個風馬牛不相及的博士你試試,不走火入魔才怪。但網絡安全的場景非常復雜,要想攔住頂級黑客,你還真就得讀五個博士。不搞定這個 Bug,大模型就無法在網絡安全領域落地。。。把不同的專家徹底分開——獨立訓練幾個“安全專家模型”,每個專家的腦袋瓜只思考一件特定的事情,然后讓他們組成一個“專家組”。遇到復雜問題,抽調團隊里相關的安全專家模型分別思考,再把結論綜合起來,這不就行了嗎?行是行,但這樣獨立模型聯(lián)合起來的團隊,未免太奢華了。。。(三)可以“拔下來”的火柴頭每一個專家模型都要有語言和邏輯思維能力,這意味著它們分別要在大模型的基礎上訓練而成——比如是 72B 的模型。而干一件事兒可能需要 10-20 個專家模型配合。這么一來,系統(tǒng)里等于是并行跑著 10 個大模型。運行一個 72B 的模型,怎么也得需要一個裝滿 4 張 L20 推理卡的服務器,價格最低也要 20 多萬。要是跑 10 個模型,光是機器就要 200 多萬。對于絕大多數企業(yè)來說,這都是一筆巨額開銷啊!想想看,哪個工業(yè)園區(qū)也不會把日常支出的 20% 用于給“豪華旗艦版保安隊”開工資吧??看到沒,這才是大模型進入產業(yè)的真實困境。。。看來,人腦的作業(yè)也不是這么好抄的,得上點兒狠活!360 數字安全團隊也會訓練很多“安全專家腦區(qū)”,但不同的是,他們對這些腦區(qū)“提取最大公約數”——彼此共用一套大模型底座。1、每類任務都交給一個特定的“專家腦區(qū)”,平時把這個腦區(qū)外掛在大模型底座上訓練;2、每次訓練的過程中,把底座大模型的參數鎖死,只改動“外掛腦區(qū)”的參數;3、訓練好 A 專家腦區(qū),就把 A 從底座上拔下來,再插上 B 腦區(qū),訓練 B 任務。 你可以這樣想象:一根火柴梗,上面能搭配很多火柴頭。這樣一來,所有的專家共用了一套語言邏輯中樞,也就是那個大模型底座。每個專家腦區(qū)只負責特定的思考,腦容量就能大大縮小,大概只有 1 億個參數。系統(tǒng)思考的時候,它會根據任務的不同給它指派“火柴頭”。每次指派之后,信息流就從大模型基座(火柴梗)燒向這個專家腦區(qū)(火柴頭)。在思考下一趴的時候,路由器會重新指派“專家腦區(qū)”。以此循環(huán),直到所有的思考結束,最終答案呈現在眼前。這樣一來,火柴是用到哪根點哪根,火柴頭平時也不占地方。同樣是一臺 20 萬的機器,原本只能驅動一個專家,現在卻驅動 10 個專家也沒問題。這個架構,被 360 稱為 CCoE(緊湊型多專家協(xié)同大模型)↓↓↓潘神告訴我,現在他們訓練了很多個“火柴頭”專家,企業(yè)客戶根據自己的情況,用到哪個專家就買哪個專家,跟自助餐一樣豐儉由人,非常方便。我們剛才說過:快思考雖然能快速做判斷題,但它的判斷“不保熟”。保安看一個人像壞蛋,雖然可以用直覺判斷拒絕他進入園區(qū)。但如果背后沒有理性邏輯支撐的”慢思考”,終究會存在兩種問題:一來,可能誤傷好人,次數多了人家會投訴你,保安就得下崗;二來,壞蛋痛定思痛,下次喬裝打扮得更好,你可能又給放進去了,保安還是得下崗! 為了不下崗,保安必須得有環(huán)環(huán)相扣的邏輯推理能力,這在大模型技術中被叫做——思維鏈。(四)慢思考像一條河 如果你用過 DeepSeek,就不會對“思維鏈”太陌生。DeepSeek 在正式回答你之前,會走一段內心 OS,這個 OS,就是它的思維鏈。那么,只要用這個思維鏈思考, 就是潘神所說的慢思考了嗎?首先說,練過拳腳的人和沒練過拳腳的人肯定不在一個量級,一打一個服氣。這不,DeepSeek 利用思維鏈給出的回答,相比之前直覺大模型(例如 GPT-4o)的不假思索直接出答案,更加有理有據,令人信服。但功夫這件事兒,是分段位的。白帶打不過黑帶,黑帶打不過紅帶,山外有山,進無止境。咱們不妨具體看一下 DeepSeek 的功夫,它的絕招是“反思”:你問 DeepSeek 一個問題,它會把問題拆成步驟,一步一步地往下推導。小船自然地隨著水勢自然流淌,永遠不會意識到自己在隨波逐流,更不會“主動”倒船選擇更順的路↓↓↓但是,DeepSeek 不同,如果推導過程中出現了矛盾,它居然會倒帶,修改之前的思考方向。這就是反思!直到它撇出一條順滑的結論,才算是走通了一條思維鏈↓↓↓用同樣的方法,它還會給出幾條思維鏈,最后再反思一下,沿著最順滑的那條思維鏈給你輸出答案。因為,只有在思維之河之外存在某種監(jiān)督機制,才能對小船的航向有感知和反思。DeepSeek 之所以被全世界豎大拇指,最大的功勞就是:工程師沒有把這種反思能力強加于模型,而是找到了方法,讓模型自己進化出來。在 DeepSeek R1 的論文中,老師傅展示了一段思維鏈,AI 在思考過程中,直接用人類的口吻來了個“aha”,這意味著它有了反思,開始重整思維鏈。但潘神提示我:作為人類,咱可不只有“反思”這一個絕招。人在為思考按下暫停鍵時,除了“閉眼向內求”——通過自省來重新修正自己的思維鏈,還會“睜眼向外看”——借助工具和信息渠道,從開放世界拿回最新鮮的數據,輔助生成接下來的思維鏈。第一級:類似于 GPT-4o 這樣用直覺輸出答案,是“快思考”;第二級:類似于 DeepSeek 和 GPT-o1 這樣有向內看能力的思維鏈,可以叫“深度思考”;第三級:在反思型思維鏈的基礎上,還能主動吸收外部信息,一邊向外看一邊想,才是更完整的“慢思考”。 但現實很殘酷。DeepSeek 的訓練資源和技巧已經是當前世界頂級了,要想在它的基礎上改進,技術難度提升可不止一點半點。
(五)“不斷有支流匯入”的思維之河讓我們觀察一下自身,咱們思考問題的時候,啥時候會去查一些信息?一般是我們“拿不準”的時候。換句話說,當我們需要“不能錯的信息”時。咱們就以網絡安全場景為例,不能錯的信息大概有四種:1、精確的通識。比如:網絡安全行業(yè)處理黑客攻擊的《最佳流程手冊》。2、專有的數據。比如:L 黑客組織,360 公司歷年捕獲到的它曾用過的攻擊手法。3、實時的事態(tài)。比如:W 系統(tǒng)最新爆出的漏洞詳情代碼。4、工具的輸出結果。比如:利用掃描工具檢查網域內的設備后,繪制的網絡地圖。 通識一般以知識圖譜的形式存在,專有數據在數據庫里,實時事態(tài)一般要聯(lián)網查詢,工具一般要靠智能體去調用。潘神他們索性把這幾種東西打包起來,做成了一個“外腦”↓↓↓AI 在思維鏈的形成過程中,可以隨時停下,調用這個外腦來補充信息,然后再繼續(xù)思考,就好像人的“聯(lián)想”一樣!看到這你也許會疑惑:DeepSeek 不是有個“聯(lián)網搜索”功能嗎?這不已經是聯(lián)想了嗎?DeepSeek 是在思考之前先搜索,然后帶著搜索內容開始生成思維鏈。思維鏈在延展的過程中,是不能停下吸納新信息的。你沒辦法預測后續(xù)具體會用到什么信息,只能不管后面有用沒用,先一股腦多輸入一些。而“聯(lián)想”則是在河流流淌的過程中,隨時匯入支流。由于前面已經完成了一部分思考,此時應該非常清楚急需什么,可以有針對性地搜索、納入這些信息,讓接下來的思考更鋒利。但問題是,目前還沒有一種方法,可以讓大模型在思考的過程中主動產生聯(lián)想的“欲望”。潘神團隊研究出一個看上去粗暴,但著實有用的方案:既然敬酒不吃,那就吃罰酒唄! 在模型思考的框架里加入“強行聯(lián)想”的功能。具體來說就是,思維鏈每行進一步,都有一個外部的算法對它進行評估,一旦發(fā)現思考的內容符合條件,二話不說直接激活外腦。你可以把它想象成河流當中的浮標,只要思維的深度觸碰到浮標, 就主動開閘,引入一條支流,把新信息合并進來繼續(xù)作為下一層思考的輸入。這個帶有實時聯(lián)想功能的思維鏈,被他們稱作 CoAT(Chain-of-Associated-Thoughts),也就是“聯(lián)想思維鏈”。高級的食材只需簡單的烹飪,雖說 CoAT 實現方法并不復雜,但效果還挺顯著的。潘神給我看了一個例子,分別用 CoAT 架構的“慢思考大模型”和 DeepSeek 的“深度思考大模型”來解答同一個問題。我們應該如何看待人工智能在當代國際競爭中的作用?哪些國家在這一領域擁有領先的優(yōu)勢? DeepSeek 發(fā)揮穩(wěn)定,答案很詳細,但美中不足是例證較少。CoAT 的不同點是,它列舉了幾個具體國家的 AI 策略,并且提供了美國 AI 研究的具體項目和中國的“新一代人工智能發(fā)展計劃”。之所以會有這樣的區(qū)別,大概正是因為 DeepSeek 只在最開始的時候搜索了外部信息,而 CoAT 是在思考的每一步都通過外腦查詢相關的信息,從而可以更具體。這是回答上述問題的完整思維鏈生成過程,可以看到在每一步都和紅圈內的外腦交互,進行了“聯(lián)想”。(點擊看大圖)潘神告訴我,這種優(yōu)勢在思考網絡安全的專業(yè)問題上會表現得更明顯,他們正在緊鑼密鼓把這些能力加持在 360 的大模型安全產品里,客戶很快就能體驗到。但天下武功都有走火入魔的可能,這種“強行匯入支流”的操作也暗藏危險:在思考中添加外腦的信息,并不一定總是會讓思考結果更好。原因很簡單,如果匯入的支流里面有泥沙,就會讓本來一條清澈的河流變得渾濁。 所以,如何篩選和精簡外腦的“信息水流”,是至關重要的。他們于是在每一條匯入的支流入口處,都加了一道“水閘”。這個水閘其實就是一個評估算法,來計算內容和已有思維鏈生成內容的相關程度。只把最相關最核心的內容放進主河流,其他的信息主動放棄,主打一個寧缺毋濫!潘神特別提醒我,CoAT 只是一種技術框架,里面所有的參數都是可以調整的:在網絡安全領域,對思維鏈的聚焦度要求比較高,就可以決定只在關鍵節(jié)點匯入支流,匯入的水流也少而精確;而在其他領域,比如輔助寫作,完全可以更多地匯入信息,每次加入豐富的數據,讓結果變得更加發(fā)散,更有趣味。 360 的老師傅合計了一下,覺得這些研究對很多行業(yè)都有用,于是把一部分研究成果寫成了論文分享了出來。這個操作很快引來了一些“自來水”。有人錄視頻、寫文章分享他們對這個技術進展的解讀。這并不太意外,畢竟如今 Made in China 的技術也是品質的保證嘛。實際上,隨著前幾天 DeepSeek 對技術的披露,人們逐漸意識到:“顛覆性創(chuàng)新”很多時候是由一系列“實踐創(chuàng)新”集合而成的。DeepSeek 的每一個創(chuàng)新都很具體,比如 GPU 優(yōu)化、通信庫、文件系統(tǒng)。。。但合在一起就有奇效!如此說來,像 360 老師傅這樣的實踐型創(chuàng)新同樣值得被我們點贊。無數這樣的大小創(chuàng)新集結起來,才把我們一步步推向那個“智械黎明”。(六)“智械黎明” 網絡安全也許是大模型的光亮最難照射進去的幾個行業(yè)之一。它是戰(zhàn)爭的線上版本,是全人類最頂尖頭腦之間的攻防。人腦尚且不夠用,怎么輪到 AI 多嘴?但大模型的光芒一旦照進去,網絡安全行業(yè)又會是最閃耀的。它自古就能觸及浩如煙海的底層日志,能見識最多走位風騷的攻擊路徑。而大模型本就是數據驅動的。如果能夠找到方法完整、高效地利用這些獨門數據,做出來的機械戰(zhàn)士將強的可怕。大模型已經橫空出世三四年了,雖然幾乎所有的網絡安全公司都說自己用了大模型,看上去一片火熱,但如人飲水冷暖自知。很多安全公司使用大模型的原動力都來自于行業(yè)的內卷和焦慮——本來生意就不好做,別人吹牛說用了大模型,你不說,生意就更不好做了。在很長的時間里,殘酷的迷霧一直籠罩:全行業(yè)都沒有找到“特別適合大模型的任務”。有些任務大模型能干,小模型也能干,但小模型的性價比更高;有些任務小模型確實干不了,但人干更便宜,性價比仍然比大模型高。 現實很殘酷,各個企業(yè)中的網絡安全部門雖然客觀上肩頭責任重大,但一般卻是公司里存在感最低的部門。老板天然更注重業(yè)務,誰愿意天天關注保安隊呢?未來,即使是這么嚴苛的標準,“大模型驅動的保安”也可能被挑中!網絡流量中的一種分析任務,如果放一個人類專家在這,工資成本也不低?,F在,CCoE 框架下的大模型能達到人類準確率的 90%,但運行成本遠低于人類專家。在這種表現下,無論怎么算賬,大模型加持的機械戰(zhàn)士都是這個崗位的最優(yōu)選項——不出意外,它即將成為這個崗位上的釘子戶。如果從遠處眺望,網絡安全系統(tǒng)就像一艘戰(zhàn)艦。未來的日子里,大模型有希望在越來越多的位置上成為釘子戶。一點點替代傳統(tǒng)的規(guī)則引擎,替代人類的專家判斷——如忒修斯之船一樣每天替換掉一個部件。某一天,當太陽再次升起,戰(zhàn)艦的輪廓顯形,我們也許會見證一個“智械黎明”。但我知道的是,那個黎明來自過往的每一天,來自行業(yè)中無數頭鐵的老師傅用微小而堅定的創(chuàng)新一點點撞開的裂縫。
|