乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      10倍英偉達(dá)GPU:大模型專用芯片一夜成名,來自谷歌TPU創(chuàng)業(yè)團(tuán)隊(duì)

       okxso 2024-02-20 發(fā)布于北京
      機(jī)器之心報(bào)道
      編輯:澤南、蛋醬
      能帶來完全不同的大模型體驗(yàn)。

      我們知道,大模型到 GPT-3.5 這種千億體量以后,訓(xùn)練和推理的算力就不是普通創(chuàng)業(yè)公司所能承擔(dān)的了,人們用起來速度也會很慢。

      但自本周起,這種觀念已成為歷史。

      有名為 Groq 的初創(chuàng)公司開發(fā)出一種機(jī)器學(xué)習(xí)處理器,據(jù)稱在大語言模型任務(wù)上徹底擊敗了 GPU—— 比英偉達(dá)的 GPU 快 10 倍,而成本僅為 GPU 的 10%,只需要十分之一的電力。

      這是在 Groq 上運(yùn)行 Llama 2 的速度:

      圖片來源:https://twitter.com/emollick/status/1759633391098732967

      這是 Groq(Llama 2)和 ChatGPT 面對同一個(gè) prompt 的表現(xiàn):

      圖片圖源:https:///JayScambler/status/1759372542530261154?s=20

      盡管看起來不可思議,但事實(shí)就是如此,感興趣的朋友不妨一試。

      目前,Groq 的官網(wǎng)提供了試用體驗(yàn),有這些模型可選:

      圖片

      官網(wǎng)地址:https:///

      Groq 的處理器名為 LPU(語言處理單元),是一種新型的端到端處理單元系統(tǒng),可以為具備序列組件的計(jì)算密集型應(yīng)用(比如 LLM)提供極快的推理速度。

      它帶動的大模型速度能達(dá)到前所未有的 500 Token/s,并且實(shí)現(xiàn)了極低的延遲。

      圖片

      用硬件加速軟件,總能給人一種力大磚飛的感覺。Groq 還在 LPU 上運(yùn)行了最新銳的開源模型 Mixtral,模型在不到一秒的時(shí)間內(nèi)回復(fù)了包含數(shù)百個(gè)單詞的事實(shí)性的、引用的答案(其中四分之三的時(shí)間是用來搜索):

      圖片

      Groq 放出的 Demo 視頻下,有人評論道:這也太快了,不該這么快。

      有網(wǎng)友因此提出建議:因?yàn)榇竽P蜕蓛?nèi)容的速度太快,所以從用戶體驗(yàn)的角度來看不應(yīng)該再自動翻頁了,因?yàn)槿搜劭床贿^來。

      圖片

      或許在 LPU 的加持下,生成式 AI 真的要如同 Gartner 最近預(yù)測所言:在兩年內(nèi)對搜索引擎構(gòu)成巨大威脅了。仔細(xì)一想也確實(shí)合理,畢竟當(dāng)年神經(jīng)網(wǎng)絡(luò)就是被 GPU 算力的發(fā)展帶飛的。

      至于為什么這么快?

      有人分析,GPU 專為具有數(shù)百個(gè)核心的并行處理而設(shè)計(jì),主要用于圖形渲染,而 LPU 的架構(gòu)旨在為 AI 計(jì)算提供確定性的性能。

      LPU 的架構(gòu)不同于 GPU 使用的 SIMD(單指令、多數(shù)據(jù))模型,而是采用更精簡的方法,消除了對復(fù)雜調(diào)度硬件的需求。這種設(shè)計(jì)允許有效利用每個(gè)時(shí)鐘周期,確保一致的延遲和吞吐量。

      能源效率是 LPU 相對于 GPU 的另一個(gè)值得注意的優(yōu)勢。通過減少與管理多個(gè)線程相關(guān)的開銷并避免核心利用率不足,LPU 可以提供更多的每瓦計(jì)算量,將其定位為更環(huán)保的替代方案。

      Groq 的芯片設(shè)計(jì)允許將多個(gè) TSP 連接在一起,不會出現(xiàn) GPU 集群中的傳統(tǒng)瓶頸,使其具有極高的可擴(kuò)展性。隨著更多 LPU 的添加,這可以實(shí)現(xiàn)性能的線性擴(kuò)展,從而簡化大規(guī)模 AI 模型的硬件要求,并使開發(fā)人員更輕松地?cái)U(kuò)展其應(yīng)用程序,而無需重新架構(gòu)其系統(tǒng)。 

      在 A100 和 H100 相對緊缺的時(shí)代,LPU 或許會成為大模型開發(fā)商的新選擇。

      圖片

      Groq 成立于 2016 年,這家公司的創(chuàng)始團(tuán)隊(duì)出自谷歌,曾經(jīng)設(shè)計(jì)了谷歌自研 AI 芯片張量處理單元 TPU 系列。據(jù)官網(wǎng)介紹,Groq 公司創(chuàng)始人、首席執(zhí)行官 Jonathan Ross 曾經(jīng)承擔(dān)了 TPU 的 20% 工作。

      圖片Jonathan Ross。

      在去年的高性能計(jì)算會議 SC23 上,Groq 就展示過在 LPU 上運(yùn)行 LLM 的全球最佳低延遲性能。當(dāng)時(shí),Groq 能夠以每秒超過 280 個(gè) Token 的速度生成回復(fù),刷新了 Llama-2 70B 推理的性能記錄。

      今年 1 月,Groq 首次參與公開基準(zhǔn)測試,就在 Anyscale 的 LLMPerf 排行榜上取得了突出的成績,遠(yuǎn)超其他基于云的推理提供商。

      圖片

      圖片源:https://github.com/ray-project/llmperf-leaderboard?tab=readme-ov-file

      人工智能已經(jīng)在科技界掀起了一場風(fēng)暴。2023 年可能是世界意識到人工智能將成為現(xiàn)實(shí)的一年,而 2024 年則是人工智能真正成為現(xiàn)實(shí)而不僅僅是假設(shè)的一年。這是 Jonathan Ross 曾經(jīng)表達(dá)的一個(gè)觀點(diǎn)。

      當(dāng)我們擁有 100 萬 Token 上下文的 Gemini Pro 1.5、每秒 500 Token 推理速度的 Groq、推理能力更進(jìn)一步的 GPT-5,夢想還會遠(yuǎn)嗎?

      圖片

      參考內(nèi)容:
      https:///2024/01/23/grokking-groqs-groqness/
      https:///2024/01/18/ai-leaders-discuss-state-ai-implemented-enterprise-cescoverage-cubeconversations/

        本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多