乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      企業(yè)搭建大模型 RAG 知識庫?該選哪個 Embedding 嵌入模型

       邸彥強(qiáng) 2025-03-17 發(fā)布于河北
      需求:企業(yè)在搭建 RAG 知識庫的時(shí)候,選擇合適的 Embedding 嵌入模型很重要,Embedding 的性能決定了檢索的準(zhǔn)確性,也間接決定了大模型輸出的可信度。常用模型:bge、m3e、nomic-embed-text、BCEmbedding(網(wǎng)易有道)。

      為什么需要嵌入模型

      計(jì)算機(jī)本質(zhì)上只能處理數(shù)字運(yùn)算,無法直接理解自然語言、文字、圖片、音頻等非數(shù)值形式的數(shù)據(jù)。因此,我們需要通過“向量化”操作,將這些數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可以理解和處理的數(shù)值形式,即映射為數(shù)學(xué)上的向量表示。這一過程通常借助嵌入模型(Embedding Model)來實(shí)現(xiàn),它可以有效地捕捉數(shù)據(jù)中的語義信息和內(nèi)在結(jié)構(gòu)。

      嵌入模型的作用在于,它不僅能夠?qū)㈦x散的數(shù)據(jù)(如單詞、圖像片段或音頻片段)轉(zhuǎn)換為連續(xù)的低維向量,還能在向量空間中保留數(shù)據(jù)之間的語義關(guān)系。例如,在自然語言處理中,嵌入模型可以生成詞向量,使得語義相似的單詞在向量空間中距離更近。這種高效的表示方式使計(jì)算機(jī)能夠基于這些向量進(jìn)行復(fù)雜的計(jì)算與分析,從而更好地理解與處理文本、圖像或聲音等復(fù)雜數(shù)據(jù)。

      通過嵌入模型的向量化操作,計(jì)算機(jī)不僅可以高效地處理大規(guī)模數(shù)據(jù),還能在各種任務(wù)中(如分類、檢索、生成等)展現(xiàn)出更強(qiáng)的性能和泛化能力。

      嵌入模型評測

      要判斷一個嵌入模型的好壞,必須有一套明確的標(biāo)準(zhǔn)。通常使用 MTEB 和 C-MTEB 進(jìn)行基準(zhǔn)測試。

      MTEB

      Huggingface有一個MTEB(Massive Multilingual Text Embedding Benchmark)評測標(biāo)準(zhǔn)是一個業(yè)界比較公認(rèn)的標(biāo)準(zhǔn),可以作為參考。涵蓋了8個嵌入任務(wù),共58個數(shù)據(jù)集和112種語言,是目前迄今為止最全面的文本嵌入基準(zhǔn)。



      排行榜:https:///spaces/mteb/leaderboard
      GitHub 地址:https://github.com/embeddings-benchmark/mteb

       


      C-MTEB

      C-MTEB是當(dāng)前最全面的中文語義向量評測基準(zhǔn),涵蓋6大類評測任務(wù)(檢索、排序、句子相似度、推理、分類、聚類)和 35 個數(shù)據(jù)集。

      C-MTEB論文:https:///abs/2309.07597
      代碼和排行榜:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/C_MTEB,(網(wǎng)上很多地址是舊的)

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多