企業(yè)搭建大模型 RAG 知識庫？該選哪個 Embedding 嵌入模型

邸彥強(qiáng) 2025-03-17 發(fā)布于河北

展開全文

需求：企業(yè)在搭建 RAG 知識庫的時(shí)候，選擇合適的 Embedding 嵌入模型很重要，Embedding 的性能決定了檢索的準(zhǔn)確性，也間接決定了大模型輸出的可信度。常用模型：bge、m3e、nomic-embed-text、BCEmbedding（網(wǎng)易有道）。

為什么需要嵌入模型

計(jì)算機(jī)本質(zhì)上只能處理數(shù)字運(yùn)算，無法直接理解自然語言、文字、圖片、音頻等非數(shù)值形式的數(shù)據(jù)。因此，我們需要通過“向量化”操作，將這些數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可以理解和處理的數(shù)值形式，即映射為數(shù)學(xué)上的向量表示。這一過程通常借助嵌入模型（Embedding Model）來實(shí)現(xiàn)，它可以有效地捕捉數(shù)據(jù)中的語義信息和內(nèi)在結(jié)構(gòu)。

嵌入模型的作用在于，它不僅能夠?qū)㈦x散的數(shù)據(jù)（如單詞、圖像片段或音頻片段）轉(zhuǎn)換為連續(xù)的低維向量，還能在向量空間中保留數(shù)據(jù)之間的語義關(guān)系。例如，在自然語言處理中，嵌入模型可以生成詞向量，使得語義相似的單詞在向量空間中距離更近。這種高效的表示方式使計(jì)算機(jī)能夠基于這些向量進(jìn)行復(fù)雜的計(jì)算與分析，從而更好地理解與處理文本、圖像或聲音等復(fù)雜數(shù)據(jù)。

通過嵌入模型的向量化操作，計(jì)算機(jī)不僅可以高效地處理大規(guī)模數(shù)據(jù)，還能在各種任務(wù)中（如分類、檢索、生成等）展現(xiàn)出更強(qiáng)的性能和泛化能力。

嵌入模型評測

要判斷一個嵌入模型的好壞，必須有一套明確的標(biāo)準(zhǔn)。通常使用 MTEB 和 C-MTEB 進(jìn)行基準(zhǔn)測試。

MTEB

Huggingface有一個MTEB（Massive Multilingual Text Embedding Benchmark）評測標(biāo)準(zhǔn)是一個業(yè)界比較公認(rèn)的標(biāo)準(zhǔn)，可以作為參考。涵蓋了8個嵌入任務(wù)，共58個數(shù)據(jù)集和112種語言，是目前迄今為止最全面的文本嵌入基準(zhǔn)。

排行榜：https:///spaces/mteb/leaderboard
GitHub 地址：https://github.com/embeddings-benchmark/mteb

C-MTEB

C-MTEB是當(dāng)前最全面的中文語義向量評測基準(zhǔn)，涵蓋6大類評測任務(wù)（檢索、排序、句子相似度、推理、分類、聚類）和 35 個數(shù)據(jù)集。

C-MTEB論文：https:///abs/2309.07597
代碼和排行榜：https://github.com/FlagOpen/FlagEmbedding/tree/master/research/C_MTEB，（網(wǎng)上很多地址是舊的）

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：邸彥強(qiáng) > 《存檔》

舉報(bào)/認(rèn)領(lǐng)