為什么需要嵌入模型 計(jì)算機(jī)本質(zhì)上只能處理數(shù)字運(yùn)算,無法直接理解自然語言、文字、圖片、音頻等非數(shù)值形式的數(shù)據(jù)。因此,我們需要通過“向量化”操作,將這些數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可以理解和處理的數(shù)值形式,即映射為數(shù)學(xué)上的向量表示。這一過程通常借助嵌入模型(Embedding Model)來實(shí)現(xiàn),它可以有效地捕捉數(shù)據(jù)中的語義信息和內(nèi)在結(jié)構(gòu)。 嵌入模型的作用在于,它不僅能夠?qū)㈦x散的數(shù)據(jù)(如單詞、圖像片段或音頻片段)轉(zhuǎn)換為連續(xù)的低維向量,還能在向量空間中保留數(shù)據(jù)之間的語義關(guān)系。例如,在自然語言處理中,嵌入模型可以生成詞向量,使得語義相似的單詞在向量空間中距離更近。這種高效的表示方式使計(jì)算機(jī)能夠基于這些向量進(jìn)行復(fù)雜的計(jì)算與分析,從而更好地理解與處理文本、圖像或聲音等復(fù)雜數(shù)據(jù)。 通過嵌入模型的向量化操作,計(jì)算機(jī)不僅可以高效地處理大規(guī)模數(shù)據(jù),還能在各種任務(wù)中(如分類、檢索、生成等)展現(xiàn)出更強(qiáng)的性能和泛化能力。 嵌入模型評測 要判斷一個嵌入模型的好壞,必須有一套明確的標(biāo)準(zhǔn)。通常使用 MTEB 和 C-MTEB 進(jìn)行基準(zhǔn)測試。 MTEB Huggingface有一個MTEB(Massive Multilingual Text Embedding Benchmark)評測標(biāo)準(zhǔn)是一個業(yè)界比較公認(rèn)的標(biāo)準(zhǔn),可以作為參考。涵蓋了8個嵌入任務(wù),共58個數(shù)據(jù)集和112種語言,是目前迄今為止最全面的文本嵌入基準(zhǔn)。 ![]() 排行榜:https:///spaces/mteb/leaderboard GitHub 地址:https://github.com/embeddings-benchmark/mteb ![]() ![]() C-MTEB C-MTEB是當(dāng)前最全面的中文語義向量評測基準(zhǔn),涵蓋6大類評測任務(wù)(檢索、排序、句子相似度、推理、分類、聚類)和 35 個數(shù)據(jù)集。 C-MTEB論文:https:///abs/2309.07597 代碼和排行榜:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/C_MTEB,(網(wǎng)上很多地址是舊的) ![]() ![]() |
|