中文文本分類
概況介紹中文文本自動(dòng)分類是自然語言處理的經(jīng)典研究方向,有著極其重要的應(yīng)用價(jià)值。文本分類的核心技術(shù)為構(gòu)建一個(gè)具有高準(zhǔn)確度和較高速度的分類器,高效率的分類器才能具有實(shí)用性。目前構(gòu)建分類器的方法有貝葉斯分類算法、K緊鄰(K-NN)、決策樹、線性最小二乘法估計(jì)(LLSF)、支持向量機(jī)(SVM)等,其中K-NN和SVM是基于向量空間模型(VSM)的最好的分類器,我們采用的SVM更是具有其他算法所不具備的優(yōu)點(diǎn),通過實(shí)驗(yàn)也證明了SVM能獲得更好的分類性能。分類問題是自然語言處理的一個(gè)基本問題,很多相關(guān)的研究都可以歸結(jié)為分類問題。自動(dòng)分類在信息檢索、圖書館管理和網(wǎng)頁新聞體系劃分都有重要應(yīng)用。體系結(jié)構(gòu)文本分類系統(tǒng)的任務(wù)是:在給定的分類體系下,根據(jù)文本的內(nèi)容自動(dòng)地確定文本關(guān)聯(lián)的類別。從數(shù)學(xué)角度來看,文本分類是一個(gè)映射的過程,它將未標(biāo)明類別的文本映射到已有的類別中,該映射可以是一一映射,也可以是一對(duì)多的映射,因?yàn)橥ǔR黄谋究梢酝鄠€(gè)類別相關(guān)聯(lián)。 我們可以把分類過程分成2個(gè)部分:訓(xùn)練過程和分類過程: 在2004年舉行的863分類評(píng)測中,我們系統(tǒng)在最短時(shí)間內(nèi)最快完成測試,表現(xiàn)出極高的效率和穩(wěn)定性,在10多家參加單位中處于中游水平。歷經(jīng)2年不斷改進(jìn),在14類新聞分類體系中準(zhǔn)確率達(dá)到80%,基本達(dá)到實(shí)用水平。 系統(tǒng)功能1)較快的訓(xùn)練和測試過程。2)根據(jù)不同用戶需求,可以便捷地更改分類體系。 3)在Windows和Linux下都可以運(yùn)行。 4)支持單一文本即時(shí)分類和成批量文本同時(shí)分類。 技術(shù)特點(diǎn)我們使用的方法基于類別特征域的文本分類特征選擇方法。該方法首先利用“組合特征抽取”的方法去除原始特征空間中的噪音,從中抽取出候選特征。這里,“組合特征抽取”是指先利用文檔頻率(DF)的方法去掉一部分低頻詞,再用互信息的方法選擇出候選特征。接下來,本方法為分類體系中的每個(gè)類別構(gòu)建一個(gè)類別特征域,對(duì)出現(xiàn)在類別特征域中的候選特征進(jìn)行特征的合并和強(qiáng)化,從而解決數(shù)據(jù)稀疏的問題。實(shí)驗(yàn)表明,這種新的方法較之各種傳統(tǒng)方法在特征選擇的效果上有著明顯改善,并能顯著提高文本分類系統(tǒng)的性能。性能指標(biāo)在2004年舉行的863分類評(píng)測中,我們系統(tǒng)在最短時(shí)間內(nèi)最快完成測試,表現(xiàn)出很高的效率和穩(wěn)定性,準(zhǔn)確率和招回率在10多家參加評(píng)測單位中名次位于中游。歷經(jīng)2年不斷改進(jìn),在11個(gè)類別的新聞分類體系中準(zhǔn)確率達(dá)到80%以上,基本達(dá)到實(shí)用水平。目前我們的系統(tǒng)對(duì)常用的11個(gè)類別進(jìn)行測試的具體指標(biāo):
應(yīng)用領(lǐng)域1、信息檢索2、新聞即時(shí)分類 3、詞義消歧 4、圖書館管理系統(tǒng) |
|