乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      中文文本分類 - 哈爾濱工業(yè)大學(xué)信息檢索研究室

       素行 2007-06-26
      中文文本分類

      概況介紹

      中文文本自動(dòng)分類是自然語言處理的經(jīng)典研究方向,有著極其重要的應(yīng)用價(jià)值。文本分類的核心技術(shù)為構(gòu)建一個(gè)具有高準(zhǔn)確度和較高速度的分類器,高效率的分類器才能具有實(shí)用性。目前構(gòu)建分類器的方法有貝葉斯分類算法、K緊鄰(K-NN)、決策樹、線性最小二乘法估計(jì)(LLSF)、支持向量機(jī)(SVM)等,其中K-NN和SVM是基于向量空間模型(VSM)的最好的分類器,我們采用的SVM更是具有其他算法所不具備的優(yōu)點(diǎn),通過實(shí)驗(yàn)也證明了SVM能獲得更好的分類性能。分類問題是自然語言處理的一個(gè)基本問題,很多相關(guān)的研究都可以歸結(jié)為分類問題。自動(dòng)分類在信息檢索、圖書館管理和網(wǎng)頁新聞體系劃分都有重要應(yīng)用。


      體系結(jié)構(gòu)



      文本分類系統(tǒng)的任務(wù)是:在給定的分類體系下,根據(jù)文本的內(nèi)容自動(dòng)地確定文本關(guān)聯(lián)的類別。從數(shù)學(xué)角度來看,文本分類是一個(gè)映射的過程,它將未標(biāo)明類別的文本映射到已有的類別中,該映射可以是一一映射,也可以是一對(duì)多的映射,因?yàn)橥ǔR黄谋究梢酝鄠€(gè)類別相關(guān)聯(lián)。

      我們可以把分類過程分成2個(gè)部分:訓(xùn)練過程和分類過程:

      中文文本分類_體系結(jié)構(gòu)

      在2004年舉行的863分類評(píng)測中,我們系統(tǒng)在最短時(shí)間內(nèi)最快完成測試,表現(xiàn)出極高的效率和穩(wěn)定性,在10多家參加單位中處于中游水平。歷經(jīng)2年不斷改進(jìn),在14類新聞分類體系中準(zhǔn)確率達(dá)到80%,基本達(dá)到實(shí)用水平。

      系統(tǒng)功能

      1)較快的訓(xùn)練和測試過程。

      2)根據(jù)不同用戶需求,可以便捷地更改分類體系。

      3)在Windows和Linux下都可以運(yùn)行。

      4)支持單一文本即時(shí)分類和成批量文本同時(shí)分類。

      技術(shù)特點(diǎn)

      我們使用的方法基于類別特征域的文本分類特征選擇方法。該方法首先利用“組合特征抽取”的方法去除原始特征空間中的噪音,從中抽取出候選特征。這里,“組合特征抽取”是指先利用文檔頻率(DF)的方法去掉一部分低頻詞,再用互信息的方法選擇出候選特征。接下來,本方法為分類體系中的每個(gè)類別構(gòu)建一個(gè)類別特征域,對(duì)出現(xiàn)在類別特征域中的候選特征進(jìn)行特征的合并和強(qiáng)化,從而解決數(shù)據(jù)稀疏的問題。實(shí)驗(yàn)表明,這種新的方法較之各種傳統(tǒng)方法在特征選擇的效果上有著明顯改善,并能顯著提高文本分類系統(tǒng)的性能。

      性能指標(biāo)

      在2004年舉行的863分類評(píng)測中,我們系統(tǒng)在最短時(shí)間內(nèi)最快完成測試,表現(xiàn)出很高的效率和穩(wěn)定性,準(zhǔn)確率和招回率在10多家參加評(píng)測單位中名次位于中游。歷經(jīng)2年不斷改進(jìn),在11個(gè)類別的新聞分類體系中準(zhǔn)確率達(dá)到80%以上,基本達(dá)到實(shí)用水平。

      目前我們的系統(tǒng)對(duì)常用的11個(gè)類別進(jìn)行測試的具體指標(biāo):

      類別 準(zhǔn)確率 招回率 F值
      財(cái)經(jīng) 0.725526 0.792208 0.757402
      房產(chǎn) 0.911090 0.871912 0.891071
      汽車 0.900372 0.925359 0.912695
      旅游 0.677174 0.692222 0.684615
      體育 0.960980 0.955776 0.958371
      教育 0.858624 0.844300 0.851402
      生活 0.670659 0.640000 0.654971
      科技 0.821463 0.823026 0.822243
      游戲 0.930732 0.936212 0.933464
      娛樂 0.913690 0.921922 0.917788
      軍事 0.927310 0.891218 0.908906
      微平均值 0.845238 0.844923 0.844811

      應(yīng)用領(lǐng)域

      1、信息檢索

      2、新聞即時(shí)分類

      3、詞義消歧

      4、圖書館管理系統(tǒng)

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多