sanqima的專欄 Jieba是一個中文分詞組件,可用于中文句子/詞性分割、詞性標(biāo)注、未登錄詞識別,支持用戶詞典等功能。該組件的分詞精度達到了97%以上。下載介紹在Python里安裝Jieba。
1)下載Jieba
官網(wǎng)地址:http://pypi./pypi/jieba/
個人地址:http://download.csdn.net/detail/sanqima/9470715
2)將其解壓到D:\TDDownload,如圖(1)所示:
圖(1)將Jieba-0.35.zip解壓
?。?點擊電腦桌面的左下角的【開始】—》運行 —》輸入: cmd —》切換到Jieba所在的目錄,比如,D:\TDDownload\Jieba,依次使用如下命令:
C:\Users\Administrator>D:
D:\>cd D:\TDDownload\jieba-0.35
D:\TDDownload\jieba-0.35>python setup.py install
如圖(2)所示:
圖(2) 切換到Jieba目錄,使用命令:python setup.py install 進行安裝
3)在PyCharm 里寫一個中文分詞的小程序: fenCi.py
## fenCi.py
#encoding=utf-8
import jieba
seg_list = jieba.cut("我來到北京清華大學(xué)",cut_all=True)
print "Full Mode:", "/ ".join(seg_list) #全模式
seg_list = jieba.cut("我來到北京清華大學(xué)",cut_all=False)
print "Default Mode:", "/ ".join(seg_list) #精確模式
seg_list = jieba.cut("他來到了網(wǎng)易杭研大廈") #默認是精確模式
print ", ".join(seg_list)
seg_list = jieba.cut_for_search("小明碩士畢業(yè)于中國科學(xué)院計算所,后在日本京都大學(xué)深造") #搜索引擎模式
print ", ".join(seg_list)
效果如下:
圖(3) Jieba進行中文分詞的效果
|