對(duì)共現(xiàn)分析感興趣的人越來(lái)越多,這是我在94年開(kāi)始做這方面研究的時(shí)候沒(méi)有預(yù)料到的,這確實(shí)是值得慶幸的一件事情,但是隨之而來(lái)的會(huì)有很多實(shí)際問(wèn)題,尤其是對(duì)于初學(xué)者,這個(gè)問(wèn)題不妥善解決,恐怕會(huì)影響到該方法的普及,所以,我覺(jué)得有義務(wù)給大家多做些解釋說(shuō)明,讓這個(gè)方法能夠得以平穩(wěn)健康的發(fā)展。
以下是我與一位湖南農(nóng)業(yè)大學(xué)的研究生之間就共現(xiàn)聚類分析的實(shí)際操作問(wèn)題的往來(lái)信件,考慮到可能有很多的同學(xué)都會(huì)遇到這樣的問(wèn)題,在征得該同學(xué)同意的前提下,刪去其中感謝的話語(yǔ)(不要因此認(rèn)為該同學(xué)不禮貌喲
![]() 1. 2010年4月6日
崔教授,您好!
目前學(xué)生遇到了一些問(wèn)題,不知道能否得到您的指點(diǎn):
1)就是利用Bibexcel 技術(shù)進(jìn)行共詞分析,那個(gè)圖譜畫不出,只能得到共現(xiàn)矩陣;
2)我研讀了您的一些論文,想利用SPSS做聚類分析的,可是我現(xiàn)在只有關(guān)鍵詞的共現(xiàn)頻率矩陣;還需要進(jìn)行什么處理才能做聚類分析呢?
3)“戰(zhàn)略坐標(biāo)”中的向心度和密度具體怎么算呢?
這是他的數(shù)據(jù)(已經(jīng)整理過(guò)行和列的):
![]() 1.我的回信:
XXX同學(xué),您好!
1)對(duì)于你附件中的矩陣,是通過(guò)bibexcel得到的嗎?是共現(xiàn)矩陣嗎?對(duì)角線上的數(shù)字代表什么呢?為什么對(duì)角線上的數(shù)字有的是0,有的不是0呢?
2)如果用SPSS分析,輸入的矩陣不應(yīng)該是相關(guān)矩陣,而應(yīng)該是詞-篇矩陣,就是比共現(xiàn)矩陣更為原始的,示例如下:
上述矩陣的1代表該詞在該論文中出現(xiàn),0代表沒(méi)有出現(xiàn),你目前得到的矩陣應(yīng)該是通過(guò)這個(gè)矩陣進(jìn)一步計(jì)算后得到的。這樣的矩陣在SAS中可以輸入處理,其他一些小型的專門面向聚類的軟件也可以處理,如gcluto,但是首先要把對(duì)角線上的數(shù)據(jù)是什么意思能明白,否則沒(méi)有可信性。
3)戰(zhàn)略坐標(biāo)的算法我們就是用excel,通過(guò)標(biāo)記同一類的對(duì)象,反復(fù)計(jì)算每一個(gè)類別的類內(nèi)各個(gè)對(duì)象(詞)之間的距離的平均值(某一類的密度),然后計(jì)算每個(gè)類內(nèi)的各個(gè)對(duì)象(詞)與本類之外所有詞的距離的平均值的平均值(某一類的向心度),看著復(fù)雜,實(shí)際在excel操作上只是拖動(dòng)鼠標(biāo)就可以了。坐標(biāo)的原點(diǎn)我們用的是所有各類的密度和向心度的平均值。
不知道我說(shuō)清楚沒(méi)有,看來(lái)需要開(kāi)設(shè)個(gè)實(shí)用培訓(xùn)班了。呵呵,我申請(qǐng)了一個(gè)研究生暑期訪學(xué)項(xiàng)目,不知道能否批準(zhǔn)。
2. 2010年4月7日來(lái)信:
尊敬的崔教授:
這兩天我一直在琢磨那個(gè)矩陣以及如何更進(jìn)一步的分析,我給您發(fā)的那個(gè)矩陣就是由Bibexcel 軟件得出的,您說(shuō)的對(duì)角線上的數(shù)字有的是0 ,我的理解是那兩個(gè)詞之間沒(méi)有共現(xiàn)關(guān)系,而其他數(shù)字表明那兩個(gè)詞一起共現(xiàn)的次數(shù),不知道我這樣理解有沒(méi)有錯(cuò)誤?
關(guān)于戰(zhàn)略坐標(biāo)法,我似乎有點(diǎn)懂了,可能等我把聚類樹(shù)做出來(lái),會(huì)更容易理解些,謝謝您!
2.2010年4月7日我的回信 對(duì)角線上的數(shù)字,對(duì)應(yīng)的行和列都是一個(gè)詞, 就是說(shuō), 對(duì)角線上的數(shù)字應(yīng)該是同一個(gè)詞自己和自己的關(guān)系,應(yīng)該是多少?
3.2010年4月7日 來(lái)信
崔教授:
列應(yīng)該是需要向下移一格的,也就是不考慮同一個(gè)詞自己和自己的關(guān)系。我給您傳一篇論文吧【注:為《國(guó)際力學(xué)論文關(guān)鍵詞的共詞分析》】,我的想法就是該篇論文的表1 ,表2考慮的。
崔教授,您好:
首先向您說(shuō)聲抱歉,我仔細(xì)檢查了下,發(fā)現(xiàn)確實(shí)如您所說(shuō)的那樣,我又用軟件重新做了一次,發(fā)現(xiàn)漏復(fù)制了一行,現(xiàn)把正確的矩陣給您發(fā)過(guò)去。
3.我的回信
這個(gè)問(wèn)題涉及到共現(xiàn)分析的一些基礎(chǔ)知識(shí),而且一直在爭(zhēng)議,參看邱均平老師的論文【關(guān)于共被引分析方法的再認(rèn)識(shí)和再思考】,對(duì)于你的數(shù)據(jù),我的做法是,把你給我的矩陣填滿,對(duì)角線輸入的是該單詞與其他單詞共現(xiàn)的總次數(shù),然后輸入到SPSS, 注意采用的是counts-chi square,得到結(jié)果【附件】,你看看是否是你想要的。
下面是填充過(guò)的表格,對(duì)角線是共現(xiàn)總次數(shù)。
![]() 4.2010年4月12日 來(lái)信
崔教授,您好!
仔細(xì)看了您給的聚類圖,感覺(jué)很好,只是如您所說(shuō)的,學(xué)生還有幾個(gè)疑問(wèn):
1)您能指點(diǎn)一下為什么矩陣中對(duì)角線您是取的總和值,這樣做是不是有相關(guān)的研究?邱均平教授研究論文中是最大值加1,我之前一直愚鈍的覺(jué)得是個(gè)0,現(xiàn)在仔細(xì)想想覺(jué)得自己對(duì)這方面的知識(shí)太欠缺了。
2)如您給出的矩陣,如果我想繼續(xù)做一個(gè)戰(zhàn)略坐標(biāo),請(qǐng)問(wèn)還應(yīng)該如何操作?是不是要求他們的一些系數(shù)矩陣?
3)在您的回信里,您特別強(qiáng)調(diào)了是用counts-chi square 方法聚類分析,請(qǐng)問(wèn)用這個(gè)方法有什么特別的地方嗎?
4.2010年4月13日 我的回信
XXX同學(xué),您好!
不用客氣,通過(guò)你的問(wèn)題我也學(xué)習(xí)了很多,對(duì)共現(xiàn)聚類分析有更深入的認(rèn)識(shí)。
(1)由于是共現(xiàn)矩陣,里面的數(shù)字是兩個(gè)詞的共現(xiàn)次數(shù),所以數(shù)目越大表示兩個(gè)詞關(guān)系越密切,所以,從這個(gè)角度說(shuō)共現(xiàn)矩陣是個(gè)相似矩陣,而不是距離矩陣,對(duì)角線上的數(shù)據(jù)代表著和一個(gè)詞和自己的相關(guān)程度,對(duì)于相似矩陣,應(yīng)該是越大越好,轉(zhuǎn)換為相似系數(shù)的矩陣后應(yīng)該是1;如果是距離矩陣,則應(yīng)該是越小越好,應(yīng)該是0。至于為什么取總和,是我們多年來(lái)的經(jīng)驗(yàn),和邱均平老師所提出的不同,如果取了總和,再轉(zhuǎn)換為相似系數(shù)矩陣的時(shí)候就可以保證對(duì)角線上的數(shù)據(jù)為1,效果會(huì)更好。從經(jīng)驗(yàn)和原理上是這樣的,但是沒(méi)有經(jīng)過(guò)嚴(yán)格的數(shù)學(xué)論證,由于沒(méi)有數(shù)學(xué)上的能力,也不想加入這個(gè)討論中。
(2)戰(zhàn)略坐標(biāo)的算法,再形成了矩陣并有了聚類結(jié)果之后, 可以在excel上操作,要點(diǎn)是把同一類的詞標(biāo)記出來(lái),然后排序,把同一類的幾行放在一起,先計(jì)算類內(nèi)各詞之間的共現(xiàn)次數(shù)平均值,這就是該類的密度。然后計(jì)算向心度,啰嗦一點(diǎn)兒說(shuō),就是把同類的列刪除,然后計(jì)算同一類各行的總和,就是每一詞與類外詞的距離,然后求平均值,應(yīng)該是該類的向心度了。你自己實(shí)踐幾次就明白了,我說(shuō)不明白。
(3)其實(shí),在我心里,對(duì)于矩陣中的數(shù)據(jù),既可以是計(jì)數(shù)(counts)數(shù)據(jù),也可以是計(jì)量數(shù)據(jù)(在SPSS中interval),之所以強(qiáng)調(diào),有點(diǎn)兒擔(dān)心你把計(jì)數(shù)資料用其他的系數(shù),其實(shí)擔(dān)心多余了,打開(kāi)SPSS看到這些是通過(guò)菜單和選項(xiàng)對(duì)應(yīng)起來(lái)了。所以,更正一下是,你可以用counts計(jì)算,卡方和另一個(gè)都可以試著來(lái),哪個(gè)好用哪個(gè)。也可以用interval計(jì)算,但是開(kāi)平方的歐氏距離效果不好。另外,聚類中各類別間相似度的計(jì)算方法(最大距離、最小距離、組內(nèi)平均距離和組間平均距離等)都可以嘗試,總結(jié)個(gè)人經(jīng)驗(yàn),我認(rèn)為最大距離效果最好。作為一種非監(jiān)督的學(xué)習(xí)方法,聚類分析更多的是依賴于個(gè)人經(jīng)驗(yàn)。
http://blog.sciencenet.cn/blog-82196-311484.html 上一篇:子見(jiàn)南子 下一篇:如何計(jì)算戰(zhàn)略坐標(biāo) |
|
來(lái)自: 你好_順其自然 > 《知識(shí)圖譜》