乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      5萬余首圣誕歌詞數(shù)據(jù)包 Kaggle數(shù)據(jù)科學(xué)家的腦洞=?(附數(shù)據(jù)包 代碼)

       萬皇之皇 2018-01-08

      作者:eoda GmbH



      前幾天,文摘菌發(fā)現(xiàn)了一個Kaggle上的圣誕歌曲數(shù)據(jù)禮包。這里有你能想到所有的圣誕歌曲,總計超過5萬首。而Kaggle上的數(shù)據(jù)科學(xué)家用各種方式要把它們玩兒壞了,一起看看有哪些有趣的結(jié)論!


      又是圣誕節(jié),有沒有被大街小巷的圣誕歌曲洗耳朵?有沒有想過這些圣誕歌曲到底有什么魔力?他們的歌詞又有什么共同點?


      我們把所有跟圣誕有關(guān)的歌曲都打包起來,總計超過5萬首歌曲。在這篇文章里,文摘菌將首先用樸素貝葉斯對這些歌曲文本進(jìn)行全面分析,來快速識別出,到底什么樣的歌曲才能被成為真正意義上的圣誕歌曲。


      之后,我們還可以一起看看,kaggle上的數(shù)據(jù)科學(xué)家用這個數(shù)據(jù)包分析出了的這些有趣的結(jié)論:

      • 與圣誕關(guān)系最密切的歌詞TOP20;

      • 圣誕歌產(chǎn)量最高的歌手TOP20;

      • 圣誕歌詞中,什么樣的雙音節(jié)詞最受歡迎?




      這個數(shù)據(jù)集取自55000多段歌詞,同時涵蓋了超過55000首歌曲。你能想到的全都有,包括Jinglebell :)如下:這是一個有55000多行和4列的數(shù)據(jù)框:


      • 藝術(shù)家

      • 歌曲

      • 鏈接

      • 文本



      我們的目標(biāo)是對歌曲文本進(jìn)行全面分析,幫助我們快速識別出圣誕歌曲。為此,我們首先在數(shù)據(jù)框中添加一個額外的列,給每首歌曲一個“圣誕”或“非圣誕”的標(biāo)簽,也就是歌詞中包含“Christmas”,“Xmas”或“X-mas”的歌曲將被標(biāo)記為“圣誕”,不包含的則標(biāo)成“非圣誕”。



      這還只是標(biāo)簽的初始化,我們之后會將樸素貝葉斯應(yīng)用于一組訓(xùn)練集以識別其他圣誕歌曲。但現(xiàn)在,我們將通過一些直觀的描述性方法來探索數(shù)據(jù)集??纯磿玫揭恍┦裁从腥さ慕Y(jié)果。



      探索初始的圣誕歌曲


      清理 & 標(biāo)記化


      首先我們從數(shù)據(jù)清理和標(biāo)記化開始~隨后,圣誕歌曲將被選中并被保存為一個變量。



      相關(guān)性分析


      現(xiàn)在我們可以從不同的角度由相關(guān)性來分析原始的圣誕歌曲。接下來,我們運用networkD3 html widget將相關(guān)性可視化:具有相同總連接數(shù)的節(jié)點將被賦予相同的顏色,而邊的顏色意味著由兩個節(jié)點共享的公共鄰居的數(shù)量。而且,一個節(jié)點的大小表明它的中心性,中心性由中間性(即通過它的最短路徑的數(shù)量)定義。在兩個節(jié)點之間的距離是1的最小最大變換減去相關(guān)度,這是有意義的,因為直觀來說,相關(guān)性越高,兩個節(jié)點應(yīng)該越近。而且,距離越短,邊緣越寬。

      請注意,相關(guān)性永遠(yuǎn)要基于歌詞才行。


      單詞之間的相關(guān)性


      出現(xiàn)超過100次的單詞與至少另一個相關(guān)度大于0.55的單詞相關(guān)。



      歌曲之間的相關(guān)性


      一首歌曲與其他至少3首相關(guān)的歌曲之間的相關(guān)性大于0.75-通過這個方法,我們可以檢測到類似或被略微修改的歌曲。



      特定的詞之間的相關(guān)性



      藝術(shù)家之間的相關(guān)性



      詞云

      原始圣誕歌曲的詞云



      樸素貝葉斯


      樸素貝葉斯是一種流行的監(jiān)督機器學(xué)習(xí)算法,它能處理具有大量特征的分類問題。它是基于一個類,這個類的特征是被假定獨立分布的,所以從這種意義上說,它是“樸素”的。在我們的例子中,我們想知道,給定一組特征之后,即文檔中單詞的tf-idf,一首歌曲是否應(yīng)該被樸素貝葉斯分類為圣誕歌曲。



      構(gòu)造最大似然估計的難點是先驗分布的選擇,即類的概率分布。通常假定它是按類頻率均勻分布或估計的。在我們的例子中,我們使用了先驗分布的多項式分布和均勻分布,這意味著我們在沒有進(jìn)一步信息的情況下對歌曲的分類是沒有偏見。


      識別隱藏的圣誕歌曲



      我們識別出2965首隱藏的圣誕歌曲,在最初的500首圣誕歌曲中,有2首歌曲被樸素貝葉斯拒絕認(rèn)定為圣誕歌曲。


      探索隱藏的圣誕歌曲



      因此我們已經(jīng)成功地識別出一些宗教圣誕歌曲,它們的標(biāo)題通常不包含“Christmas”或“X-mas”單詞。


      潛在狄利克雷分布&t統(tǒng)計隨機鄰域嵌入


      數(shù)據(jù)準(zhǔn)備


      只有包括隱藏在內(nèi)的圣誕歌曲的前300項特征,將被用來計算Rtsne和LDA,否則存儲空間會不足。



      LDA


      LDA是潛在狄利克雷分布,2003年在Blei, Ng, Jordan的論文中被提出。這是一個生成語料庫的概率模型,其中的文檔被表示為關(guān)于潛在主題的隨機混合物,一個單獨的文檔通常只有幾個主題,被分配了不可忽視的概率。此外,每個主題的特點是單詞的分布,通常只有一小部分詞被大概率分配給某個主題。變分期望最大化算法或吉布斯抽樣用于參數(shù)的統(tǒng)計推斷。

       

      LDA需要固定數(shù)量的主題,也就是說,在應(yīng)用該算法之前,應(yīng)該先知道主題的數(shù)目。然而,有可能通過不同的性能度量來確定主題的最佳數(shù)量,比如Nikita,用ldatuning包。


       

      因此,我們將選擇8作為主題的最佳數(shù)量。



      我們可以使用tidytext包 來檢查每個文檔的主題分布,即對于每個文檔,它屬于從1到8某個主題的概率的總和等于1。

       


      同樣,我們也可以獲得每個主題詞的概率分布,即每個主題產(chǎn)生不同的單詞的概率總和等于1。



      每個主題的關(guān)鍵詞是:



      t-SNE


      由van der Maaten和Hinton于2008年開發(fā),t-SNE代表統(tǒng)計隨機鄰域嵌入,這是一種降維技術(shù),用公式表示出捕獲的原始數(shù)據(jù)點的局部聚類結(jié)構(gòu)。它是非線性的和不確定性的。


      下面的計算大約需要30分鐘。



      如果我們重復(fù)以上過程在不只一次迭代上呢?


      到目前為止,我們只運行了一次迭代的樸素貝葉斯。然而,我們可以為多個迭代重復(fù)這個過程,即訓(xùn)練一個樸素貝葉斯分類器并重新標(biāo)記所有的假陽性為隱藏圣誕/圣誕,所有的假陰性為隱藏非圣誕/非圣誕,一遍遍重復(fù)進(jìn)行。


      首先,我們再次準(zhǔn)備數(shù)據(jù)以避免錯誤。


      運行10次迭代。



      然后,精度和f1得分開始時單調(diào)增長,然后收斂到大約0.95的值,這意味著沒有遺留很多待檢測的“隱藏圣誕歌曲”和“隱藏非圣誕歌曲”。然而,在這個過程中,我們始終相信樸素貝葉斯分類器是100%準(zhǔn)確的,這實際上幾乎是不可能的。因此,在每一次迭代中,有一些歌曲被樸素貝葉斯錯誤地分類為“圣誕節(jié)”,在訓(xùn)練集的下一個迭代中用于訓(xùn)練樸素貝葉斯分類器。有了這個不斷累積的錯誤,我們可能會擔(dān)心,隨著迭代次數(shù)的增加,結(jié)果實際上會更糟。



      最后,我們大約有一半的歌曲被歸類為“圣誕節(jié)”,而另一半為“不是圣誕節(jié)”,這似乎是非常不可信的。這倒是引出了一個問題:是否存在一個最佳的迭代次數(shù)?我們不能簡單地手動控制這57650首歌是否被正確分類。所以這仍然是一個有待回答的開放式問題!


      還有哪些有趣的結(jié)論


      之后,我們用這些數(shù)據(jù),還分析出了以下這些有趣的結(jié)論,基于篇幅的原因,我們直接貼出kaggle上的一些有趣結(jié)論,不再在微信推文中po出實現(xiàn)代碼,想親手嘗試的同學(xué),請拉到文末查看kaggle上的代碼和數(shù)據(jù)傳送門~


      與圣誕關(guān)系最密切的歌詞TOP20



      歌詞正負(fù)情感詞云圖


      圣誕歌產(chǎn)量最高的歌手TOP20




      積極(positive)歌詞占比最多的歌手TOP20



      圣誕歌詞中,什么樣的雙音節(jié)詞最受歡迎?



        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多