乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      文本挖掘找出50年間最流行的音樂(lè)

       平淡水的平凡 2017-08-09


      1958年開(kāi)始每年十二月Billboard都會(huì)發(fā)布一個(gè)年度百首流行曲金榜。這個(gè)圖表涵蓋了美國(guó)全年的流行單曲表現(xiàn)。


      通過(guò)R語(yǔ)言,我已經(jīng)把50年的(1965-2015) 年度流行金榜百首的歌詞合并到一個(gè)數(shù)據(jù)集進(jìn)行分析。你可以在我的Github庫(kù)中下載該數(shù)據(jù)集。


      獲取歌詞


      用于分析的歌曲是來(lái)自于對(duì)維基百科中每個(gè)Billboard年度流行金榜百首(如2014年)的抓取。這是整個(gè)年度的圖表,而不是每周的排名。許多藝術(shù)家做過(guò)周圖表,但沒(méi)有做過(guò)年度圖表。年度圖表是通過(guò)周Billboard的逆點(diǎn)系統(tǒng)來(lái)進(jìn)行計(jì)算的。


      我使用XMLRCurl從每個(gè)維基百科詞條中抓取歌曲和藝術(shù)家的名字。然后我用這個(gè)列表從有可預(yù)見(jiàn)的URL字符串的網(wǎng)站上抓取歌詞(例如,metrolyrics.com就使用metrolyrics.com/SONG-NAME-lyrics-ARTIST-NAME.html)。如果第一個(gè)站點(diǎn)抓取失敗了,就轉(zhuǎn)向第二個(gè),依此類(lèi)推。大約78.9%的歌詞是從metrolyics.com上抓取的,15.7%是從songlyrics.com上,1.8%是從lyricsmode.com上。另外大約3.6%(187/5100)沒(méi)有找到。


      該數(shù)據(jù)集對(duì)5100個(gè)觀測(cè)對(duì)象根據(jù)歌曲、藝術(shù)家、年份、歌詞和來(lái)源進(jìn)行了1-100的特征等級(jí)劃分。歸功于維基百科藝術(shù)家特征是相當(dāng)標(biāo)準(zhǔn)化的,但當(dāng)涉及到與藝術(shù)家的合作時(shí)就存在一些問(wèn)題。如果在抓取的歌詞中存在錯(cuò)誤,如拼寫(xiě)錯(cuò)誤或另外的像把“night”寫(xiě)成了“nite”,這些并沒(méi)有得到糾正。


      管理數(shù)據(jù)


      最常見(jiàn)的歌詞


      58%一單首現(xiàn)象


      出現(xiàn)在年度圖表上的1989名中的1154名藝術(shù)家(約占58%)都僅僅只有一首知名曲目。右邊的數(shù)據(jù)是通過(guò)把藝術(shù)家的歌曲進(jìn)行匯總而計(jì)算出來(lái)的;另外把“精選”藝術(shù)家都單獨(dú)列出來(lái)。這意味著只有位列第一的藝術(shù)家才能得到對(duì)其歌曲的完全信任。


      Songs

      1

      2

      3

      4

      5

      6

      7

      8

      9

      10

      Artists

      1154

      319

      160

      90

      70

      61

      31

      23

      13

      18




      馬拉松vs沖刺生涯


      我們驚訝地發(fā)現(xiàn)一些位居表格頂端的藝術(shù)家反而有相對(duì)較短的職業(yè)生涯(Rihanna10年時(shí)間內(nèi)有28個(gè)入表的歌曲),所以我觀察了一下歌手職業(yè)生涯的長(zhǎng)度和入榜歌曲的平均數(shù)量之間的關(guān)系,并發(fā)現(xiàn)這兩者之間是呈負(fù)相關(guān)的。職業(yè)生涯跨度每增加一年,每年歌曲入榜平均數(shù)量就會(huì)減少94%。


      *數(shù)據(jù)集不包括1964年披頭士樂(lè)隊(duì)第一年入選年度榜單,所以實(shí)際上他們的職業(yè)生涯跨度是12年。



      隨時(shí)間增長(zhǎng)歌詞的變化


      詞匯和曲長(zhǎng)不斷增長(zhǎng)


      數(shù)據(jù)集中的歌曲平均總長(zhǎng)332個(gè)單詞,114種詞匯。平均字?jǐn)?shù)(包括種類(lèi)和數(shù)量)隨著時(shí)間的推移不斷增加。字?jǐn)?shù)的變化量也有所增加,可能是由于隨著時(shí)間的推移進(jìn)入榜單排名的歌曲體裁更加多樣。可變方差通過(guò)字?jǐn)?shù)統(tǒng)計(jì)的轉(zhuǎn)換日志進(jìn)行校正,并和兩個(gè)線性模型擬合,最后產(chǎn)生總系數(shù)0.01873和單詞種類(lèi)系數(shù)0.0136。在每年的增加量上,總字?jǐn)?shù)平均每年增加1.87%,字?jǐn)?shù)種類(lèi)增加1.36%。



      這個(gè)增長(zhǎng)可能是由于較長(zhǎng)的歌曲——自從20世紀(jì)60年代以來(lái)歌曲逐漸從2.5分鐘增長(zhǎng)至4分鐘,這時(shí)期快節(jié)奏的音樂(lè)風(fēng)格和歌曲特征盛行,超過(guò)了對(duì)某個(gè)藝術(shù)家的關(guān)注。



      BoogieBitch:十年間最具特色的歌詞


      利用我先前的職位(Text Mining South Park)中列出的對(duì)數(shù)似然統(tǒng)計(jì),我能夠識(shí)別在特定十年內(nèi)最有特色的歌詞。總之,在有較高的對(duì)數(shù)似然語(yǔ)料庫(kù)中,單詞會(huì)比預(yù)期出現(xiàn)的頻率更高。 25個(gè)最有力的結(jié)果(總數(shù)>81; P <>下顯著度10.83)。


      很明顯,個(gè)別歌曲是在反復(fù)重復(fù)從而影響了結(jié)果。這反而引起了對(duì)數(shù)似然在歌詞上的適用性方面的一個(gè)很好的議題——一首高度重復(fù)的歌曲會(huì)扭轉(zhuǎn)這個(gè)結(jié)果嗎?



      注意事項(xiàng)


      廣告牌年終熱門(mén)100首排行榜政策的變化


      流行歌曲內(nèi)容的一般變化至少可以部分歸因于隨著時(shí)間的推移百?gòu)?qiáng)排名方法的演變。廣告牌通過(guò)發(fā)現(xiàn)和購(gòu)買(mǎi)音樂(lè)的方法改變其排名政策以保持其時(shí)代相關(guān)性。


      1958年至1991年:由單曲銷(xiāo)量和AirPlay的比例確定排名

      1991年:廣告牌開(kāi)始收集數(shù)字銷(xiāo)售數(shù)據(jù)(使用SoundScan的),以便更快更準(zhǔn)確的制作圖表

      1998年:廣告牌要求歌曲必須作為單曲發(fā)行才能出現(xiàn)在圖表上

      2005:包括數(shù)字下載(如iTunes

      2012:流媒體點(diǎn)播服務(wù)(Spotify,狂想曲)收錄

      2013:包括視頻形式(YouTube


      現(xiàn)在的消費(fèi)者比以往在單曲榜中更多的發(fā)言權(quán)。在此之前的2005年,消費(fèi)者可以通過(guò)購(gòu)買(mǎi)單曲或在電臺(tái)上點(diǎn)歌來(lái)影響圖表排名?,F(xiàn)在,消費(fèi)者可以通過(guò)觀看視頻、下載單曲或購(gòu)買(mǎi)物理拷貝版本來(lái)對(duì)歌曲的流行度做出影響。


      來(lái)源:數(shù)盟

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類(lèi)似文章 更多