原文鏈接:http:///?p=26341豆瓣讀書是豆瓣網(wǎng)的一個子版塊。本文數(shù)據(jù)來源于豆瓣讀書網(wǎng)站(查看文末了解數(shù)據(jù)獲取方式),分析內容將基于豆瓣讀書的圖書評分和評論信息。主題將緊緊圍繞以下幾點:有哪些書籍值得推薦?一般書籍的價格是多少?一本書的評分和評論數(shù)量之間是否存在某種關系? 熱門書籍分布截至爬取之日,熱門書評數(shù)量實時增長,分別是: ①:評分>=8.0且評論超過10w+的書籍;②:只有評論超過10w+的書;③:按書評數(shù)量排名TOP8; 經(jīng)過對比,我發(fā)現(xiàn)一些值得一讀再讀的名著總是在列表中,而且列表中的大部分書籍都是開卷即有益的好書。降低標準后,也出現(xiàn)了一些有益的書籍(《平凡的世界》之類的)。 點擊標題查閱往期內容 ![]() 左右滑動查看更多 由此可以得出結論,數(shù)據(jù)分析算法應該是綜合多種數(shù)據(jù)得到的權重模型,所以評論量大或者評分高的書不一定值得一讀,綜合考慮得到的結果可以 被認為是公平的。比如郭敬明的《夢里花落知多少》,路遙的《平凡的世界》。 書籍的價格一般都是在什么范圍?對于讀書愛好者來說,這是一個比較關心的問題。 從上圖我們可以發(fā)現(xiàn),大部分書籍的價格在20-40之間,其他價格區(qū)間的書籍相對較少。計算機專業(yè)書籍的價格在60-90之間,低于10元價格范圍的書籍部分是電子書。我們驚訝地發(fā)現(xiàn)有很多書的價格超過100元! 可以發(fā)現(xiàn),這些百元以上的書籍,大部分都是史料書籍。價格高的原因之一是這些書一般分為很多卷,研究意義重大,耗費大量人力。 熱門書籍評價指標Apriori關聯(lián)規(guī)則分析接下來,我們研究3個關鍵評價指標:評分、評分數(shù)量和評論數(shù)量之間的關系。Apriori是常用的關聯(lián)規(guī)則挖掘方法之一,可以找出3個評價指標之間的隱藏關聯(lián)。 使用平行多維圖來觀察流行書籍評分、評分數(shù)量和評論數(shù)量的流行關聯(lián)規(guī)則。我們發(fā)現(xiàn)大部分書籍的評分在8.0-8.9之間,評分數(shù)量在20萬-70萬之間。 評論最多的書有追風箏人、解憂的雜貨店、白夜行等,評分在8.1以上。基本上,具有更多評論的作品具有更高的評分。但是,有些超高分(9分以上)的作品,評論數(shù)量卻沒有想象中的多! 本文章中的所有信息(包括但不限于分析、預測、建議、數(shù)據(jù)、圖表等內容)僅供參考,__拓端數(shù)據(jù)(__tecdat__)__不因文章的全部或部分內容產(chǎn)生的或因本文章而引致的任何損失承擔任何責任。 數(shù)據(jù)獲取 |
|
來自: 拓端數(shù)據(jù) > 《待分類》