天天看點

關聯規則APRIORI挖掘豆瓣讀書評論爬蟲采集資料與可視化

豆瓣讀書是豆瓣網的一個子版塊。 本文資料來源于豆瓣讀書網站,分析内容将基于豆瓣讀書的圖書評分和評論資訊。 主題将緊緊圍繞以下幾點:有哪些書籍值得推薦?一般書籍的價格是多少?一本書的評分和評論數量之間是否存在某種關系?

熱門書籍分布

截至爬取之日,熱門書評數量實時增長,分别是:

①:評分>=8.0且評論超過10w+的書籍; ②:隻有評論超過10w+的書; ③:按書評數量排名TOP8;

關聯規則APRIORI挖掘豆瓣讀書評論爬蟲采集資料與可視化

經過對比,我發現一些值得一讀再讀的名著總是在清單中,而且清單中的大部分書籍都是開卷即有益的好書。 降低标準後,也出現了一些有益的書籍(《平凡的世界》之類的)。

由此可以得出結論,資料分析算法應該是綜合多種資料得到的權重模型,是以評論量大或者評分高的書不一定值得一讀,綜合考慮得到的結果可以 被認為是公平的。比如郭敬明的《夢裡花落知多少》,路遙的《平凡的世界》。

書籍的價格一般都是在什麼範圍?

對于讀書愛好者來說,這是一個比較關心的問題。

關聯規則APRIORI挖掘豆瓣讀書評論爬蟲采集資料與可視化

從上圖我們可以發現,大部分書籍的價格在20-40之間,其他價格區間的書籍相對較少。 計算機專業書籍的價格在60-90之間,低于10元價格範圍的書籍部分是電子書。 我們驚訝地發現有很多書的價格超過100元!

可以發現,這些百元以上的書籍,大部分都是史料書籍。 價格高的原因之一是這些書一般分為很多卷,研究意義重大,耗費大量人力。

熱門書籍評價名額Apriori關聯規則分析

接下來,我們研究3個關鍵評價名額:評分、評分數量和評論數量之間的關系。Apriori是常用的關聯規則挖掘方法之一,可以找出3個評價名額之間的隐藏關聯。

關聯規則APRIORI挖掘豆瓣讀書評論爬蟲采集資料與可視化

使用平行多元圖來觀察流行書籍評分、評分數量和評論數量的流行關聯規則。 我們發現大部分書籍的評分在8.0-8.9之間,評分數量在20萬-70萬之間。

評論最多的書有追風筝人、解憂的雜貨店、白夜行等,評分在8.1以上。 基本上,具有更多評論的作品具有更高的評分。 但是,有些超高分(9分以上)的作品,評論數量卻沒有想象中的多!

本文章中的所有資訊(包括但不限于分析、預測、建議、資料、圖表等内容)僅供參考,拓端資料(tecdat)不因文章的全部或部分内容産生的或因本文章而引緻的任何損失承擔任何責任。