拓端tecdat|關聯規則APRIORI挖掘豆瓣讀書評論爬蟲采集資料與可視化

2022-11-07 11:33:02

本文資料采集于豆瓣讀書網站，分析内容将基于豆瓣讀書的圖書評分和評論資訊。主題将緊緊圍繞以下幾點：有哪些書籍值得推薦？一般書籍的價格是多少？一本書的評分和評論數量之間是否存在某種關系？

視訊：R語言關聯規則模型(Apriori算法)挖掘雜貨店的交易資料與互動可視化

關聯規則模型、Apriori算法及R語言挖掘雜貨店交易資料與互動可視化

，時長07:03

截至爬取之日，熱門書評數量實時增長，分别是：

①：評分>=8.0且評論超過10w+的書籍； ②：隻有評論超過10w+的書； ③：按書評數量排名TOP8；

經過對比，我發現一些值得一讀再讀的名著總是在清單中，而且清單中的大部分書籍都是開卷即有益的好書。降低标準後，也出現了一些有益的書籍（《平凡的世界》之類的）。

由此可以得出結論，資料分析算法應該是綜合多種資料得到的權重模型，是以評論量大或者評分高的書不一定值得一讀，綜合考慮得到的結果可以被認為是公平的。比如郭敬明的《夢裡花落知多少》，路遙的《平凡的世界》。

對于讀書愛好者來說，這是一個比較關心的問題。

從上圖我們可以發現，大部分書籍的價格在20-40之間，其他價格區間的書籍相對較少。計算機專業書籍的價格在60-90之間，低于10元價格範圍的書籍部分是電子書。我們驚訝地發現有很多書的價格超過100元！

可以發現，這些百元以上的書籍，大部分都是史料書籍。價格高的原因之一是這些書一般分為很多卷，研究意義重大，耗費大量人力。