天天看點

拓端tecdat|關聯規則APRIORI挖掘豆瓣讀書評論爬蟲采集資料與可視化

 本文資料采集于豆瓣讀書網站,分析内容将基于豆瓣讀書的圖書評分和評論資訊。 主題将緊緊圍繞以下幾點:有哪些書籍值得推薦?一般書籍的價格是多少?一本書的評分和評論數量之間是否存在某種關系?

視訊:R語言關聯規則模型(Apriori算法)挖掘雜貨店的交易資料與互動可視化

關聯規則模型、​​Apriori算法​​及R語言挖掘雜貨店交易資料與互動可視化

,時長07:03

熱門書籍分布

截至爬取之日,熱門書評數量實時增長,分别是:

①:評分>=8.0且評論超過10w+的書籍; ②:隻有評論超過10w+的書; ③:按書評數量排名TOP8;

拓端tecdat|關聯規則APRIORI挖掘豆瓣讀書評論爬蟲采集資料與可視化

經過對比,我發現一些值得一讀再讀的名著總是在清單中,而且清單中的大部分書籍都是開卷即有益的好書。 降低标準後,也出現了一些有益的書籍(《平凡的世界》之類的)。

由此可以得出結論,資料分析算法應該是綜合多種資料得到的權重模型,是以評論量大或者評分高的書不一定值得一讀,綜合考慮得到的結果可以 被認為是公平的。比如郭敬明的《夢裡花落知多少》,路遙的《平凡的世界》。

書籍的價格一般都是在什麼範圍?

對于讀書愛好者來說,這是一個比較關心的問題。

拓端tecdat|關聯規則APRIORI挖掘豆瓣讀書評論爬蟲采集資料與可視化

從上圖我們可以發現,大部分書籍的價格在20-40之間,其他價格區間的書籍相對較少。 計算機專業書籍的價格在60-90之間,低于10元價格範圍的書籍部分是電子書。 我們驚訝地發現有很多書的價格超過100元!

可以發現,這些百元以上的書籍,大部分都是史料書籍。 價格高的原因之一是這些書一般分為很多卷,研究意義重大,耗費大量人力。

熱門書籍評價名額Apriori關聯規則分析

接下來,我們研究3個關鍵評價名額:評分、評分數量和評論數量之間的關系。Apriori是常用的關聯規則挖掘方法之一,可以找出3個評價名額之間的隐藏關聯。

拓端tecdat|關聯規則APRIORI挖掘豆瓣讀書評論爬蟲采集資料與可視化

使用平行多元圖來觀察流行書籍評分、評分數量和評論數量的流行關聯規則。 我們發現大部分書籍的評分在8.0-8.9之間,評分數量在20萬-70萬之間。