本文資料采集于豆瓣讀書網站,分析内容将基于豆瓣讀書的圖書評分和評論資訊。 主題将緊緊圍繞以下幾點:有哪些書籍值得推薦?一般書籍的價格是多少?一本書的評分和評論數量之間是否存在某種關系?
視訊:R語言關聯規則模型(Apriori算法)挖掘雜貨店的交易資料與互動可視化
關聯規則模型、Apriori算法及R語言挖掘雜貨店交易資料與互動可視化
,時長07:03
熱門書籍分布
截至爬取之日,熱門書評數量實時增長,分别是:
①:評分>=8.0且評論超過10w+的書籍; ②:隻有評論超過10w+的書; ③:按書評數量排名TOP8;
經過對比,我發現一些值得一讀再讀的名著總是在清單中,而且清單中的大部分書籍都是開卷即有益的好書。 降低标準後,也出現了一些有益的書籍(《平凡的世界》之類的)。
由此可以得出結論,資料分析算法應該是綜合多種資料得到的權重模型,是以評論量大或者評分高的書不一定值得一讀,綜合考慮得到的結果可以 被認為是公平的。比如郭敬明的《夢裡花落知多少》,路遙的《平凡的世界》。
書籍的價格一般都是在什麼範圍?
對于讀書愛好者來說,這是一個比較關心的問題。
從上圖我們可以發現,大部分書籍的價格在20-40之間,其他價格區間的書籍相對較少。 計算機專業書籍的價格在60-90之間,低于10元價格範圍的書籍部分是電子書。 我們驚訝地發現有很多書的價格超過100元!
可以發現,這些百元以上的書籍,大部分都是史料書籍。 價格高的原因之一是這些書一般分為很多卷,研究意義重大,耗費大量人力。
熱門書籍評價名額Apriori關聯規則分析
接下來,我們研究3個關鍵評價名額:評分、評分數量和評論數量之間的關系。Apriori是常用的關聯規則挖掘方法之一,可以找出3個評價名額之間的隐藏關聯。
使用平行多元圖來觀察流行書籍評分、評分數量和評論數量的流行關聯規則。 我們發現大部分書籍的評分在8.0-8.9之間,評分數量在20萬-70萬之間。