120行代碼爬取電子書網站

2017-10-19 23:50:00

無聊的練習。。。貌似網站真的有毒，我的電腦多了一個廣告。。。fuck

換做好幾年前我們看電子書都是在網上下載下傳txt檔案的書籍，現在各種APP閱讀軟體實在友善太多。

那麼txt的檔案就沒用了嗎？不呀，可以下載下傳放kindle閱讀呀！

部分網站不提供整本書籍下載下傳，想想也是麻煩哎！既然不提供，那麼，自己動手，風衣足食呀！

通過此方法擷取整個網頁内容，這樣我們才可以做下面的頁面解析

可以發現所有章節都在div id=”box1” class=”book_detail” 一共有兩個這樣的div标簽，而我們所需要的資訊是需要第二個，因為第二個包含了第一個的所有内容

代碼如下

首先順便打開一本書，比如《三體》用chrome浏覽器右鍵檢查檢視資訊

可以看出章節标題在 h1第1章科學邊界(1) p标簽裡面就是每章節的内容隻要取出div id=”content”中所有的p标簽裡面的内容即可！

這樣後面寫入檔案就可以根據書籍名來建立檔案夾了

擷取了網頁上所有我們所需的内容，接下來就是寫入檔案

一兩分鐘就搞定了一本電子書，是不是很過瘾？想想如果是手動ctrl+c ctrl+v估計會想死吧…

提示，換一本書的連結也可以下載下傳哦，哈哈哈不放過此網站上的任何一本書籍！

繼續閱讀