天天看點

120行代碼爬取電子書網站

無聊的練習。。。貌似網站真的有毒,我的電腦多了一個廣告。。。fuck

換做好幾年前我們看電子書都是在網上下載下傳txt檔案的書籍,現在各種APP閱讀軟體實在友善太多。

那麼txt的檔案就沒用了嗎?不呀,可以下載下傳放kindle閱讀呀!

部分網站不提供整本書籍下載下傳,想想也是麻煩哎!既然不提供,那麼,自己動手,風衣足食呀!

通過此方法擷取整個網頁内容,這樣我們才可以做下面的頁面解析

可以發現所有章節都在div id=”box1” class=”book_detail” 一共有兩個這樣的div标簽,而我們所需要的資訊是需要第二個,因為第二個包含了第一個的所有内容

120行代碼爬取電子書網站

代碼如下

首先順便打開一本書,比如《三體》 用chrome浏覽器右鍵檢查檢視資訊

可以看出章節标題在 h1第1章 科學邊界(1) p标簽裡面就是每章節的内容隻要取出div id=”content”中所有的p标簽裡面的内容即可!

120行代碼爬取電子書網站

這樣後面寫入檔案就可以根據書籍名來建立檔案夾了

擷取了網頁上所有我們所需的内容,接下來就是寫入檔案

一兩分鐘就搞定了一本電子書,是不是很過瘾?想想如果是手動ctrl+c ctrl+v估計會想死吧…

提示,換一本書的連結也可以下載下傳哦,哈哈哈 不放過此網站上的任何一本書籍!

繼續閱讀