天天看點

Python網絡爬蟲之爬取糗事百科案例

項目說明

使用Python寫網絡爬蟲之糗事百科示例

使用工具

Python2.7.X、pycharm

使用方法

在pycharm中建立一個ceshi.py檔案,撰寫代碼,運作代碼,檢視運作結果

操作原理

1.首先先了解正規表達式的使用方法,見:

正規表達式

2.找到糗事百科的首頁URL:

http://www.qiushibaike.com/hot/page/1

可以看出來,連結中page/後面的數字就是對應的頁碼,記住這一點為編寫程式做準備。

然後,右擊檢視頁面源碼:

Python網絡爬蟲之爬取糗事百科案例

網頁源碼分析-圖1

Python網絡爬蟲之爬取糗事百科案例

網頁源碼分析-圖2

觀察發現,每一個段子都用div标記,其中class必為content,我們隻需要用正規表達式将其“扣”出來就可以了。

示例代碼
Python網絡爬蟲之爬取糗事百科案例

代碼示例1

Python網絡爬蟲之爬取糗事百科案例

代碼示例2

運作結果
Python網絡爬蟲之爬取糗事百科案例

參考來源:http://blog.csdn.net/pleasecallmewhy/article/details/8932310