使用Python寫網絡爬蟲之糗事百科示例
使用工具Python2.7.X、pycharm
使用方法在pycharm中建立一個ceshi.py檔案,撰寫代碼,運作代碼,檢視運作結果
操作原理1.首先先了解正規表達式的使用方法,見:
正規表達式2.找到糗事百科的首頁URL:
http://www.qiushibaike.com/hot/page/1可以看出來,連結中page/後面的數字就是對應的頁碼,記住這一點為編寫程式做準備。
然後,右擊檢視頁面源碼:

網頁源碼分析-圖1
網頁源碼分析-圖2
觀察發現,每一個段子都用div标記,其中class必為content,我們隻需要用正規表達式将其“扣”出來就可以了。
示例代碼代碼示例1
代碼示例2
運作結果參考來源:http://blog.csdn.net/pleasecallmewhy/article/details/8932310