天天看點

Python爬蟲系列(一)初期學習爬蟲的拾遺與總結

一、環境搭建和工具準備

1、為了省去時間投入學習,推薦直接安裝內建環境 anaconda 2、ide:pycharm、pydev 3、工具:jupyter notebook(安裝完anaconda會有的)

二、python基礎視訊教程

1、瘋狂的python:快速入門精講(python2.x,可體驗到與python3.x的差異) 2、零基礎入門學習python 看完這些課程,自己對python有一個感覺和掌握,可以繼續看一些進階教程 3、python3大全(pasword:bf3e)

三、python爬蟲視訊教程

1、python網絡爬蟲實戰 2、python3爬蟲三大案例實戰分享

四、python爬蟲的相關連接配接

1、python爬蟲的最佳實踐 2、python網絡爬蟲實戰項目代碼大全 3、零基礎制作一個python 爬蟲 4、python爬蟲入門 5、python3 7、抓取鬥魚tv的房間資訊 如果你想學習python可以來這個群,首先是四七二,中間是三零九,最後是二六一,裡面有大量的學習資料可以下載下傳。 五、正規表達式和beautifulsoup、phatomjs +selenium的使用
1、python爬蟲小白入門 2、輕松自動化---selenium-webdriver(python) 3、 python 正規表達式 re 子產品簡明筆記 4、【python 筆記】selenium 簡介 5、selenium webdriver定位頁面元素的幾種方式 6、 python爬蟲利器selenium+phantomjs系列入門 7、python爬蟲入門(7):正規表達式

六、自己爬取新浪新聞相關資訊的實戰

Python爬蟲系列(一)初期學習爬蟲的拾遺與總結

爬取頁面

我直接把源碼貼在這裡了,是參考python網絡爬蟲實戰課程做下來的

新聞評論數抽取函數

import re import json import requests #js抓取新聞評論資訊 commenturl='http://comment5.news.sina.com.cn/page/info?version=1&format=js&\ channel=gn&newsid=comos-{}&\ group=&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=20&jsvar=loader_1491395188566_53913700' def getcommentcounts(newsurl): #擷取新聞id m=re.search('doc-i(.+).shtml',newsurl) newsid=m.group(1) #根據新聞id擷取評論資訊 comments=requests.get(commenturl.format(newsid)) #将資訊解析為json格式 jd=json.loads(comments.text.strip('var loader_1491395188566_53913 700=')) return jd['result']['count']['total']
Python爬蟲系列(一)初期學習爬蟲的拾遺與總結

新聞内文資訊抽取函數

from datetime import datetime from bs4 import beautifulsoup def getnewsdetail(newsurl): result={} res=requests.get(newsurl) res.encoding='utf-8' soup=beautifulsoup(res.text,'html.parser') result['title']=soup.select('#artibodytitle') timesource=soup.select('.time-source')[0].contents[0].strip() result['dt']=datetime.strptime(timesource,'%y年%m月%d日%h:%m') result['source']=soup.select('.time-source span a')[0].text result['article']=' '.join([p.text.strip() for p in soup.select('#artibody p')[:-1]]) result['editor']=soup.select('.article-editor')[0].text.lstrip('責任編輯:') return result
Python爬蟲系列(一)初期學習爬蟲的拾遺與總結

七、感想

這些天學習下來,python爬蟲思路和套路很明确,主要是我們要對不同網站(反爬等)設計不同爬取路線和方法,但是還是要求自己總結方法和積累知識吧,還有一點自己也希望能把爬蟲運用到實際生活或者應用中(如果單純的抽取一個網頁資訊其實沒多大意思),比如嘗試應用到批量下載下傳一個網站的圖檔或者檔案等等,讓爬蟲為我們服務。