由于面試的需要,昨天看了下爬蟲,python的,原先一直以為很高端,但是才發現大體思路很清晰。。。
1。連接配接到要抓取的某網 ,注意import urllib,比如這個樣子
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
這樣基本就能把這個網頁搞下來了,但是不是所有網站這麼搞都能搞下來,是以有的網站需要再寫一個頭檔案的東西,(看到一句話這麼說:頭檔案(這種工具很多浏覽器是自帶的),我用的是firefox的firebug插件。)還不知道啥意思,嗯 以後要看下。
2。然後,當然我不是要這個網頁裡的所有東西,是以要正則比對(import re),還有可以用beautifulsoup這個玩藝(也還沒開始研究。。。)
def getImg(html):
reg = r'(<td)(.*)(</td>)'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
return imglist
比如上面這個就是抓取網頁中所有<td>标簽下的内容,正則比對是個要熟能生巧的東西,要慢慢練 大概解釋一下 r‘() 意思是python裡消除我也不知道是什麼的東西,反正加了後正規表達式可以比較正常的用了,然後(.*)是代表任何東西,目前還有個小問題是:怎麼就保留标簽内的東東。
正規表達式要再好好看看!https://developers.google.com/edu/python/?hl=zh-CN&csw=1 一個淡疼得網址。。反正百度上也有很多博文,往後幾天多找找感覺
3。再然後,就是把東東存起來了,兩種:存到檔案(我覺得應該很容易。。肯定明白思路);存到資料庫(沒接觸過,要看。。。)
感覺這是篇廢話~嗯 期待不久的将來研究出來點心得。。還要做畢設!ohno