爬蟲第一次

2023-07-02 00:28:19

由于面試的需要，昨天看了下爬蟲，python的，原先一直以為很高端，但是才發現大體思路很清晰。。。

1。連接配接到要抓取的某網，注意import urllib，比如這個樣子

def getHtml(url):

page = urllib.urlopen(url)

html = page.read()

return html

這樣基本就能把這個網頁搞下來了，但是不是所有網站這麼搞都能搞下來，是以有的網站需要再寫一個頭檔案的東西，（看到一句話這麼說：頭檔案（這種工具很多浏覽器是自帶的），我用的是firefox的firebug插件。）還不知道啥意思，嗯以後要看下。

2。然後，當然我不是要這個網頁裡的所有東西，是以要正則比對（import re），還有可以用beautifulsoup這個玩藝（也還沒開始研究。。。）

def getImg(html):

reg = r'(<td)(.*)(</td>)'

imgre = re.compile(reg)

imglist = re.findall(imgre,html)

return imglist

比如上面這個就是抓取網頁中所有<td>标簽下的内容，正則比對是個要熟能生巧的東西，要慢慢練大概解釋一下 r‘() 意思是python裡消除我也不知道是什麼的東西，反正加了後正規表達式可以比較正常的用了，然後（.*）是代表任何東西，目前還有個小問題是：怎麼就保留标簽内的東東。

正規表達式要再好好看看！https://developers.google.com/edu/python/?hl=zh-CN&csw=1 一個淡疼得網址。。反正百度上也有很多博文，往後幾天多找找感覺

3。再然後，就是把東東存起來了，兩種：存到檔案（我覺得應該很容易。。肯定明白思路）；存到資料庫（沒接觸過，要看。。。）

感覺這是篇廢話~嗯期待不久的将來研究出來點心得。。還要做畢設！ohno

繼續閱讀