天天看點

如何利用Python抓取網頁資訊

上學那會C語言都沒有學好,于是就沒有心思學其他的程式設計語言。現在,我的畢業設計要用到爬蟲技術,在網上搜尋了一下,Python語言在爬蟲技術這方面獲得一緻好評。

是以從昨天開始就在網上查找各種Python爬蟲小程式的源碼,可是一天過去了,不僅沒有寫出一個簡單的爬蟲程式,反而對Python要引入的各種包和文法越來越迷糊了。去菜鳥教程一看,Python語言相對來講還是蠻複雜的(雖然它的文法很簡單,但是對于初學者,很多封裝在一個包裡的東西都非常陌生),我惡補了一下Python的文法,然後又開始在網上搜尋各種教程,總之把别人寫的爬蟲入門級程式都敲了一遍,可是還是無一奏效,有各種各樣的錯誤。

可是,今天發現一篇部落格,部落客很細心的講了最簡單的爬蟲有哪些步驟,用到哪些包,包括源碼都一句一句進行了分析,于是我的第一個爬蟲程式就成功了。下面分享一下這位部落客的部落格,并寫下自己的感受。

下面這張圖檔就是我按照那位部落客的代碼,得到的結果。雖然過程中出了一點文法錯誤(完全是我自己的失誤),但結果還是成功的獲得了網頁上的資料,還進行了篩選,并答應了出來。當然打出來的資料有很多,我隻截了一小部分。大家看到的最後一個>>>後面的語句for循環語句塊,就是将要進行疊代并列印疊代器的内容,這裡就不放圖了。