之前我使用自帶的urllib2模拟浏覽器去進行通路網頁等操作,很多網站都會出錯誤,還會傳回亂碼,之後使用了 mechanize模拟浏覽器,這些情況都沒出現過,真的很好用,這裡向大家推薦一下。
mechanize是對urllib2的部分功能的替換,能夠更好的模拟浏覽器行為,在web通路控制方面做得更全面。
首先從安裝開始吧,以ubuntu系統為例:
python 絕大部分第三方軟體包,都是标準安裝方式,從官網下載下傳之後,解壓到一個檔案夾内,然後在這個檔案夾内執行這個指令就行了:
python setup.py install
官網網址:
<a href="http://wwwsearch.sourceforge.net/mechanize/">http://wwwsearch.sourceforge.net/mechanize/</a>
正常情況下,我們要給python安裝第三方的擴充包,我們必須下載下傳壓縮包,解壓縮到一個目錄,然後指令行或者終端打開這個目錄,然後執行
來進行安裝。
而使用easy_install我們就可以直接指令行執行
easy_install xxx
就把最新版的xxx包裝上去了
是以easy_install就是為了我們安裝第三方擴充包更容易
首先下載下傳easy_install的安裝包,下載下傳位址:
<a href="http://pypi.python.org/pypi/setuptools">http://pypi.python.org/pypi/setuptools</a>
下載下傳自己對應的版本,windows上面直接運作exe安裝就可以了
linux上面可以直接運作
sh setuptools-0.6c9-py2.4.egg
安裝完成後,easy_install會被自動複制到bin目錄下,也就是我們的path路徑下,是以我們在終端中可以直接運作easy_install指令了
安裝easy_install的指令如下:
sudo apt-get install python-setuptools
sudo easy_install mechanize
安裝好之後就可以愉快的使用了,首先是模拟一個浏覽器的代碼:
這樣就得到了一個浏覽器的執行個體,br對象。使用這個對象,便可以對網頁操作:
另外如果通路的網站需要驗證(http basic auth),那麼:
另外利用這個方法,存儲和重發這個session cookie已經被cookie jar搞定了,并且可以管理浏覽器曆史:。除此之外還有衆多應用,如下載下傳:
為http設定代理 :
回退(back):
列印url即可驗證是否回退
模拟谷歌和百度查詢:
更多的資訊大家可以去官網檢視
另外使用mechanize模拟浏覽器去不斷通路網頁是可以刷各種部落格的通路量的,包括csdn,我聲明一下,我測試刷了10個通路就不搞了,畢竟刷通路量是個很沒品的事情,而且沒什麼意義,好好寫一篇部落格是為了自己總結自己,也是為了幫助他人,分享經驗,去追求什麼通路量,積分是沒有意義的,奉勸大家也不要亂搞。而且這個很容易查的,被查出來的後果可是很嚴重的,簡單腳本如下,這個是刷一個網頁100次,間隔1秒:
我還是學生,寫的不好的地方還請多多指正,
轉載請注明出處:
<a href="http://blog.csdn.net/sunmc1204953974">http://blog.csdn.net/sunmc1204953974</a>