Python爬蟲系列（一）初期學習爬蟲的拾遺與總結

一、環境搭建和工具準備

1、為了省去時間投入學習，推薦直接安裝內建環境 anaconda 2、ide：pycharm、pydev 3、工具：jupyter notebook（安裝完anaconda會有的）

二、python基礎視訊教程

1、瘋狂的python：快速入門精講（python2.x，可體驗到與python3.x的差異） 2、零基礎入門學習python 看完這些課程，自己對python有一個感覺和掌握，可以繼續看一些進階教程 3、python3大全（pasword:bf3e）

三、python爬蟲視訊教程

1、python網絡爬蟲實戰 2、python3爬蟲三大案例實戰分享

四、python爬蟲的相關連接配接

1、python爬蟲的最佳實踐 2、python網絡爬蟲實戰項目代碼大全 3、零基礎制作一個python 爬蟲 4、python爬蟲入門 5、python3 7、抓取鬥魚tv的房間資訊如果你想學習python可以來這個群，首先是四七二，中間是三零九，最後是二六一，裡面有大量的學習資料可以下載下傳。五、正規表達式和beautifulsoup、phatomjs +selenium的使用

1、python爬蟲小白入門 2、輕松自動化---selenium-webdriver(python) 3、 python 正規表達式 re 子產品簡明筆記 4、【python 筆記】selenium 簡介 5、selenium webdriver定位頁面元素的幾種方式 6、 python爬蟲利器selenium+phantomjs系列入門 7、python爬蟲入門（7）：正規表達式

六、自己爬取新浪新聞相關資訊的實戰

爬取頁面

我直接把源碼貼在這裡了，是參考python網絡爬蟲實戰課程做下來的

新聞評論數抽取函數

import re import json import requests #js抓取新聞評論資訊 commenturl='http://comment5.news.sina.com.cn/page/info?version=1&format=js&\ channel=gn&newsid=comos-{}&\ group=&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=20&jsvar=loader_1491395188566_53913700' def getcommentcounts(newsurl): #擷取新聞id m=re.search('doc-i(.+).shtml',newsurl) newsid=m.group(1) #根據新聞id擷取評論資訊 comments=requests.get(commenturl.format(newsid)) #将資訊解析為json格式 jd=json.loads(comments.text.strip('var loader_1491395188566_53913 700=')) return jd['result']['count']['total']

新聞内文資訊抽取函數

from datetime import datetime from bs4 import beautifulsoup def getnewsdetail(newsurl): result={} res=requests.get(newsurl) res.encoding='utf-8' soup=beautifulsoup(res.text,'html.parser') result['title']=soup.select('#artibodytitle') timesource=soup.select('.time-source')[0].contents[0].strip() result['dt']=datetime.strptime(timesource,'%y年%m月%d日%h:%m') result['source']=soup.select('.time-source span a')[0].text result['article']=' '.join([p.text.strip() for p in soup.select('#artibody p')[:-1]]) result['editor']=soup.select('.article-editor')[0].text.lstrip('責任編輯：') return result

七、感想

這些天學習下來，python爬蟲思路和套路很明确，主要是我們要對不同網站（反爬等）設計不同爬取路線和方法，但是還是要求自己總結方法和積累知識吧，還有一點自己也希望能把爬蟲運用到實際生活或者應用中（如果單純的抽取一個網頁資訊其實沒多大意思），比如嘗試應用到批量下載下傳一個網站的圖檔或者檔案等等，讓爬蟲為我們服務。

Python爬蟲系列（一）初期學習爬蟲的拾遺與總結

繼續閱讀

vue （vue2.0）使用總結(從大體結構總結)

vue搭建過程及出現問題

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

/\B(?=(?:\d{3})+$)/g 一條令人費解的正規表達式

适用于JavaScript的ECMAScript 2020規範向前發展

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

JS生成uuid的四種方法

vue-cli簡介（中文翻譯）

Ajax發送和擷取json資料到Spring mvc 1.spring mvc後端2.web前段

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

layui多任務上傳添加進度條

JSONObject包導入異常 java.lang.NoClassDefFoundErrorweb項目的導入包的問題

在python中建立excel并寫入