天天看點

Python爬蟲(入門+進階)學習筆記 1-2 初識Python爬蟲

本人Mac + Anaconda(Python3) + PyCharm + Chrome

Python爬蟲(入門+進階)學習筆記 1-2 初識Python爬蟲

簡單來說,Anaconda是包管理器和環境管理器。Anaconda 附帶了一大批常用資料科學包,它附帶了 conda、Python 和 150 多個科學包及其依賴項。是以你可以立即開始處理資料。Anaconda 是在 conda(一個包管理器和環境管理器)上發展出來的。在資料分析中,你會用到很多第三方的包,而conda(包管理器)可以很好的幫助你在計算機上安裝和管理這些包,包括安裝、解除安裝和更新包。Anaconda 的下載下傳檔案比較大(約 500 MB),因為它附帶了 Python 中最常用的資料科學包。如果計算機上已經安裝了 Python,安裝不會對你有任何影響。實際上,腳本和程式使用的預設 Python 是 Anaconda 附帶的 Python。

Python爬蟲(入門+進階)學習筆記 1-2 初識Python爬蟲

PyCharm是一種Python IDE(Integrated Development Environment,內建開發環境),帶有一整套可以幫助使用者在使用Python語言開發時提高其效率的工具,比如調試、文法高亮、Project管理、代碼跳轉、智能提示、自動完成、單元測試、版本控制。此外,該IDE提供了一些進階功能,以用于支援Django架構下的專業Web開發。

如果下載下傳了PyCharm後,PyCharm中的Python是系統自帶的2.x版本,而不是Anaconda中的Python 3.x,需要将Pycharm中Setting中Project Interpreter換成Anaconda目錄下的Python:

Python爬蟲(入門+進階)學習筆記 1-2 初識Python爬蟲

爬蟲三步走

  • 爬蟲第一步:使用requests獲得資料
  • 爬蟲第二步:使用BeautifulSoup4解析資料
  • 爬蟲第三步:使用pandas儲存資料
import requests     
r = requests.get('https://book.douban.com/subject/1084336/comments/').text

from bs4 import BeautifulSoup
soup = BeautifulSoup(r,'lxml')
pattern = soup.find_all('p','comment-content')
for item in pattern:
    print(item.string)

import pandas
comments = []
for item in pattern:
    comments.append(item.string)    
df = pandas.DataFrame(comments)
df.to_csv('comments.csv')
           

Python 3 基礎教程

python如何安裝第三方庫

python的一大優勢就在于python擁有強大的第三方庫,通過這些第三方庫可以快速的實作某些強大的功能,是以學會安裝python的第三方庫是使用python必備的一個技能。 

閱讀Python 安裝 第三方庫的安裝技巧,學會如何快速安裝python第三方庫。

拓展閱讀

在行業内頗有幾年經驗的程式員都不能保證自己是完全精通一門語言的,熟練Python基礎知識補充材料可以讓你很好的完成這門課程的學習,但對于有志于在這個行業闖出一番天地的你而言,還有更多材料等待你去閱讀。下面推薦給你一些高品質的學習資料:

  • 最權威的python學習手冊
  • 廖雪峰的官方網站
  • RUNOOB.COM
  • 笨辦法學python