一.把爬取的内容儲存取MySQL資料庫
- import pandas as pd
- import pymysql
- from sqlalchemy import create_engine
- conInfo = "mysql+pymysql://user:passwd@host:port/gzccnews?charset=utf8"
- engine = create_engine(conInfo,encoding='utf-8')
- df = pd.DataFrame(allnews)
- df.to_sql(name = ‘news', con = engine, if_exists = 'append', index = False)
二.爬蟲綜合大作業
- 選擇一個熱點或者你感興趣的主題。
- 選擇爬取的對象與範圍。
- 了解爬取對象的限制與限制。
- 爬取相應内容。
- 做資料分析與文本分析。
- 形成一篇文章,有說明、技術要點、有資料、有資料分析圖形化展示與說明、文本分析圖形化展示與說明。
- 文章公開釋出。
爬取汽車之家網站資訊:
1、主題:爬取汽車之家當中新聞的的内容,對内容中的詞語進行分析,生成詞雲
網址:https://www.autohome.com.cn/news/?p=s#liststart
2、具體步驟實作
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 | |
由于是一個函數是以需要适應所有的頁面而不是隻是适合一個頁面,是以需要判斷是否存在時間、姓名、來源等,沒有的頁面給這些值賦予none
|
由于該頁面中存在許多li,是以需要對li和a先進行便利
|
|
# df = pandas.DataFrame(newstotal)
# import openpyxl
# df.to_excel('work.xlsx')
由于該新聞網站的頁面過多,在爬取過程胡出現連接配接錯誤,是以在後面的内容隻是爬取到第161頁的資料,大概2018年一整年的資料
|
讀取剛剛爬取的content.txt中的内容,用jieba詞庫對内容進行分詞,統計前150個祠是什麼,然後存儲到news.txt中
|
讀取news.txt中擷取的前150個祠,生成詞雲
3、結果

4、思想及結論
爬蟲爬取資料還是具有一定的實際意義,從汽車之家的新聞網站中可以擷取到汽車新聞資訊的熱門詞彙,增長對汽車的了解。
通過這次的爬蟲大作業,加深我對爬取資料步驟等的了解和運用,在以後的工作生活中會起到一定作用。