爬取全部的校園新聞

2019-04-12 21:05:00

1.從新聞url擷取新聞詳情：字典,anews

2.從清單頁的url擷取新聞url：清單append(字典) alist

3.生成所頁清單頁的url并擷取全部新聞：清單extend(清單) allnews

*每個同學爬學号尾數開始的10個清單頁

4.設定合理的爬取間隔

import time

import random

time.sleep(random.random()*3)

5.用pandas做簡單的資料處理并儲存

儲存到csv或excel檔案

newsdf.to_csv(r'F:\duym\爬蟲\gzccnews.csv')

儲存到資料庫

import sqlite3

with sqlite3.connect('gzccnewsdb.sqlite') as db:

newsdf.to_sql('gzccnewsdb',db)

上一篇: 複合資料類型，英文詞頻統計

下一篇: 擷取一篇新聞的全部資訊