爬取全部的校園新聞
改作業要求來源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2941
一、要求:
1.從新聞url擷取新聞詳情: 字典,anews
2.從清單頁的url擷取新聞url:清單append(字典) alist
3.生成所頁清單頁的url并擷取全部新聞 :清單extend(清單) allnews
*每個同學爬學号尾數開始的10個清單頁
4.設定合理的爬取間隔
import time
import random
time.sleep(random.random()*3)
5.用pandas做簡單的資料處理并儲存
儲存到csv或excel檔案
newsdf.to_csv(r'F:\duym\爬蟲\gzccnews.csv')
儲存到資料庫
import sqlite3
with sqlite3.connect('gzccnewsdb.sqlite') as db:
newsdf.to_sql('gzccnewsdb',db)