作業要求來自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159
可以用pandas讀出之前儲存的資料:
newsdf = pd.read_csv(r'F:\duym\gzccnews.csv')
一.把爬取的内容儲存到資料庫sqlite3
import sqlite3
with sqlite3.connect('gzccnewsdb.sqlite') as db:
newsdf.to_sql('gzccnews',con = db)
df2 = pd.read_sql_query('SELECT * FROM gzccnews',con=db)
儲存到MySQL資料庫
- import pandas as pd
- import pymysql
- from sqlalchemy import create_engine
- conInfo = "mysql+pymysql://user:passwd@host:port/gzccnews?charset=utf8"
- engine = create_engine(conInfo,encoding='utf-8')
- df = pd.DataFrame(allnews)
- df.to_sql(name = ‘news', con = engine, if_exists = 'append', index = False)
!pip install PyMySQL
!pip install sqlalchemy
import pymysql
from sqlalchemy import create_engine
coninfo='mysql+pymysql://root:@localhost:3306/gzccnews?charset=utf8'
engine=create_engine(coninfo,encoding='utf-8')
newsdf.to_sql(name='news',con=engine,if_exists='append',index=False,index_label='id')
newsdf.to_sql(name='news',con=engine,if_exists='append',index=False)
conn=pymysql.connect(host='localhost',port=3306,user='root',passwd='',db='gzccnews',charset='utf8')

二.爬蟲綜合大作業
- 選擇一個熱點或者你感興趣的主題。
- 選擇爬取的對象與範圍。
- 了解爬取對象的限制與限制。
- 爬取相應内容。
- 做資料分析與文本分析。
- 形成一篇文章,有說明、技術要點、有資料、有資料分析圖形化展示與說明、文本分析圖形化展示與說明。
- 文章公開釋出。
參考:
32個Python爬蟲項目
都是誰在反對996?
Python和Java薪資最高,C#最低!
給《流浪地球》評1星的都是什麼心态?
《都挺好》彈幕資料,比劇情還精彩?
爬了自己的微信好友,原來他們是這樣的人……
春節人口遷徙大資料報告!
七夕前消費趨勢資料
爬了一下天貓上的Bra購買記錄,有了一些羞羞哒的發現...
Python做了六百萬字的歌詞分析,告訴你中國Rapper都在唱些啥
分析了42萬字歌詞後,終于搞清楚民謠歌手唱什麼了
十二星座的真實面目
唐朝詩人之間的關系到底是什麼樣的?
中國姓氏排行榜
三.爬蟲
資料爬取
現在貓眼電影網頁似乎已經全部服務端渲染了,沒有發現相應的評論接口,參考了之前其他文章中對于貓眼資料的爬取方法,找到了評論接口!
https://api.bilibili.com/x/v2/reply?type=1&oid=37942085&sort=0&_=1557108277117&pn=
接下來爬取評論:
最終我們擷取到了大約796條資料
資料分析
資料分析我們使用了百度的pyecharts、excel以及使用wordcloud生成詞雲
評論分布城市
由圖中可以看出主要分布在各大一線、新一線城市,對于杭州為何會排在第17的位置,我覺得可能是大家都用淘票票的緣故吧!
接下來是評分占比情況
由圖中可以看出,評分在4以上的占比達到了94%,而平均評分也達到4.68分!!!
再來看一下各城市評分情況:
詞雲代碼
詞雲出現較多的是好看、特效、劇情、震撼等,可以看出大家對此電影對特效和劇情還是十分認同的
四、總結:
經過對哔哩哔哩電影上《海王》這部電影的部分評論的爬取、分析、資料可視化之後,從中總結出對電影的感想:
《海王》這部電影從劇情上來看,編排得非常完美和符合邏輯,如果說電影裡的海王,他了解陸地也了解海洋的話,那麼溫才他了解美國也了解中國;從特技上來看呢,也堪比《阿凡達》、《魔戒》。這些都是我們沒有幻想到的世界,都是我們無法預測的神秘。隻有您無法預測劇情和無法預知特效,才算是震撼,才能算是好電影。是以任何人要想在自己的生涯中獲得成功,首先要突破的障礙不是技能,不是知識,不是地位,而是自己