天天看點

爬蟲綜合大作業

作業要求來自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159

可以用pandas讀出之前儲存的資料:

newsdf = pd.read_csv(r'F:\duym\gzccnews.csv')

一.把爬取的内容儲存到資料庫sqlite3

import sqlite3

with sqlite3.connect('gzccnewsdb.sqlite') as db:

newsdf.to_sql('gzccnews',con = db)

df2 = pd.read_sql_query('SELECT * FROM gzccnews',con=db)

儲存到MySQL資料庫

  • import pandas as pd
  • import pymysql
  • from sqlalchemy import create_engine
  • conInfo = "mysql+pymysql://user:passwd@host:port/gzccnews?charset=utf8"
  • engine = create_engine(conInfo,encoding='utf-8')
  • df = pd.DataFrame(allnews)
  • df.to_sql(name = ‘news', con = engine, if_exists = 'append', index = False)
!pip install PyMySQL

!pip install sqlalchemy

import pymysql
from sqlalchemy import create_engine
coninfo='mysql+pymysql://root:@localhost:3306/gzccnews?charset=utf8'
engine=create_engine(coninfo,encoding='utf-8')

newsdf.to_sql(name='news',con=engine,if_exists='append',index=False,index_label='id')

newsdf.to_sql(name='news',con=engine,if_exists='append',index=False)
conn=pymysql.connect(host='localhost',port=3306,user='root',passwd='',db='gzccnews',charset='utf8')      
爬蟲綜合大作業

二.爬蟲綜合大作業

  1. 選擇一個熱點或者你感興趣的主題。
  2. 選擇爬取的對象與範圍。
  3. 了解爬取對象的限制與限制。
  4. 爬取相應内容。
  5. 做資料分析與文本分析。
  6. 形成一篇文章,有說明、技術要點、有資料、有資料分析圖形化展示與說明、文本分析圖形化展示與說明。
  7. 文章公開釋出。

參考:

32個Python爬蟲項目

都是誰在反對996?

Python和Java薪資最高,C#最低!

給《流浪地球》評1星的都是什麼心态?

《都挺好》彈幕資料,比劇情還精彩?

爬了自己的微信好友,原來他們是這樣的人……

春節人口遷徙大資料報告!

七夕前消費趨勢資料

爬了一下天貓上的Bra購買記錄,有了一些羞羞哒的發現...

Python做了六百萬字的歌詞分析,告訴你中國Rapper都在唱些啥

分析了42萬字歌詞後,終于搞清楚民謠歌手唱什麼了

十二星座的真實面目

唐朝詩人之間的關系到底是什麼樣的?

中國姓氏排行榜

三.爬蟲

資料爬取

現在貓眼電影網頁似乎已經全部服務端渲染了,沒有發現相應的評論接口,參考了之前其他文章中對于貓眼資料的爬取方法,找到了評論接口!

https://api.bilibili.com/x/v2/reply?type=1&oid=37942085&sort=0&_=1557108277117&pn=

爬蟲綜合大作業
爬蟲綜合大作業

接下來爬取評論:

最終我們擷取到了大約796條資料

爬蟲綜合大作業
爬蟲綜合大作業

資料分析

資料分析我們使用了百度的pyecharts、excel以及使用wordcloud生成詞雲

評論分布城市

由圖中可以看出主要分布在各大一線、新一線城市,對于杭州為何會排在第17的位置,我覺得可能是大家都用淘票票的緣故吧!

接下來是評分占比情況

爬蟲綜合大作業

由圖中可以看出,評分在4以上的占比達到了94%,而平均評分也達到4.68分!!!

再來看一下各城市評分情況:

爬蟲綜合大作業

詞雲代碼

爬蟲綜合大作業

詞雲出現較多的是好看、特效、劇情、震撼等,可以看出大家對此電影對特效和劇情還是十分認同的

四、總結:

經過對哔哩哔哩電影上《海王》這部電影的部分評論的爬取、分析、資料可視化之後,從中總結出對電影的感想:

《海王》這部電影從劇情上來看,編排得非常完美和符合邏輯,如果說電影裡的海王,他了解陸地也了解海洋的話,那麼溫才他了解美國也了解中國;從特技上來看呢,也堪比《阿凡達》、《魔戒》。這些都是我們沒有幻想到的世界,都是我們無法預測的神秘。隻有您無法預測劇情和無法預知特效,才算是震撼,才能算是好電影。是以任何人要想在自己的生涯中獲得成功,首先要突破的障礙不是技能,不是知識,不是地位,而是自己