天天看點

【沒落的985/211】Python爬取知乎8萬字回答進行高校分析

最近知乎一個“有哪些較原來沒落的985/211院校?”的問題引起了很多人的關注,回答者各種分析,但是究竟哪些學校是公認最沒落的卻沒有定論

是以行哥嘗試爬取了一共8萬字的回答,通過統計的方式來找出公認最沒落的學校,順便從這些沒落的學校裡找出新的解讀給大家分享一波,快看看有沒有你的學校在裡面[手動狗頭]

   爬取文字

   分詞

   分析排名

   機會

爬取文字

關于爬取知乎回答的代碼,之前行哥有介紹過,總體就是擷取知乎的問題号,利用api和正規表達式提取内容,具體可以看以下兩篇推文(裡面包含了源代碼擷取方式)

【安排】23行代碼爬取知乎全部回答(内附源碼和應用程式)

一分鐘爬取知乎5646個知乎回答(内附代碼)

分詞

使用了一款高顔值的詞雲包來進行統計分析。stylecloud 是一位資料科學家Max Woolf基于wordcloud優化改良而成。并添加了一些有用的功能,進而建立出獨特的詞雲。

關鍵是它隻需要兩行代碼就可以直接生成詞雲,不要太簡單。

# 公衆号:一行資料
from stylecloud import gen_stylecloud
gen_stylecloud(file_path='知乎回答.txt')      

生成效果如下:

【沒落的985/211】Python爬取知乎8萬字回答進行高校分析

詞雲圖中分布了各種大學的名字,快看看能不能找到你的學校

分析排名

當然詞雲統計并沒有進行量化,不能看到大家公認的沒落學校,是以行哥将8萬字中提到了學校做了一個統計,該統計通過大學校名的全稱和簡稱分别進行統計,同時未考慮某些别稱(如世一大,窩工等)

統計出的結果如下圖所示

【沒落的985/211】Python爬取知乎8萬字回答進行高校分析

大學全稱統計

【沒落的985/211】Python爬取知乎8萬字回答進行高校分析

大學簡稱統計

無論是校名全稱排名還是簡稱排名,我們都可以看到南京大學是公認的沒落院校第一名,雖然現在也很厲害,但是曾經卻屬于亞洲第一的中央國立大學,被拆分成3所985和4所211學校,可見相對于過去的落末程度

其次蘭大,東大,南開等這些老牌學校,它們的沒落各有各的原因,但總體都有一個很大共同點,它們的強勢專業基本集中在環化材生領域,據說“21世紀是生物的世紀”[再次手動狗頭],估計還需要再等等把

機會

機會1:學校的沒落意味着相對生源品質降低,競争程度減少。對于想讀研考不上熱門學校熱門專業的同學來說,這個排名也可以作為選學校的小小依據

機會2:後幾名的某些學校,要麼是名字太長在回答時寫的别的簡稱(例如南七技校)沒有統計出來,要麼就是真正的沒落了,沒落到沒人提了。但是這些學校也挂着211/985的牌子,可以作為考研的一個考慮哦

【沒落的985/211】Python爬取知乎8萬字回答進行高校分析

統計為0的學校

機會3:以點看面,無論是學校還是個人都無法逃脫時代大勢的影響,已經上了環化材生大船的同學可得早點規劃下自己未來,不然沒落的不僅是學校了,還有.....