天天看點

【大資料實戰】:知乎百萬使用者分析

背景

這幾天,同僚都去出差,稍有感冒的我提前在辦公室感受到了“孤獨終老”的恐懼。

于是,我想在自己有能力并且還有激情的時候,去做一些以後值得回憶的事。我萌生了去“探望”下知乎的念頭。

前言

我個人是15年注冊知乎,三年過去了,我個人首頁資料是:

我一直不喜歡知乎上面的氛圍,但是通過知乎我确實拿到了很多學習、設計、閱讀和産品靈感的資源,都是通過知乎連結到其他平台;在此也感謝這個平台給每一個求知者帶來的幫助和啟發。這次我将利用知乎使用者的資料,從資料分析的角度,以使用者、區域、行業、專業、大學、喜歡數、粉絲數和性别為交叉對比展開分析,因為我迫切想知道,那些大 V 從哪來,做了什麼事,是個什麼背景等等像打了馬賽克一樣的資訊。下面我們一一展開。

我自己整理的一份最新的大資料進階資料和進階開發教程,大資料學習群:522189307   歡迎進階中和進想深入大資料的小夥伴加入。

資料

直接爬取知乎的使用者資料,包括ID、粉絲數量、工作資訊、回答數量、文章數量等等。

部分資料不完整,gender 列中“1”表示男,對應的“0”就是女啦。

這些使用者的分布區域是什麼樣的

拿到這些資料,我一開始不關注使用者的性别,我知道,這個參考價值并不高,因為,我在一些社群都會在性别那一欄填上“女”。

于是, 根據使用者的地域資訊,得到如下這張圖

氣泡大小表示資料多少,很明顯北京和上海的使用者是最多的,這個地區分布有着什麼樣的潛在含義?讀者可以思考下這個問題,後面的分析會給出答案。

使用者分布區域決定這個區域的回答數量嗎

其實在做下面這張圖之前,我的猜想的答案是肯定的,很明顯嘛,哪裡人多,自然而然的就會回答多一些,但是我注冊知乎後的個人資料又說明存在特例:有的使用者都不喜歡回答。帶着疑問我做了下面這個分析,看看這些區域的同學是不是平常貢獻答案最勤快的。

這個圖幾乎和上面的完全吻合,用這個圖來說明“我的猜想是正确的”并不合适,但是用這個圖來打消你心中對這個猜想準确性所産生的疑慮,應該足夠了。

使用者都來自哪些大學

我乍一看這個圖,我就知道資料有問題,雖然學校的排名與上面地域占比的關系吻合(清華、北大排第一第二與北京使用者最多符合常識)的,但是整體資料量太小了,我回頭看一下原始的資料,我發現“學校”這個字段下面的值都大多都是“Null”,在處理做圖的時候預設過濾空值。發現這個之後,比較慶喜,至少這展示出來的部分資料真實性很高,因為不想公開自己大學的使用者可以直接不填(也就是Null)而不會出現不是北大填北大的現象;如果有,那這樣的人,我們忽略他吧。

哪個大學的使用者貢獻的答案最多

我們都知道,知乎是一個問答社群,貢獻自己的回答,來幫助他人,從知識的領域,将雷鋒精神發揚光大。那麼哪個學校的使用者總體回答數最高呢?

最喜歡回答問題的使用者大多來自武漢大學,緊據第二的是複旦大學,前四名被武漢和上海兩個城市占據。

這個時候也許你和我一樣,那使用者數占據最多的北京大學呢?我個人現在的解釋是:知乎總部位于北京,在平台冷啟動之初,種子使用者的大學這個字段的值都是“北京大學”,那批使用者開始塑造社群氛圍後,後面就“隐居山林”了,如李開複博士;是以後面使用者量大起來,發言次數每排上榜就是正常的啦。

使用者粉絲的多少與哪些因素有關

這是知乎使用者的粉絲排行榜,這張圖給我的疑問太多太多

是不是回答的數量越多,粉絲越多呢?

是不是獲得感謝越多,粉絲越多呢?

是不是文章寫得越多,粉絲越多呢?

帶着這些疑問,我做了如下這張圖,根據分析結果,上面這幾個疑問的答案就不言而喻了

并不是回答和文章次數越多,粉絲就越多,這也提醒大家,産出高品質的答案和文章,比高數量的答案和文章更有價值,更能得到别人的關注,多沒用,要好才行。

有意思的專業

談到寫文章,我就想看看這些平常喜歡寫作的同學都是學的什麼專業

諸多默默奉獻文章的高尚之士,都選擇隐藏專業,在可分析的次元上,軟體工程的同學摘得桂冠。中間這個“修地球專業”的文章我猜想是同一個人的貢獻,因為這個專業名字除了他,應該沒人想得出來233333

舉一反三,我又得到了以下這張分析圖,看來付出和回報是成正比的,你付出的越多,得到感謝就越多,這個世界還是很公平很美好的。差不多有200萬的使用者關注了“經濟學”專業的同學,看來在比誰錢多的時代,經濟方面文章和知識是個值得補充和提高的,大部分人在這塊有極大的需求…在計算機科學專業方面的回答比肩軟體工程專業,原來程式員哥哥除了不喜歡洗頭,還是有很多優點的,比喻“樂于助人”。

那些經常提問的同學都來自哪個行業領域

還記得開篇的時候讓大家思考的那個問題嗎,如果你還沒來得及思考,你現在可以再回頭看一下~

在“網際網路”行業,獲得感謝接近13M,獲得了900k的回答…

現在我們來看看開篇中的那個問題

上面的分析我們清楚的得到,使用者普遍來自北京上海;而這張圖可以看出,知乎上的使用者在網際網路這塊的産出和關注度非常高,那就很好解釋了:這群來自上海和北京的知乎使用者,由于上海和北京網際網路發展最快最發達,導緻他們普遍比較關注網際網路這一塊。網際網路之都:北上廣深,(後面發展較好較快的還有杭州、南京、成都、武漢等等)關注和從事網際網路的幾乎都在這個四個城市,那麼前後這兩個看似沒有任何關聯不同次元的資料,恰巧有着天衣無縫的吻合。

開始我本來想直接檢視個使用者的職位性質來直接說明這個,但是我覺得單純以一個在“注冊”和“完善資料”步驟中填寫的一個職位來說明這個有點牽強和草率,是以後面我換了一種思維,我想從使用者關注的點,以及知乎上面的問題和回答所呈現的資料反推“所在的地域決定了大的環境,環境影響人關注的行業和領域”這一點,這樣也顯得更加嚴謹和科學。

下面是使用者職位的分析(去除空值null後的)

其實職位不用分析也知道是這個情況。其中“創始人、合夥人、聯合創始人”等都可以當作“創始人”;“産品經理、PM,産品,産品設計師”等都可以歸納為“産品經理”,“創始人”和“産品經理”這兩個職位和“網際網路”這三個字凝固得非常緊,而且不是這個行業的從業人員高度關注這個行業貌似也說不過去,去問或者去回答這塊的問題就更扯了…

首次發言的潛在寓意是什麼

仔細看上面資料 excel 截圖的同學應該發現了,其中有個字段是”first_answer”,這個字段很有用

這是爬取的使用者當中,首次回答的使用者數量在以年為次元上的走勢,(很多使用者的 first_answer 我不知道為什麼沒有爬到~)首次回答和什麼有關系?當然是注冊時間啊,任何一個産品在使用者首次注冊的時候,新鮮感和活躍動力是最強的,如果在開始注冊之際這個使用者就沒有參與平台的互動,我們大可以斷定這個使用者已經沉澱或流失。我們假設知乎上面的使用者在注冊的時候就開始去回答别人的問題(可能有一兩天甚至一兩周的時間差,但是在以年為次元,可以忽略),那麼 first_answer 可以轉換為注冊時間,而注冊時間可以反觀一個平台的推廣力度和營運力度,那麼有了這個思路,我們再看上面的圖

從10年到11年,幾乎垂直上升,說明在這個時間段,有大量的使用者注冊。事實是,知乎是10年末期開放邀請注冊的,那麼此期間使用者劇增,理所當然

從11年到12年,有下降,說明在産品形成初期,有一定的使用者基數後,注冊遇到了瓶頸,在知乎社群活躍的幾乎都是老使用者,是以沒有新使用者,不存在首次回答,于是,出現了下降

從12年到14年,再次出現峰值,說明又有大批使用者注冊,去翻知乎的發展史可以看到,這個時間段,知乎取消以往的邀請注冊,開放公衆注冊,那自然而然會出現使用者暴增了

之後的幾年都是下降,如果讀者是網際網路從業或者關注這塊的資訊,你應該已經想到這是産品的使用者瓶頸到了,一個平台的使用者天花闆隻有這麼高,當沒有新使用者注冊并且參與活躍,first_answer 這個字段就沒有意義了,是以到了16年,首次回答的使用者非常低,說明,這個平台的新使用者增長低,甚至沒有

這是從 first_answer 得出的分析,那麼你能根據 last_answer 得出什麼結論呢?

總結

有時候從資料分析去反推事實很有意思,這大概也是資料産品最迷人的地方吧。以後的一段時間,我将爬拉鈎、爬新浪、爬大衆點評、爬物流等一系列平台的資料,來和大家一起分享資料産品經理的樂趣和日常,感興趣的朋友,歡迎一起交流!

繼續閱讀