前兩天刷知乎的時候看到這樣的問題:
“為什麼我國人才流失如此嚴重?”
題主的疑問來自于×××的資料:

2014年出國人數為46萬,而回國人數僅為36.5萬。
兩者相除,得出“歸國率”僅為79% ,而2015年僅有78%。
是以,題主得出結論:我國海外人才大量流失。
随後,各路人馬紛紛跳出來,開始一本正經地分析為什麼中國人才流失這麼嚴重。
問題是,這樣的資料解讀正确嗎?
用同一年内的出國人數和歸國人,計算出來的所謂“歸國率”,真的有意義嗎?
如果這個資料本身就沒有意義,那麼“分析”背後的“原因”,無疑是南轅北轍了。
——請先思考一分鐘——
2015年歸國的留學生,肯定在2014年甚至更早就出國了。
極少有學校會開設1月入學,12月畢業的Program。
是以,這裡用同一年内的回國人數和出國人數相除,算出來的所謂“歸國率”純粹是瞎算。
一般國外大學是3-4年,美國的master是1.5-2年,英國及英聯邦是1-1.5年,PhD一般要5年。
由于查不到不同項目人數的比例,是以保守估計平均出國年份為2年。
![]()
舉例說明 資料分析思維随後,各路人馬紛紛跳出來,開始一本正經地分析為什麼中國人才流失這麼嚴重。問題是,這樣的資料解讀正确嗎?——請先思考一分鐘——這個問題是解決了,那麼還能挖出什麼别的東西呢?還可以觀測趨勢。那麼,還能不能挖掘出别的東西?除此以外,這些資料還可以做别的嗎?還可以匡算市場規模。
-
根據×××的資料,2015年回國是40.9萬,往前推2年,2013年出國人數是41.4萬。
2915年歸國率 = 40.9/41.4 ≈ 99%,遠高于所謂的“78%”。
同理,2014年的歸國率是 91%,2013年甚至超過100%(可能是由于較多其他年份出國留學的學生在2013年集中回國,導緻資料爆表)。
近幾年的歸國率均高達90%以上,是以“我國人才流失嚴重”顯然是不成立了。
是以說,以後資料分析之前應該先動動腦子,不要總想着搞個大新聞批判一番。
這個問題是解決了,那麼還能挖出什麼别的東西呢?
還可以觀測趨勢。
整理了從1949-2015年,每一年的出國留學和歸國人數。
加總後,得到歸國人數總計218萬,出國人數總計292萬(不含2014和2015年),進而得出回國率75%。
為什麼總體隻有75%?這和我們計算的2013-2015年的歸國率相差甚大。
首先做一個簡單推測:早年的歸國率低,是以整體歸國率被拖了後腿。
分别計算每年的歸國率(篇幅原因,取1980年開始):
![]()
舉例說明 資料分析思維随後,各路人馬紛紛跳出來,開始一本正經地分析為什麼中國人才流失這麼嚴重。問題是,這樣的資料解讀正确嗎?——請先思考一分鐘——這個問題是解決了,那麼還能挖出什麼别的東西呢?還可以觀測趨勢。那麼,還能不能挖掘出别的東西?除此以外,這些資料還可以做别的嗎?還可以匡算市場規模。 果然,從改革開放以來,大部分年份的歸國率是非常低的,算術平均數僅為63%。
是以得出結論:近年來,越來越多的留學生選擇回國。
那麼,還能不能挖掘出别的東西?
在分析過程中,我發現了一個有趣的現象,如果隻看2000年以後的資料,2003-2008年出現了明顯的窪地。為了找出原因,特别是要規避計算方法帶來的錯誤,我計算了出國和歸國人數的逐年增長率(YoY Growth)。![]()
舉例說明 資料分析思維随後,各路人馬紛紛跳出來,開始一本正經地分析為什麼中國人才流失這麼嚴重。問題是,這樣的資料解讀正确嗎?——請先思考一分鐘——這個問題是解決了,那麼還能挖出什麼别的東西呢?還可以觀測趨勢。那麼,還能不能挖掘出别的東西?除此以外,這些資料還可以做别的嗎?還可以匡算市場規模。 ![]()
舉例說明 資料分析思維随後,各路人馬紛紛跳出來,開始一本正經地分析為什麼中國人才流失這麼嚴重。問題是,這樣的資料解讀正确嗎?——請先思考一分鐘——這個問題是解決了,那麼還能挖出什麼别的東西呢?還可以觀測趨勢。那麼,還能不能挖掘出别的東西?除此以外,這些資料還可以做别的嗎?還可以匡算市場規模。 資料表明,2000-2002年出現了一波出國的高潮,随後增長率迅速下降,甚至出現負增長,直到2008年以後才恢複到了20%+的增長率。
是以,2008年實際上是一個分水嶺,08年之後,出國留學變得更加熱門。
結合平時實際了解的出國人群的情況,我們可以做這樣一個假設:2008年以前出國人群中,大學和博士比例更高,2008年以後則是碩士比例更高。
是以,2008年以前出國的學生,在國外停留的時間應該更長,我們不妨認為這個平均時間是3.5年,取整為4年。
重新計算歸國率後:
![]()
舉例說明 資料分析思維随後,各路人馬紛紛跳出來,開始一本正經地分析為什麼中國人才流失這麼嚴重。問題是,這樣的資料解讀正确嗎?——請先思考一分鐘——這個問題是解決了,那麼還能挖出什麼别的東西呢?還可以觀測趨勢。那麼,還能不能挖掘出别的東西?除此以外,這些資料還可以做别的嗎?還可以匡算市場規模。 結果,不僅2005-2007年的窪地沒有改變,還在2002年出現了一波高峰。
因為這裡已經排除了計算方法帶來的錯誤,是以需要去探究背後的動因。
但想要真正透徹地探究其中的原因,隻能通過大規模調研的方式詢問當時的留學生,顯然不太現實。
在這裡先開一波腦洞大緻推測下原因:如果這是一次正式的資料分析,我們可以利用調研結果進一步分析出留學生回國的驅動因素,進而預測未來幾年的歸國率。
- 2001年,中國發生了幾件大事:申奧成功,WTO,APEC會議,是以鼓舞了一批留學生在2002年集中回國效力;
- 2004-2008年,國内輿論風波逐漸興起,各路公知興風作浪,在2008年到達頂峰,這幾年的留學生更多選擇在留在國外;
- 2008年,内有雪災、地震、毒奶粉,外有分裂反華勢力,中國在内交外困之下成功地舉辦奧運會,從此國内輿論形式逐漸反轉;加之全球性的金融危機,導緻海外的機會減少,大批留學生又選擇回國發展。
綜上,資料分析首先要保證資料和方法的準确性,然後大膽假設,小心求證。在不斷地論證中,會逐漸挖掘出有價值的新資訊。
除此以外,這些資料還可以做别的嗎?
還可以匡算市場規模。
從2015年開始,每年出國留學的人數已經超過了50萬。
算上出國留學有至少2-3年的準備期,那麼留學産業每年的基礎人群高達150萬。
由此可以大緻分别估算留學考試輔導、留學咨詢/中介、國際學校的市場規模。
同理,每年歸國的留學生超過40萬,這些留學生都需要在國内求職。