天天看點

2014阿裡巴巴校園招聘資料分析師職位筆試題目(答案版)

  選擇題10道,問答題三道,分析題2道

  一、選擇題

  1、 一下哪個屬于離散變量(汽車變量)

  水稻畝産量 家庭收入 商品價格 汽車産量

  2、 卡方分布的樣本方差分别是(2n)

      n 1 2n 4n

  3、 有個人買彩票,中獎機率為1/10,每次花200元,連續買5次,如果中獎則獎金為1000元,問不賠錢的機率是多少

 1-(9/10)^5

  4、 世界男女比例相當,黃種人比其他人種多的多,其他人種男的比女的多,以下那句是正确的 (b)

   a、黃種人男人比黑種人女人多       b、黃種人女人比黑種人男人多

  5、 關于聚類分析的題目,判斷哪句不正确

  6、 均值>中位數>衆數,問這個分布偏左還是偏右 

右偏

  7、 随機無放回抽樣跟随機有放回抽樣比較,哪個方差大,還是相等

有放回的方差更大,它的機率範圍更廣,偏離程度更大

  8、 回歸分析y=a+bx,如果存在自相關,問b的值如何,是正負還是0,還有顯著性如何?

b值是正負,顯著性水準高

  

  二、問答題

  1、sql語句,表a有member_id, city,表b 有 member_id, price幾項,将a和b連結,且指定城市和price>10. member_id為主鍵.如果不會寫就給出資料分析的思想。

select * from a join b on a.member_id=b.member_id where city='北京' and price>10.

  2、資料清理中,處理缺失值的方法

對于缺失值的處理,從總體上來說分為删除存在缺失值的個案和缺失值插補。

選分為三個步驟:

①為每個空值産生一套可能的插補值,這些值反映了無響應模型的不确定性;每個值都可以被用來插補資料集中的缺失值,産生若幹個完整資料集合。

②每個插補資料集合都用針對完整資料集的統計方法進行統計分析。

③對來自各個插補資料集的結果,根據評分函數進行選擇,産生最終的插補值。

  3、回歸分析中出現的多重共線性問題是什麼,如何處理?

所謂多重共線性(multicollinearity)是指線性回歸模型中的解釋變量之間由于存在精确相關關系或高度相關關系而使模型估計失真或難以估計準确。

一般來說,由于經濟資料的限制使得模型設計不當,導緻設計矩陣中解釋變量間存在普遍的相關關系。

消除多重共線性的方法:

1.增加樣本容量

2.利用先驗資訊改變

3.删除不必要的解釋變量:參數的限制形式

4.其它方法:逐漸回歸法,嶺回歸(ridge regression),主成分分析(principal  components ).

這些方法spss都可以做的,你在資料分析的子菜單下可以找到相應的做法。

删除不必要的方法的時候,最好使用一下逐漸回歸法,這樣比較科學一點。

主成分分析的方法使用比較簡單科學,本人建議用該方法。

  三、分析題

  1、對不同價位區間的商品做活動,表a給活動出流連次數與總體浏覽次數,表b給出活動商品轉換率和總體商品轉換率,分析現象

  2、某電商推出一款新的産品,希望這個産品能大賣,讓你給這個主題取個名字,如果你是資料分析師,設定哪些名額來判斷,給出名額的定義和意義,至少三個。