天天看點

小紅書2020校招資料分析筆試題卷一[題目整理]

1.對于任意事件A、B,有如下( )成立

A.P(AB)<=(P(A)+P(B))/2

B.P(AB)<=P(A)P(B)

C.P(AB)>=(P(A)+P(B))/2

D.P(AB)>=P(A)P(B)

Sol: A

P(AB) = P(A)*P(A|B) = P(B)*P(B|A)

2 * P(AB) = P(A)*P(A|B) + P(B)*P(B|A)

P(AB)<=(P(A)+P(B))/2

3.失語症是指由于神經中樞病損導緻抽象信号思維障礙,而喪失口語、文字的表達和領悟能力的臨床症候群。根據上述定義,下列可能患失語症的是()

正确答案: D

A.“狼孩”回歸社會後無法與人進行言語交流

B.幼時高燒聽力受損緻使發音有極大缺陷,影響交流

C.因受刺激精神失常,造成言語了解和表達上的困難

D.因車禍頭部受創,雖能模仿他人言語但經常答非所問

受精神刺激 ≠ \neq ​= 神經中樞病損

5. 評估模型之後得出模型存在偏差,下列哪種方法可能解決這一問題?()

正确答案: B 你的答案: D (錯誤)

減少模型特征中的數量

向模型中增加更多的特征

增加更多的資料

其他選項均正确

過拟合, 高偏差,低偏差

欠拟合,低方差,高偏差

高偏差意味模型不夠複雜(欠拟合),為了模型更加的強大,我們需要向特征空間中增加特征。增加樣本能夠降低方差

7.請輸入正确的vlookup公式查詢目前使用者id的性别()

正确答案: B

a == VLOOKUP(使用者id,A2:C6,使用者id,1)

a == VLOOKUP(使用者id,A2:C6,性别,1)

a == VLOOKUP(性别,A2:C6,使用者id,1)

a == VLOOKUP(性别,A2:C6,性别,1)

VLOOKUP(要查找的值,查找區域,查找區域傳回的列,查找模式)

0:精确比對

1:模糊比對

8. where 與have的差別:

where 子句的作用是在對查詢結果進行分組前,将不符合where條件的行去掉,即在分組之前過濾資料,條件中不能包含聚組函數,使用where條件顯示特定的行。

having 子句的作用是篩選滿足條件的組,即在分組之後過濾資料,條件中經常包含聚組函數,使用having 條件顯示特定的組,也可以使用多個分組标準進行分組。having與group by同時使用。

11.在EXCEL輸入以零開頭的文本型數字時需在輸入的資料前面加(‘ )

16. 四位老師在聯考前對某畢業班學生的前景進行預測,他們特别關注班裡的兩個尖子生。

張老師說:“如果小明能考上北大,那麼小強也能考上北大。”

李老師說:“依我看這個班沒有人能考上北大。”

王老師說:“不管小強能否考上北大,但小明考不上北大。”

趙老師說:“我看小強考不上北大,但小明能考上北大。”

聯考結果證明,四位老師中隻有一人的推測成立。

如果上述斷定是真的,則以下哪項也一定是真的?()

A.李老師的推測成立。

B.王老師的推測成立。

C.如果小強考不上北大,則張老師的推測成立。

D.如果小強考上了北大,則張老師的推測成立

解:

張老師:小明 =>小強,即-小強=>-小明

趙老師:-小強且小明

張老師和趙老師的推測沖突,必有一真,故李老師王老師的推測都為假

王老師:-小明 假,即小明考上了

是以,如果小強也考上了,則說明張老師推測成立

18.常用的最優模型選擇方法是哪些?()

正确答案: A B C

增加正則化項

交叉驗證

增加罰項

增加更多特征

23. 若單元格B2=30,B3=40,B4=52,則函數SUM(B2,B4)的值為()

SUM(B2, B4) = 82

SUM(B2: B4) = 122

24.假設一個元組在子查詢1中出現3次,在子查詢2中出現2次,則該元組在“子查詢1 union all 子查詢2” 中出現幾次()

union all:5次

union:1次

Union:對兩個結果集進行并集操作,不包括重複行,同時進行預設規則的排序;

Union All:對兩個結果集進行并集操作,包括重複行,不進行排序;

26.

抽樣估計的優良标準有三個:

(1) 無偏性

(2) 一緻性

(3) 有效性

影響時間序列的因素有四個:

(1)長期趨勢

(2) 季節變動

(3) 循環波動

(4) 不規則波動

27. 請給出三種常見的聚類算法:

  1. K-means聚類、K-中心點聚類、CLARANS算法,DIANA算法、BIRCH算法、Chameleon算法

    (2) EM算法

    (3) OPTICS算法、DBSCAN算法

Ref: 深入淺出聚類算法

28. Sql函數: substring(‘109.120.59.63’,5,3) = ()

答案:120

substring(arg1, arg2, arg3), arg1:待處理字元串;arg2:截取開始下标(本題為1);arg3:截取字元串長度(從1開始到2再到0,共三個字元),是以為109.【120】.59.63,【】中是被截取的内容。

與Java等語言中的substring函數以0為索引開頭不同,sql中以1為索引開頭。

29. 某電商有100家店鋪,每家店鋪每天銷售商品和銷售額gmv的資料存放在purchase表中,現需統計5月和6月,總gmv中,兩個月分别的貢獻前50% gmv的店鋪名,請使用一句SQL

店鋪銷量表purchase:

id dt seller_id seller_name item_id gmv
1 2019-05-01 a001 雅詩蘭黛旗艦店 abc00001 1635
SELECT # level 4
    CONCAT('2019M', month), seller_name
FROM
    (SELECT # level 3
        MONTH(dt) AS month, seller_name, SUM(gmv) AS totalgmv
    FROM
        purchase
    WHERE
        MONTH(dt) IN ('5' , '6')
    GROUP BY MONTH(dt) , seller_name) a
        JOIN
    (SELECT # level2
        month, seller_name, PERCENTILE(totalgmv, 0.5) AS mid
    FROM
        (SELECT # level 1
        MONTH(dt) AS month, seller_name, SUM(gmv) AS totalgmv
    FROM
        purchase
    WHERE
        MONTH(dt) IN ('5' , '6')
    GROUP BY MONTH(dt) , seller_name) c
    GROUP BY month , seller_name) b ON a.month = b.month
        AND a.seller_name = b.seller_name
WHERE
    totalgmv > mid;
           

30.如果做一個活動,目标是50w流水,假設活動頁面的使用者付費轉化率是0.4%,假定單個使用者可帶來的平均收入是20元; 需要給頁面帶來___流量(UV)才有可能達成目标?

答案:

20*0.4% *UV = 50w

UV = 625

繼續閱讀