天天看點

資料挖掘崗面試總結(拿到百度sp,騰訊offer)

轉自:http://blog.csdn.net/bryan__/article/details/52672912 這個崗位叫法很多,算法崗,資料挖掘崗,機器學習崗,基礎研究等等……

下面總結一下從16年3月開始到9月底這半年的面試情況

百度:

實習生面試

朋友幫我内推了,推了很多崗位,蛋疼,最開始的是個搞分布式平台的崗位,後面的崗位就不再接受履歷

1面要寫代碼,題目是輸入根節點和兩個子節點,找到最小公共父節點,2叉樹隻有孩子節點

後面問了一些算法優化問題,理論差,不太懂。。

2面還要寫代碼,寫一個棧,添加一個接口,傳回目前棧最小值,要求時空都為O(1)

聊的有點久,1小時40分鐘,問了一些算法問題,履歷上東西

因為崗位不對口的問題,沒有繼續下去

校招面試

師姐給我内推的,一面聊了2個半小時,寫了很多代碼

用MapReduce寫好友推薦,在一堆單詞裡面找出現次數最多的k個

其他代碼題基本都能在劍指offer和微軟面試100題上找到,題目已經忘了

後面又聊了比賽和項目

二面基本都在問hadoop,資料結構與算法

又聊了1個半小時,hadoop原理,shuffle如何排序,map如何切割資料,如何處理資料傾斜,join的mr代碼如何寫

動态規劃,樹結構,連結清單結構等等

三面應該是部門老大面的,問了很多性格方面的問題,還有些比賽和項目中遇到的問題

隻聊了半個小時,要了身份證,說後面會安排筆試

後來筆試通過了,也就順利的拿到了百度offer

10.8号打電話跟我談待遇,給sp,但是時間太晚了……

騰訊那邊三方都寄過去了

騰訊:

第一次内推是3月的時候招實習生,師兄幫我内推了,履歷評級是A,但是還是要筆試,還好學校有個TST内推,過了就不用筆試

面了1面就跪了,因為沒複習,問的都知道,說不上來……

第二次是5月的時候補招,推到一個安全部門,面了2面就跪了,問了SVM原理,PageRank原理,怎麼用模型來查找異常使用者

我講了一大堆我的了解,然後面試官一句你怎麼不用規則把我噎到了……

第三次是校招TST内推,面過了2面,還是跟之前那個有點類似的遊戲開發的安全部門,因為我也玩LOL,又問到怎麼來判斷玩家有沒有作弊之類的問題,這次我小心翼翼的說用模型怎麼做,用規則怎麼做,感覺這次聊的都挺開心的。

三面電話打來的時候我在公共汽車上,沒接到,打回去是總機……再後來狀态就變成了面試流程放棄……

我特麼也是日了dog……

到了正式校招的時候,參加了筆試,順利通過

心想這次再跪就是4連跪啊……

去西安的路上就抱着李航的統計學習一直看看看看

晚上到了飯店就在草稿紙上推公式

然後一面的時候,果然面試官叫我推公式,LR,SVM,XGBOOST說推就推給你看

AUC的定義和本質,有哪些計算方法

然後在紙上手寫了些代碼,聊了些比賽和項目,估計面試官驚呆了吧,總之聊的比較開心

面試官發現我是重慶來的,就在履歷上注明了優先安排面試,然後又問我期望工作城市,我說成都吧,然後又加一句,優先安排成都崗位……

二面的時候感覺沒咋聊好,問的問題都答的不太好

先是叫我用C語言寫記憶體拷貝……這早就忘光了好吧,拿着筆很尴尬的說我不會,但是應該有安全性問題需要考慮下……

然後又問了動态規劃,還有些劍指offer上常見的題目,有的答上來,有的說見過但是忘記了

後面又問了Hadoop,Spark,storm下面的産品,原理,适用場景,也隻答上來一部分,spark和strom根本就沒用過,瞎扯了一通

後面問了下DNN原理,應用,也是瞎扯一通……

然後又開始聊項目和比賽……估計是上一個面試官評價比較好的原因吧,2面就這麼過了

HR面的時候一進去就驚呆了,尼瑪HR長這麼好看……

搞得我都有點害羞了,

然後就随便瞎扯了一些東西,問比賽和項目裡遇到過的困難,問了自己的優勢,我說認識很多大神算不算……

還問了我拿到了哪些公司offer,我說有百度的,還有一個創業公司的,創業公司開的比較高,然後她就問有多高,我說你可能不會信,稅後20*14+包吃包住,公司對面的較高價的電梯大廈,單間5k。

接着問了對意向的公司的一個排序是什麼,這時候當然得跪舔騰訊了……

又問了期望待遇,我知道這個問題一般不要瞎扯,問了下騰訊的薪資結構,福利,住房補貼等等,後面HR問我了解過MIG嗎,我說不太了解,就給了我這個冊子叫我帶回去看看……

其他問題也忘了,後面說可能有個視訊面試,也不知道啥意思……

然後說是9月28之前出結果,過與沒過都能在微信上查到。

9月27号上午,我正在蹲坑,打電話過來跟我說過了

考慮了一整天,決定去騰訊搬人生第一塊轉……

阿裡:

實習生面試

2面之後跪了被扔給其他部門重新一面

一面聊了挺多,讓我把一個完整的資料挖掘流程講一下,從預處理,特征工程,到模型融合。

介紹常用的算法,gbdt和xgboost差別,具體怎麼做預處理,特征工程,模型融合常用方式,融合一定會提升嗎?

2面不太好,問了怎麼在2G記憶體裡找100TB資料的中位數,還有怎麼解決mapreduce資料傾斜,經常用什麼語言工具開發

然後答的不好被刷掉了,履歷被扔到菜鳥網絡,重新開始一面

一面還是問履歷的東西,二面應該是總監級的人物吧,天池比賽的菜鳥網絡就是他出題。

二面問了我的研究方向,怎麼把研究内容應用到實際中,還做 了其他哪些研究。

不知道為啥,沒有3面,直接HR面了。

3月31号是最後一次面試,直到4月21号才HR面

問我對菜鳥網絡的了解,我說不太了解。。最近的項目,在比賽中的角色,自己的短闆,職業規劃,期望工作地點,是保研的還是考研的

我說以後想創業,果然沒過多久就已回絕,自己太天真了,應該跪舔的,比如說期望在3年内成為技術骨幹,為阿裡貢獻自己的綿薄之力之類的

校招面試

本來我有比賽top10可以直接終面的,但是朋友告訴我直接終面評價最多隻能到B+,今年招人隻要A以上

然後我就叫朋友幫我内推

1面已經忘了問了些啥,反正就是那些

機器學習裡面的東西,資料結構算法,比賽,項目

2面是遼原,應該是螞蟻金服AI部門老大吧

問了如何在海量資料中查找給定部分資料最相似的top200向量,向量的次元也很高

因為之前了解過其他面螞蟻金服的朋友,也有問到這個題目的

是以反應比較快,直接就說可以用KD樹,聚類,hash

然後又問怎麼衡量兩個商品的成本效益,這個題目以前阿裡星面試的時候也被問過,就随便扯了下

後面問了些比賽和項目

3面的時候跟我說螞蟻金服沒名額了,問我願不願意去架構部門做java web開發,于是我主動把阿裡刷了,是的,我刷了阿裡

京東:

實習生面試

不知道在哪找到的郵箱,投了進去就直接開始面試

一面還是問的些履歷上的東西,隻聊了20分鐘就說有事,後面讓同僚來。。。

二面也是問的履歷上的比賽和最近做的項目

校招面試

還是讓之前内推的這位總監幫忙内推,結果他告訴我他已經離職創業去了……

然後把履歷轉給了他的接班人

大概過了很久很久吧,連京東筆試都過了,才開始安排面試

一天之内兩連面,還是問了很多機器學習算法的東西

為什麼LR需要歸一化或者取對數,為什麼LR把特征離散化後效果更好

為什麼把特征組合之後還能提升,反正這些基本都是增強了特征的表達能力,或者說更容易線性可分吧

還問了項目和比賽

一面聊的挺愉快

比較有意思的是2面的時候面試官不相信我有百度offer……是以對京東頓時好感全無

杭州微店:

是一個浙大的博士姐内推的我,也是她面試的我,主要就問了一些技能,比賽怎麼做的,對淘寶穿衣搭配挺感興趣的,怎麼改善聚類等等。

二面忘了,好像也沒問多深入,就一些常見的東西,業務等等。

三面就是HR面了,問的挺多,各種陷阱,問我為啥不在重慶工作,我說重慶行業發展不夠,先在大城市鍛煉下再考慮重慶什麼的,下午2點跟我說通過了。

然後5點的時候跟我說不好意思,就因為上面那個問題。

校招的時候又找這個學姐内推,但是直到現在都沒有消息,反正也懶得面了……

拉鈎:

實習生面試

也是問一些劍指offer的題,單連結清單如何判斷有環,從大資料中找出topk

還問了其他資料結構和算法,項目,比賽等等

說面試過了,但是必須去實習半年以上

還面過蘑菇街,糯米,蘑菇街到HR面了,估計覺得我沒有意向吧,就沒有後文了

糯米2面的時候正在面其他公司,打了10多個未接……我打回去的時候估計已經把我拉黑了吧……

華為面的很水,都沒問算法方面的問題,大牛專場機試滿分,不知道能不能拿到offer

360和今日頭條校招内推履歷被刷了……

總結

經常會問到的問題,經典算法推導(加分項),原理,各個損失函數之間差別,使用場景,如何并行化,有哪些關鍵參數

比如LR,SVM,RF,KNN,EM,Adaboost,PageRank,GBDT,Xgboost,HMM,DNN,推薦算法,聚類算法,等等機器學習領域的算法,這些基本都會被問到

XGB和GBDT差別與聯系也會經常問到:https://www.zhihu.com/question/41354392/answer/128008021?group_id=773629156532445184

哪些優化方法,随機梯度下降,牛頓拟牛頓原理

生成模型,判别模型

線性分類和非線性分類各有哪些模型

SVM核技巧原理,如何選擇核函數

特征選擇方法有哪些(能說出來10種以上加分)

常見融合架構原理,優缺點,bagging,stacking,boosting,為什麼融合能提升效果

資訊熵和基尼指數的關系(資訊熵在x=1處一階泰勒展開就是基尼指數)

如何克服過拟合,欠拟合

L0,L1,L2正則化(如果能推導絕對是加分項,一般人最多能畫個等高線,L0是NP問題)

其實上面的這些問題基本都能在《李航:統計學習方法》《周志華:機器學習》裡面找到,能翻個4,5遍基本就無壓力了

另外可以報一下小象學院的機器學習班,等到開團的時候報也就300左右,講的挺不錯的,有算法推導和代碼實作,我也是看了之後才明白很多算法的原理

還會問一些常見的資料結構和算法,寫代碼的題基本都是出自《劍指offer》和《微軟面試100題》,隻要刷幾遍,代碼題這裡搞定也是加分項

其餘的基本就是問問比賽,項目,遇到的問題,如何解決,在團隊中的角色,評價自己

面試官問你還有問題要問沒,最好别瞎問,多看看别人的面經吧

比如問點現在這個部門做的業務,遇到過的問題,部門發展的一個規劃

最好别叫面試官評價你,要是評價不好會影響心情,自己的面試表現自己應該清楚,是以不問最好

可以在自己面試的時候做記錄,經常複習,先從小公司面起,積累經驗

另外要定位準确,自己的水準自己清楚,不要死磕大公司,浪費了大量時間還經常1面被刷

沒事審視下自己的履歷,不要把自己不熟悉的東西寫上去,像什麼精通之類的建議改成了解吧……不然會被問哭的

不要裝逼寫2頁,我很多項目比賽都沒寫進去,隻寫了幾個名次靠前的比賽,能吹一點的項目,其他沒寫進去的可以找機會主動說出來

項目即使很水,也要吹的很難很厲害的樣子

比賽和項目盡量突出裡面的難點,自己做的貢獻

我的履歷也是改了又改,後來找阿裡星小江要了他的履歷,模仿着改了一份,簡單粗暴……

資料挖掘崗面試總結(拿到百度sp,騰訊offer)
資料挖掘崗面試總結(拿到百度sp,騰訊offer)
資料挖掘崗面試總結(拿到百度sp,騰訊offer)

多刷題也比較重要,我自己的感受是内推問的問題會比通過了筆試問的要難一些,深一些

算法的推導同樣重要,之前我也是看到那些公式就蛋疼,後面沒辦法,看書看視訊,多手推幾遍,這樣面試的時候更有底氣

個人覺得在面試的時候能手推算法的應該比較少,是以優勢是很大的

實習生面試跪掉的原因就是沒有複習,對算法的原理了解不夠深入,是以在校招的時候,9月開始用了将近一個月的時間來複習

建議多交一些牛逼的朋友,我們有個群,6個人,有4個百度offer,有3個騰訊offer,還有個研二估計是下一個阿裡星吧

10.9号,我們群裡終于有一個阿裡了,終于集齊了bat,可以召喚單挑之王了……他就是天音大魔王

我們經常一起打比賽,在群裡讨論學術,裝逼扯淡什麼的,今年隻要參加了的比賽,基本都拿獎了吧……

另外感覺大公司也并沒有學校歧視,我的學校211都不是,問都沒問過學校的問題

我大學是個學渣,讀研開始寫代碼,是以兩年,可以改變很多事情

下面是我準備面試整理的一些資料,裡面有很多算法以及面試問題

http://download.csdn.NET/detail/bryan__/9640531

大量算法題參考資料

http://blog.csdn.Net/v_july_v/article/details/6543438

http://blog.csdn.net/hackbuteer1

機器學習公開課

https://www.julyedu.com/video/play/18/10

面試算法資料

http://www.cnblogs.com/tornadomeet/p/3395593.html

機器學習知識點總結

https://bbs.aliyun.com/read.PHP?spm=5176.100258.100258.8.bhrQ8k&tid=294564&displayMode=1&page=1&toread=1#tpc

http://m.blog.csdn.net/article/details?id=50244695

面試程式設計題十大經典算法

http://mp.weixin.qq.com/s?__biz=MjM5Nzk2MDU5NA==&mid=2652545706&idx=3&sn=87e964154fa54999719c34c4b67dfff7&scene=0#wechat_redirect

繼續閱讀