天天看點

[轉]2013百度校園招聘-機器學習和資料挖掘工程師-筆試題 - anyuan9

[轉]2013百度校園招聘-機器學習和資料挖掘工程師-筆試題

一、簡答題(30分)

1、簡述資料庫操作的步驟(10分)

2、TCP/IP的四層結構(10分)

3、什麼是MVC結構,簡要介紹各層結構的作用(10分)

二、算法與程式設計(45分)

1、由a-z、0-9組成3位的字元密碼,設計一個算法,列出并列印所有可能的密碼組合(可用僞代碼、C、C++、Java實作)(15分)

2、實作字元串反轉函數(15分)

3、百度鳳巢系統,廣告客戶購買一系列關鍵詞,資料結構如下:(15分)

User1 手機 智能手機 iphone 桌上型電腦 …

User2 手機 iphone 筆記本電腦 三星手機 …

User3 htc 平闆電腦 手機 …

(1)根據以上資料結構對關鍵詞進行KMeans聚類,請列出關鍵詞的向量表示、距離公式和KMeans算法的整體步驟

(2)計算給定關鍵詞與客戶關鍵詞的文字相關性,請列出關鍵詞與客戶的表達符号和計算公式

三、系統設計題(25分)

一維資料的拟合,給定資料集{xi,yi}(i=1,…,n),xi是訓練資料,yi是對應的預期值。拟使用線性、二次、高次等函數進行拟合

線性:f(x)=ax+b

二次:f(x)=ax^2+bx+c

三次:f(x)=ax^3+bx^2+cx+d

(1)請依次列出線性、二次、三次拟合的誤差函數表達式(2分)

(2)按照梯度下降法進行拟合,請給出具體的推導過程。(7分)

(3)下圖給出了線性、二次和七次拟合的效果圖。請說明進行資料拟合時,需要考慮哪些問題。在本例中,你選擇哪種拟合函數。(8分)

(4)給出實驗方案(8分)