[轉]2013百度校園招聘-機器學習和資料挖掘工程師-筆試題
一、簡答題(30分)
1、簡述資料庫操作的步驟(10分)
2、TCP/IP的四層結構(10分)
3、什麼是MVC結構,簡要介紹各層結構的作用(10分)
二、算法與程式設計(45分)
1、由a-z、0-9組成3位的字元密碼,設計一個算法,列出并列印所有可能的密碼組合(可用僞代碼、C、C++、Java實作)(15分)
2、實作字元串反轉函數(15分)
3、百度鳳巢系統,廣告客戶購買一系列關鍵詞,資料結構如下:(15分)
User1 手機 智能手機 iphone 桌上型電腦 …
User2 手機 iphone 筆記本電腦 三星手機 …
User3 htc 平闆電腦 手機 …
(1)根據以上資料結構對關鍵詞進行KMeans聚類,請列出關鍵詞的向量表示、距離公式和KMeans算法的整體步驟
(2)計算給定關鍵詞與客戶關鍵詞的文字相關性,請列出關鍵詞與客戶的表達符号和計算公式
三、系統設計題(25分)
一維資料的拟合,給定資料集{xi,yi}(i=1,…,n),xi是訓練資料,yi是對應的預期值。拟使用線性、二次、高次等函數進行拟合
線性:f(x)=ax+b
二次:f(x)=ax^2+bx+c
三次:f(x)=ax^3+bx^2+cx+d
(1)請依次列出線性、二次、三次拟合的誤差函數表達式(2分)
(2)按照梯度下降法進行拟合,請給出具體的推導過程。(7分)
(3)下圖給出了線性、二次和七次拟合的效果圖。請說明進行資料拟合時,需要考慮哪些問題。在本例中,你選擇哪種拟合函數。(8分)
(4)給出實驗方案(8分)