摘要 這些是在19年秋招面試的過程中,看面經以及自己經曆後總結的算法面試的題目。
統計學習方法部分:
- 推導LR
- 畫LSTM的圖、畫CNN的圖
- 介紹CNN
- 過拟合得解決方法
- 方差偏差分解的公式
- 一道貝葉斯公式的機率題
- 邏輯回歸和svm。
- 說說邏輯回歸怎麼實作多分類
- svm裡什麼時候用線性核和高斯核吧,比如樣本數很多時,用哪種核?
- 決策樹中資訊增益的公式、解釋資訊增益代表什麼意思,包括在哪些情況下資訊增益中的H最大等問題;
- 随機森林整個相關的基礎内容,比如決策樹,随機森林是過拟合還是欠拟合等
- 最熟悉的機器學習算法
- ROC曲線是什麼,曲線的實體意義是什麼?AOC越高,展現什麼?
- ReLu出現死節點的問題如何解決?
- 最小二乘與極大似然函數的關系?從機率統計的角度處理線性回歸并在似然機率為高斯函數的假設下同最小二乘建立了聯系
- LR為啥是個線性模型?本質就是線性的,隻是特征到結果映射用的是sigmoid函數,或者說回歸邊界是線性的,即P(Y=1|x)=P(Y=0|x)時有W*x=0
- Hadoop中MR是怎麼實作聯表查詢的?
- 分類的評價标準,準确度,AUC,召回率等等
- 有的邏輯回歸損失函數中為啥要加-1*m
- 欠拟合的解決方法?模型簡單,加深神經網絡,svm用核函數等等
- L2正則的本質?限制解空間範圍,縮小解空間,控制模型複雜度
- SVM引入核函數本質?提高次元,增加模型複雜度
- 介紹xgboost、gbdt、rf(随機森林)的差別
- 樹模型的特征選擇中除了資訊增益、資訊增益比、基尼指數這三個外,還有哪些?
- Sklearn中樹模型輸出的特征重要程度是本身的還是百分比?
- 介紹下SVM以及它的核函數
- 熟悉FM算法不?
- RF與xgboost的差別?怎樣選取的特征?如何判斷這些特征的重要程度?最後RF的層數和深度是多少?
- 還用了深層神經網絡?幾層?用GPU沒?特征次元到底多少?伺服器配置?啥?你能把全部資料放進記憶體?
- 介紹LR,為啥用的是似然函數不用最小二乘?當用lr時,特征中的某些值很大,意味着這個特征重要程度很高?對嗎?不對,用lr時需要對特征進行離散化。。。
- L1和L2正則的差別?
- 樹模型中,特征選擇方法有哪些?ID3和C4.5分裂後,節點的資訊熵是變大還是變小?
- RF和gbdt的差別
- 介紹下深度學習,CNN中的卷積和池化
- Hadoop中shuffle過程
- XGBoost與RF的差別
- RF的随機性展現在哪裡?它的代碼中輸出的特征重要程度是怎麼進行計算的?
- 實習項目中的評價标準是什麼?accuracy和precision、recall這些一樣嗎?AUC的解釋
- 了解哪些損失函數?差別是啥?
- 線性模型為何用的最小二乘作為損失函數而不用似然函數或者交叉熵?
- 了解哪些深度學習模型?keras底層用TensorFlow和theano時,代碼有何不同?TensorFlow原理、流程圖,session是啥?
- LR與SVM的差別
- GBDT與XGBoost的差別?
- RF和GBDT的差別?二者的優化目标是什麼?
- 了解FM嗎?GBDT的資料在使用前有什麼需要注意的嗎
- 做過廣告點選率預估沒?LR+GBDT和GBDT+FM怎麼結合的知道不?
- RF與GBDT的差別?為啥你要用內建的方法而不用準确度更高的算法模型?
- 為啥LR的輸入特征一般是離散的而不是連續的?
- 了解各種優化算法不?梯度下降和随機梯度下降的差別?牛頓法和拟牛頓法的差別?為啥提出拟牛頓?因為牛頓法涉及海塞矩陣,它的逆矩陣求解很麻煩
- KNN的使用場景
- 從數學角度和你的個人了解完整推導和講解LR
- 解釋rf,xgboost,gbdt的差別
- 資料的特征怎麼處理的?用了哪些算法模型?
- faster-rcnn:rcnn到fast-rcnn再到faster-rcnn的改進是什麼?faster-rcnn如何自動選擇負樣本?faster-rcnn采用的是什麼函數?
- 完整解釋CNN的流程,分别解釋每一層的作用
- 卷積神經網絡與傳統神經網絡相比優點是什麼?
- tesseract-octer4.0的原理是什麼,LSTM在這裡面如何進行運用的。
- 模型訓練後進行存儲,應該存儲哪些參數?
- 宏平均與微平均如何計算的?
-
一般二分類問題的評價名額是什麼?
Ans: precision、recall、F1 score、PR曲線
- 常見的核函數有哪些
- 如何解決線性不可分的情況
- libsvm
- DNN,交叉熵,sigmoid,CNN,卷積,池化,對數似然,ReLu
- 有哪些防止過拟合的方法?