想去機器學習初創公司做資料科學家？這裡有最常問的40道面試題

導讀

想去機器學習初創公司做資料科學家？這些問題值得你三思！

機器學習和資料科學被看作是下一次工業革命的驅動器。這也意味着有許許多多令人激動的初創公司正在起步成長、尋找專業人士和資料科學家。它們可能是未來的特斯拉、谷歌。

對于有職業抱負的你來說，看好一家好的創業公司團隊後，如何能夠脫穎而出，進入一家靠譜的創業團隊呢？

想得到這樣的工作并不容易。首先你要強烈認同那個公司的理念、團隊和願景。同時你可能會遇到一些很難的技術問題。而這些問題則取決于公司的業務。他們是咨詢公司？他們是做機器學習産品的？在準備面試之前就要了解清楚這些方面的問題。

為了幫你為今後的面試做準備，我準備了40道面試時可能碰到的棘手問題。如果你能回答和了解這些問題，那麼放心吧，你能頑強抵抗住面試。

注意：要回答這些問題的關鍵是對機器學習和相關統計概念有具體的實際了解。

機器學習面試題

問1：給你一個有1000列和1百萬行的訓練資料集。這個資料集是基于分類問題的。經理要求你來降低該資料集的次元以減少模型計算時間。你的機器記憶體有限。你會怎麼做？（你可以自由做各種實際操作假設。）

答：你的面試官應該非常了解很難在有限的記憶體上處理高維的資料。以下是你可以使用的處理方法：

1.由于我們的ram很小，首先要關閉機器上正在運作的其他程式，包括網頁浏覽器，以確定大部分記憶體可以使用。 2.我們可以随機采樣資料集。這意味着，我們可以建立一個較小的資料集，比如有1000個變量和30萬行，然後做計算。 3.為了降低次元，我們可以把數值變量和分類變量分開，同時删掉相關聯的變量。對于數值變量，我們将使用相關性分析。對于分類變量，我們可以用卡方檢驗。 4.另外，我們還可以使用pca（主成分分析），并挑選可以解釋在資料集中有最大偏差的成分。 5.利用線上學習算法，如vowpalwabbit（在python中可用）是一個可能的選擇。 6.利用stochastic gradientdescent（随機梯度下降）法建立線性模型也很有幫助。 7.我們也可以用我們對業務的了解來估計各預測變量對響應變量的影響大小。但是，這是一個主觀的方法，如果沒有找出有用的預測變量可能會導緻資訊的顯著丢失。

注意：對于第4和第5點，請務必閱讀有關線上學習算法和随機梯度下降法的内容。這些是高階方法。

問2：在pca中有必要做旋轉變換嗎？如果有必要，為什麼？如果你沒有旋轉變換那些成分，會發生什麼情況？

答：是的，旋轉（正交）是必要的，因為它把由主成分捕獲的方差之間的差異最大化。這使得主成分更容易解釋。但是不要忘記我們做pca的目的是選擇更少的主成分（與特征變量個數相較而言），那些選上的主成分能夠解釋資料集中最大方差。通過做旋轉，各主成分的相對位置不發生變化，它隻能改變點的實際坐标。如果我們沒有旋轉主成分，pca的效果會減弱，那樣我們會不得不選擇更多個主成分來解釋資料集裡的方差。

注意：對pca（主成分分析）需要了解更多。

問3：給你一個資料集。這個資料集有缺失值，且這些缺失值分布在離中值有1個标準偏差的範圍内。百分之多少的資料不會受到影響？為什麼？

答：這個問題給了你足夠的提示來開始思考！由于資料分布在中位數附近，讓我們先假設這是一個正态分布。我們知道，在一個正态分布中，約有68％的資料位于跟平均數（或衆數、中位數）1個标準差範圍内的，那樣剩下的約32%的資料是不受影響的。是以，約有32%的資料将不受到缺失值的影響。

問4：給你一個癌症檢測的資料集。你已經建好了分類模型，取得了96％的精度。為什麼你還是不滿意你的模型性能？你可以做些什麼呢？

答：如果你分析過足夠多的資料集，你應該可以判斷出來癌症檢測結果是不平衡資料。在不平衡資料集中，精度不應該被用來作為衡量模型的标準，因為96％（按給定的）可能隻有正确預測多數分類，但我們感興趣是那些少數分類（4％），是那些被診斷出癌症的人。是以，為了評價模型的性能，應該用靈敏度（真陽性率），特異性（真陰性率），f值用來确定這個分類器的“聰明”程度。如果在那4%的資料上表現不好，我們可以采取以下步驟：

1.我們可以使用欠采樣、過采樣或smote讓資料平衡。 2.我們可以通過機率驗證和利用auc-roc曲線找到最佳閥值來調整預測閥值。 3.我們可以給分類配置設定權重，那樣較少的分類獲得較大的權重。 4.我們還可以使用異常檢測。

注意：要更多地了解不平衡分類

問5: 為什麼樸素貝葉斯如此“樸素”？

答：樸素貝葉斯太‘樸素’了，因為它假定所有的特征在資料集中的作用是同樣重要和獨立的。正如我們所知，這個假設在現實世界中是很不真實的。

問6：解釋樸素貝葉斯算法裡面的先驗機率、似然估計和邊際似然估計？

答：先驗機率就是因變量（二分法）在資料集中的比例。這是在你沒有任何進一步的資訊的時候，是對分類能做出的最接近的猜測。例如，在一個資料集中，因變量是二進制的（1和0）。例如，1（垃圾郵件）的比例為70％和0（非垃圾郵件）的為30％。是以，我們可以估算出任何新的電子郵件有70％的機率被歸類為垃圾郵件。似然估計是在其他一些變量的給定的情況下，一個觀測值被分類為1的機率。例如，“free”這個詞在以前的垃圾郵件使用的機率就是似然估計。邊際似然估計就是，“free”這個詞在任何消息中使用的機率。

問7：你正在一個時間序列資料集上工作。經理要求你建立一個高精度的模型。你開始用決策樹算法，因為你知道它在所有類型資料上的表現都不錯。後來，你嘗試了時間序列回歸模型，并得到了比決策樹模型更高的精度。這種情況會發生嗎？為什麼？

答：衆所周知，時間序列資料有線性關系。另一方面，決策樹算法是已知的檢測非線性互動最好的算法。為什麼決策樹沒能提供好的預測的原因是它不能像回歸模型一樣做到對線性關系的那麼好的映射。是以，我們知道了如果我們有一個滿足線性假設的資料集，一個線性回歸模型能提供強大的預測。

問8：給你配置設定了一個新的項目，是關于幫助食品配送公司節省更多的錢。問題是，公司的送餐隊伍沒辦法準時送餐。結果就是他們的客戶很不高興。最後為了使客戶高興，他們隻好以免餐費了事。哪個機器學習算法能拯救他們？

答：你的大腦裡可能已經開始閃現各種機器學習的算法。但是等等！這樣的提問方式隻是來測試你的機器學習基礎。這不是一個機器學習的問題，而是一個路徑優化問題。機器學習問題由三樣東西組成：

1.模式已經存在。 2.不能用數學方法解決（指數方程都不行）。 3.有相關的資料。

通過判斷以上三個因素來決定機器學習是不是個用來解決特定問題的工具。

問9：你意識到你的模型受到低偏差和高方差問題的困擾。應該使用哪種算法來解決問題呢？為什麼？

答：低偏差意味着模型的預測值接近實際值。換句話說，該模型有足夠的靈活性，以模仿訓練資料的分布。貌似很好，但是别忘了，一個靈活的模型沒有泛化能力。這意味着，當這個模型用在對一個未曾見過的資料集進行測試的時候，它會令人很失望。在這種情況下，我們可以使用bagging算法（如随機森林），以解決高方差問題。bagging算法把資料集分成重複随機取樣形成的子集。然後，這些樣本利用單個學習算法生成一組模型。接着，利用投票（分類）或平均（回歸）把模型預測結合在一起。另外，為了應對大方差，我們可以：

1.使用正則化技術，懲罰更高的模型系數，進而降低了模型的複雜性。 2.使用可變重要性圖表中的前n個特征。可以用于當一個算法在資料集中的所有變量裡很難尋找到有意義信号的時候。

問10：給你一個資料集。該資料集包含很多變量，你知道其中一些是高度相關的。經理要求你用pca。你會先去掉相關的變量嗎？為什麼？

答：你可能會說不，但是這有可能是不對的。丢棄相關變量會對pca有實質性的影響，因為有相關變量的存在，由特定成分解釋的方差被放大。例如：在一個資料集有3個變量，其中有2個是相關的。如果在該資料集上用pca，第一主成分的方差會是與其不相關變量的差異的兩倍。此外，加入相關的變量使pca錯誤地提高那些變量的重要性，這是有誤導性的。

問11：花了幾個小時後，現在你急于建一個高精度的模型。結果，你建了5 個gbm （gradient boosted models），想着boosting算法會顯示魔力。不幸的是，沒有一個模型比基準模型表現得更好。最後，你決定将這些模型結合到一起。盡管衆所周知，結合模型通常精度高，但你就很不幸運。你到底錯在哪裡？

答：據我們所知，組合的學習模型是基于合并弱的學習模型來創造一個強大的學習模型的想法。但是，隻有當各模型之間沒有相關性的時候組合起來後才比較強大。由于我們已經試了5個 gbm，但沒有提高精度，表明這些模型是相關的。具有相關性的模型的問題是，所有的模型提供相同的資訊。例如：如果模型1把user1122歸類為 1，模型2和模型3很有可能會做有同樣分類，即使它的實際值應該是0，是以，隻有弱相關的模型結合起來才會表現更好。

問12：knn和kmeans聚類（kmeans clustering）有什麼不同？

答：不要被它們的名字裡的“k”誤導。你應該知道，這兩種算法之間的根本差別是，kmeans本質上是無監督學習而knn是監督學習。kmeans是聚類算法。knn是分類（或回歸）算法。 kmean算法把一個資料集分割成簇，使得形成的簇是同構的，每個簇裡的點互相靠近。該算法試圖維持這些簇之間有足夠的可分離性。由于無監督的性質，這些簇沒有任何标簽。nn算法嘗試基于其k（可以是任何數目）個周圍鄰居來對未标記的觀察進行分類。它也被稱為懶惰學習法，因為它涉及最小的模型訓練。是以，它不用訓練資料對未看見的資料集進行泛化。

問13：真陽性率和召回有什麼關系？寫出方程式。

答：真陽性率=召回。是的，它們有相同的公式（tp / tp + fn）。

注意：要了解更多關于估值矩陣的知識。

問14：你建了一個多元回歸模型。你的模型r2為并不如你設想的好。為了改進，你去掉截距項，模型r的平方從0.3變為0.8。這是否可能？怎樣才能達到這個結果？

答：是的，這有可能。我們需要了解截距項在回歸模型裡的意義。截距項顯示模型預測沒有任何自變量，比如平均預測。公式r² = 1 – ∑(y – y´)²/∑(y – ymean)²中的y´是預測值。當有截距項時，r²值評估的是你的模型基于均值模型的表現。在沒有截距項（ymean）時，當分母很大時，該模型就沒有這樣的估值效果了，∑(y – y´)²/∑(y – ymean)²式的值會變得比實際的小，而r2會比實際值大。

問15：在分析了你的模型後，經理告訴你，你的模型有多重共線性。你會如何驗證他說的是真的？在不丢失任何資訊的情況下，你還能建立一個更好的模型嗎？

答：要檢查多重共線性，我們可以建立一個相關矩陣，用以識别和除去那些具有75％以上相關性（決定門檻值是主觀的）的變量。此外，我們可以計算vif（方差膨脹因子）來檢查多重共線性的存在。 vif值<= 4表明沒有多重共線性，而值> = 10意味着嚴重的多重共線性。此外，我們還可以用容差作為多重共線性的名額。但是，删除相關的變量可能會導緻資訊的丢失。為了留住這些變量，我們可以使用懲罰回歸模型，如ridge和lasso回歸。我們還可以在相關變量裡添加一些随機噪聲，使得變量變得彼此不同。但是，增加噪音可能會影響預測的準确度，是以應謹慎使用這種方法。

注意：多了解關于回歸的知識。

問16：什麼時候ridge回歸優于lasso回歸？

答：你可以引用islr的作者hastie和tibshirani的話，他們斷言在對少量變量有中等或大尺度的影響的時候用lasso回歸。在對多個變量隻有小或中等尺度影響的時候，使用ridge回歸。

從概念上講，我們可以說，lasso回歸（l1）同時做變量選擇和參數收縮，而ridge回歸隻做參數收縮，并最終在模型中包含所有的系數。在有相關變量時，ridge回歸可能是首選。此外，ridge回歸在用最小二乘估計有更高的偏差的情況下效果最好。是以，選擇合适的模型取決于我們的模型的目标。

注意：多了解關于ridge和lasso回歸的相關知識。

問17：全球平均溫度的上升導緻世界各地的海盜數量減少。這是否意味着海盜的數量減少引起氣候變化？

答：看完這個問題後，你應該知道這是一個“因果關系和相關性”的經典案例。我們不能斷定海盜的數量減少是引起氣候變化的原因，因為可能有其他因素（潛伏或混雜因素）影響了這一現象。全球平均溫度和海盜數量之間有可能有相關性，但基于這些資訊，我們不能說因為全球平均氣溫的上升而導緻了海盜的消失。

注意：多了解關于因果關系和相關性的知識。

問18：如何在一個資料集上選擇重要的變量？給出解釋。

答：以下是你可以使用的選擇變量的方法：

1.選擇重要的變量之前除去相關變量 2.用線性回歸然後基于p值選擇變量 3.使用前向選擇，後向選擇，逐漸選擇 4.使用随機森林和xgboost，然後畫出變量重要性圖 5.使用lasso回歸 6.測量可用的特征集的的資訊增益，并相應地選擇前n個特征量。

問19：協方差和相關性有什麼差別？

答：相關性是協方差的标準化格式。協方差本身很難做比較。例如：如果我們計算工資（$）和年齡（歲）的協方差，因為這兩個變量有不同的度量，是以我們會得到不能做比較的不同的協方差。為了解決這個問題，我們計算相關性來得到一個介于-1和1之間的值，就可以忽略它們各自不同的度量。

問20：是否有可能捕獲連續變量和分類變量之間的相關性？如果可以的話，怎樣做？

答：是的，我們可以用ancova（協方差分析）技術來捕獲連續型變量和分類變量之間的相關性。

問21：gradient boosting算法（gbm）和随機森林都是基于樹的算法，它們有什麼差別？

答：最根本的差別是，随機森林算法使用bagging技術做出預測。 gbm采用boosting技術做預測。在bagging技術中，資料集用随機采樣的方法被劃分成使n個樣本。然後，使用單一的學習算法，在所有樣本上模組化。接着利用投票或者求平均來組合所得到的預測。bagging是平行進行的。而boosting是在第一輪的預測之後，算法将分類出錯的預測加高權重，使得它們可以在後續一輪中得到校正。這種給予分類出錯的預測高權重的順序過程持續進行，一直到達到停止标準為止。随機森林通過減少方差（主要方式）提高模型的精度。生成樹之間是不相關的，以把方差的減少最大化。在另一方面，gbm提高了精度，同時減少了模型的偏差和方差。

注意：多了解關于基于樹的模組化知識。

問22：運作二進制分類樹算法很容易，但是你知道一個樹是如何做分割的嗎，即樹如何決定把哪些變量分到哪個根節點和後續節點上？

答：分類樹利用基尼系數與節點熵來做決定。簡而言之，樹算法找到最好的可能特征，它可以将資料集分成最純的可能子節點。樹算法找到可以把資料集分成最純淨的可能的子節點的特征量。基尼系數是，如果總體是完全純的，那麼我們從總體中随機選擇2個樣本，而這2個樣本肯定是同一類的而且它們是同類的機率也是1。我們可以用以下方法計算基尼系數：

1.利用成功和失敗的機率的平方和(p^2+q^2)計算子節點的基尼系數 2.利用該分割的節點的權重基尼分數計算基尼系數以分割

熵是衡量資訊不純的一個标準（二分類）：

這裡的p和q是分别在該節點成功和失敗的機率。當一個節點是均勻時熵為零。當2個類同時以50%對50%的機率出現在同一個節點上的時候，它是最大值。熵越低越好。

問23：你已經建了一個有10000棵樹的随機森林模型。在得到0.00的訓練誤差後，你非常高興。但是，驗證錯誤是34.23。到底是怎麼回事？你還沒有訓練好你的模型嗎？

答：該模型過度拟合。訓練誤差為0.00意味着分類器已在一定程度上模拟了訓練資料，這樣的分類器是不能用在未看見的資料上的。是以，當該分類器用于未看見的樣本上時，由于找不到已有的模式，就會傳回的預測有很高的錯誤率。在随機森林算法中，用了多于需求個數的樹時，這種情況會發生。是以，為了避免這些情況，我們要用交叉驗證來調整樹的數量。

問24：你有一個資料集，變量個數p大于觀察值個數n。為什麼用ols是一個不好的選擇？用什麼技術最好？為什麼？

答：在這樣的高維資料集中，我們不能用傳統的回歸技術，因為它們的假設往往不成立。當p>nn，我們不能計算唯一的最小二乘法系數估計，方差變成無窮大，是以ols無法在此使用的。為了應對這種情況，我們可以使用懲罰回歸方法，如lasso、lars、ridge，這些可以縮小系數以減少方差。準确地說，當最小二乘估計具有較高方差的時候，ridge回歸最有效。

其他方法還包括子集回歸、前向逐漸回歸。

問25：什麼是凸包？（提示：想一想svm）

答：當資料是線性可分的，凸包就表示兩個組資料點的外邊界。一旦凸包建立，我們得到的最大間隔超平面（mmh）作為兩個凸包之間的垂直平分線。 mmh是能夠最大限度地分開兩個組的線。

問26：我們知道，一位有效編碼會增加資料集的次元。但是，标簽編碼不會。為什麼？

答：對于這個問題不要太糾結。這隻是在問這兩者之間的差別。

用一位有效編碼編碼，資料集的次元（也即特征）增加是因為它為分類變量中存在的的每一級都建立了一個變量。例如：假設我們有一個變量“顔色”。這變量有3個層級，即紅色、藍色和綠色。對“顔色”變量進行一位有效編碼會生成含0和1值的color.red，color.blue和color.green 三個新變量。在标簽編碼中，分類變量的層級編碼為0和1，是以不生成新變量。标簽編碼主要是用于二進制變量。

問27：你會在時間序列資料集上使用什麼交叉驗證技術？是用k倍或loocv？

答：都不是。對于時間序列問題，k倍可能會很麻煩，因為第4年或第5年的一些模式有可能跟第3年的不同，而對資料集的重複采樣會将分離這些趨勢，我們可能最終是對過去幾年的驗證，這就不對了。相反，我們可以采用如下所示的5倍正向連結政策：

fold 1 : training [1], test [2] fold 2 : training [1 2], test [3] fold 3 : training [1 2 3], test [4] fold 4 : training [1 2 3 4], test [5] fold 5 : training [1 2 3 4 5], test [6]

1，2，3，4，5，6代表的是年份。

問28：給你一個缺失值多于30%的資料集？比方說，在50個變量中，有8個變量的缺失值都多于30%。你對此如何處理？

答：我們可以用下面的方法來處理：

1.把缺失值分成單獨的一類，這些缺失值說不定會包含一些趨勢資訊。 2.我們可以毫無顧忌地删除它們。 3.或者，我們可以用目标變量來檢查它們的分布，如果發現任何模式，我們将保留那些缺失值并給它們一個新的分類，同時删除其他缺失值。

問29：“買了這個的客戶，也買了......”亞馬遜的建議是哪種算法的結果？

答：這種推薦引擎的基本想法來自于協同過濾。

協同過濾算法考慮用于推薦項目的“使用者行為”。它們利用的是其他使用者的購買行為和針對商品的交易曆史記錄、評分、選擇和購買資訊。針對商品的其他使用者的行為和偏好用來推薦項目（商品）給新使用者。在這種情況下，項目（商品）的特征是未知的。

注意：了解更多關于推薦系統的知識。

問30：你怎麼了解第一類和第二類錯誤？

答：第一類錯誤是當原假設為真時，我們卻拒絕了它，也被稱為“假陽性”。第二類錯誤是當原假設為是假時，我們接受了它，也被稱為“假陰性”。在混淆矩陣裡，我們可以說，當我們把一個值歸為陽性（1）但其實它是陰性（0）時，發生第一類錯誤。而當我們把一個值歸為陰性（0）但其實它是陽性（1）時，發生了第二類錯誤。

問31：當你在解決一個分類問題時，出于驗證的目的，你已經将訓練集随機抽樣地分成訓練集和驗證集。你對你的模型能在未看見的資料上有好的表現非常有信心，因為你的驗證精度高。但是，在得到很差的精度後，你大失所望。什麼地方出了錯？

答：在做分類問題時，我們應該使用分層抽樣而不是随機抽樣。随機抽樣不考慮目标類别的比例。相反，分層抽樣有助于保持目标變量在所得分布樣本中的分布。

問32：你被要求基于r²、校正後的r²和容差對一個回歸模型做評估。你的标準會是什麼？

答：容差（1 / vif）是多重共線性的名額。它是一個預測變量中的方差的百分比名額，這個預測變量不能由其他預測變量來計算。容內插補點越大越好。相對于r²我們會用校正r²，因為隻要增加變量數量，不管預測精度是否提高，r²都會變大。但是，如果有一個附加變量提高了模型的精度，則校正r²會變大，否則保持不變。很難給校正r²一個标準門檻值，因為不同資料集會不同。例如：一個基因突變資料集可能會得到一個較低的校正r²但仍提供了相當不錯的預測，但相較于股票市場，較低的校正r²隻能說明模型不好。

問33：在k-means或knn，我們是用歐氏距離來計算最近的鄰居之間的距離。為什麼不用曼哈頓距離？

答：我們不用曼哈頓距離，因為它隻計算水準或垂直距離，有次元的限制。另一方面，歐式距離可用于任何空間的距離計算問題。因為，資料點可以存在于任何空間，歐氏距離是更可行的選擇。例如：想象一下國際象棋棋盤，象或車所做的移動是由曼哈頓距離計算的，因為它們是在各自的水準和垂直方向的運動。

問34：把我當成一個5歲的小孩來解釋機器學習。

答：很簡單。機器學習就像嬰兒學走路。每次他們摔倒，他們就學到（無知覺地）并且明白，他們的腿要伸直，而不能彎着。他們下一次再跌倒，摔疼了，摔哭了。但是，他們學會“不要用那種姿勢站着”。為了避免摔疼，他們更加努力嘗試。為了站穩，他們還扶着門或牆壁或者任何靠近他們的東西。這同樣也是一個機器如何在環境中學習和發展它的“直覺”的。

注意：這個面試問題隻是想考查你是否有深入淺出地講解複雜概念的能力。

問35：我知道校正r²或者f值來是用來評估線性回歸模型的。那用什麼來評估邏輯回歸模型？

答：我們可以使用下面的方法：

1.由于邏輯回歸是用來預測機率的，我們可以用auc-roc曲線以及混淆矩陣來确定其性能。 2.此外，在邏輯回歸中類似于校正r²的名額是aic。aic是對模型系數數量懲罰模型的拟合度量。是以，我們更偏愛有最小aic的模型。 3.空偏差指的是隻有截距項的模型預測的響應。數值越低，模型越好。殘餘偏差表示由添加自變量的模型預測的響應。數值越低，模型越好。

了解更多關于邏輯回歸的知識。

問36：考慮到機器學習有這麼多算法，給定一個資料集，你如何決定使用哪一個算法？

答：你應該說，機器學習算法的選擇完全取決于資料的類型。如果給定的一個資料集是線性的，線性回歸是最好的選擇。如果資料是圖像或者音頻，那麼神經網絡可以建構一個穩健的模型。如果該資料是非線性互相作用的的，可以用boosting或bagging算法。如果業務需求是要建構一個可以部署的模型，我們可以用回歸或決策樹模型（容易解釋和說明），而不是黑盒算法如svm，gbm等。總之，沒有一個一勞永逸的算法。我們必須有足夠的細心，去了解到底要用哪個算法。

問37：你認為把分類變量當成連續型變量會更得到一個更好的預測模型嗎？

回答：為了得到更好的預測，隻有在分類變量在本質上是有序的情況下才可以被當做連續型變量來處理。

問38：什麼時候正則化在機器學習中是有必要的？

答：當模型過度拟合或者欠拟合的時候，正則化是有必要的。這個技術引入了一個成本項，用于帶來目标函數的更多特征。是以，正則化是将許多變量的系數推向零，由此而降低成本項。這有助于降低模型的複雜度，使該模型可以在預測上（泛化）變得更好。

問39：你是怎麼了解偏差方差的平衡？

答：從數學的角度來看，任何模型出現的誤差可以分為三個部分。以下是這三個部分：

偏差誤差在量化平均水準之上預測值跟實際值相差多遠時有用。高偏差誤差意味着我們的模型表現不太好，因為沒有抓到重要的趨勢。而另一方面，方差量化了在同一個觀察上進行的預測是如何彼此不同的。高方差模型會過度拟合你的訓練集，而在訓練集以外的資料上表現很差。

問40：ols是用于線性回歸。最大似然是用于邏輯回歸。解釋以上描述。

答：ols和最大似然是使用各自的回歸方法來逼近未知參數（系數）值的方法。簡單地說，普通最小二乘法（ols）是線性回歸中使用的方法，它是在實際值和預測值相差最小的情況下而得到這個參數的估計。最大似然性有助于選擇使參數最可能産生觀測資料的可能性最大化的參數值。

結語

看完以上所有的問題，真正的價值在于你能了解它們而且你從中學到的知識可以用于了解其他相似的問題。如果你對這些問題有疑問，不要擔心，現在正是學習的時候而不要急于表現。現在你應該專注學習這些問題。這些問題旨在讓你廣泛了解機器學習初創公司提出的問題類型。我相信這些問題會讓你感到好奇而讓你去做更深入的主題研究。如果你正在這麼計劃，這是一個好兆頭。

原文釋出時間為：2016-12-19

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

想去機器學習初創公司做資料科學家？這裡有最常問的40道面試題

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希