天天看點

政策産品經理:模型訓練常知的六種算法

作者:人人都是産品經理
政策産品經理需要了解一定的算法邏輯,以便推進工作。這篇文章裡,作者介紹了六種常見算法,并探讨了産品設計模型算法的選擇,一起來看。
政策産品經理:模型訓練常知的六種算法

一、工業界常用算法

作為與算法同學對接的政策産品經理,我們必須對算法同學常用的算法邏輯有所了解,以下我将介紹相關的底層算法邏輯,以及它們所适用的任務類型。

1. 邏輯回歸(logistics regression,LR)

  • 模型訓練類别:監督學習算法。
  • 适用問題任務:分類。
  • 算法特色:複雜度低,可解釋性強,線上效果好。

函數公式:

政策産品經理:模型訓練常知的六種算法

y表示模型預估值,取值範圍[0,1],x表示輸入模型的特征值,可以了解為最終使用的一系列特征對應的具體數值;T表示矩陣的轉置,無實際數值意義;w表示模型為每一個特征訓練出的對應參數。以CTR預估模型為例,邏輯回歸模型輸出的預測值代表的業務意義是使用者對物料的興趣度。

另外,雖然線性回歸(linear regression)與邏輯回歸簡稱均為LR,但是線性解決回歸問題,邏輯解決分類問題,邏輯回歸模型包含線性回歸模型,便是線性回歸模型。

2. K近鄰算法(K-nearest neighbor,KNN)

  • 模型訓練類别:監督學習算法。
  • 适用問題任務:分類、回歸。
  • K的取值是關鍵因素,需要用交叉驗證法(測試集+訓練集)驗證。
  • 注:使用KNN算法的思想是每一位政策産品經理都需要了解的。

分類任務:

1.計算待分類點(黑叉)與其他已知類别點的距離。

政策産品經理:模型訓練常知的六種算法

2.按距離正排,占比最好的類别即為待分類點的類别,計算方法有①歐式距離、②曼哈頓距離。

政策産品經理:模型訓練常知的六種算法

回歸任務:

整體思路與分類任務一緻,預測點的值等于離預測點最近K個點的平均值。

總結:

KNN算法沒有模型訓練緩解,而是直接應用,是以KNN算法在訓練環節的時間複雜度為0,但是在應用環節,随着樣本量陡增、複雜度的增加,在對于效率要求極高的場景下無法使用KNN算法。

3. 貝葉斯模型(Bayes Model)

  • 模型訓練類别:監督學習算法。
  • 适用問題任務:分類。
  • 模型方向:“逆機率”問題,用于郵件分類,天氣預測。

函數公式:

政策産品經理:模型訓練常知的六種算法

4. K聚類算法(K-Means)

  • 模型訓練類别:無監督學習算法。
  • 适用問題任務:聚類。
  • K-Means沒有模型訓練環節,利用啟發式疊代,K值的選擇由業務場景确定,如無需求,可試數。

步驟:

  1. 将所有樣本分成幾個簇,即設定K值。
  2. 模型重新計算新簇質心,再次歸類。
  3. 不斷重複、優化。

5. 決策樹(decision tree)

  • 模型訓練類别:監督學習算法。
  • 适用問題任務:分類、回歸。
  • 核心思想:根據有區分性的變量查分資料集。

基本架構要素:

1.根節點:包含所有原始樣本資料,會被進一步分割成多個子集合。

2.決策節點和葉子節點:葉子節點“不再被分割”,但可以分,決策節點根據特征繼續分割。

3.父節點與子節點:被分割成子節點的節點被稱為子節點的父節點。

決策樹種類: ①分類樹 ②回歸樹

決策樹效果評估:選擇哪些特征組合建構效果最好呢?

  • 分類樹:基尼不純度評估,不純度越低,效果越好。
  • 回歸樹:方差名額評估,方差越小模型拟合效果越好。

決策樹關鍵參數:

  • 節點拆分包含的最小樣本數:過大欠拟合,過小過拟合,需要交叉驗證來調參。
  • 葉子節點包含的最小樣本數:防葉子節點太多,對于正負樣本不均的情況可以分小。
  • 決策樹最大深度:交叉驗證解決。
  • 總體葉子節點數量控制。
  • 整體分裂中使用最多的特征數:根據模組化經驗,開根号的特征數為最佳特征數。

6. 深度神經網絡(deep neutral network)

網上有很多資料介紹,可以自己找一下。

簡單介紹,深度學習中的“深度”指的是其hidden layer,在輸出層和輸入層中,隐藏層越多深度越大。深度學習與正常神經網絡算法的差別主要展現在訓練資料、訓練方式、層數方面。

目前在産品策劃領域,深度學習可以解決安防領域、零售行業的視覺識别問題,也有如ChatGPT等的自然語音識别、語言處理等應用,實體企業如智能駕駛中的地位正在提升,其最早被應用與搜光腿的算法模型中。

二、産品設計模型算法的選擇

對于同種業務場景可能使用多種算法,然而作為産品經理,我們需要重點考核模型的兩大要點:模型預測的準确性和模型的可解釋性。

對于金融風控等受到強監管的場景,我們更偏向于使用具有可解釋性的模型,而對于搜廣推等産品體驗場景,我們更看重産品的使用效果,以下是各類算法的使用效益分布圖:

政策産品經理:模型訓練常知的六種算法

本文由 @産品研習中 原創釋出于人人都是産品經理。未經作者許可,禁止轉載

題圖來自Unsplash,基于CC0協定

該文觀點僅代表作者本人,人人都是産品經理平台僅提供資訊存儲空間服務。

繼續閱讀