資料進行模組化：算法的選擇算法目标導向分類（Classification）和預測（Prediction）的了解，主要步驟有哪些，以及兩者的差別和聯系

2023-02-23 23:54:45

目标導向

機器學習

1.先看是分類問題還是回歸問題（分類就先從常用的分類模型裡選擇）

2.其次，看資料特征的資料類型，然後做一些初步的資料統計，比如是否資料均衡，大緻的資料分布是怎樣的（不同類别的分布）

3.然後判斷用哪個比較合适一些，是樹模型還是其他的分類模型。

4.最後檢視kaggle比賽有沒有相似案例，别人做的方法有沒有值得自己學習的地方

深度學習

對于深度學習算法選擇也是看任務目标選擇合适的模型，圖像類首選cnn及各種cnn的變種，時間順序相關的選rnn ，生成類的選vae或gan，有明确規則的選rl。

分類（Classification）和預測（Prediction）的了解，主要步驟有哪些，以及兩者的差別和聯系

一、介紹

分類：輸入樣本資料，輸出對應的類别，将樣本中每個資料對應一個已知屬性。

預測：兩種或者兩種以上的變量之間互相依賴的函數模型，預測給定自變量對應的因變量的值。

二、步驟

分類算法分為兩步：

(1)學習步：通過訓練樣本資料集，建立分類規則

(2)分類步：用已知的測試樣本集評估分類規則的準确率，若準确率可接受，則是使用該規則對除樣本以外的資料(待測樣本集)進行預測。

預測算法分兩步：

（1）我們先要基于一定數量的樣本來訓練出一個訓練模型；

（2）為了判斷這個模型訓練的如何，我們還要對其進行檢測一下；

（3）如果測試的樣本資料與我們想象中的差别太大，那麼我們就要重新進行訓練這個預測模型，但是如果我們的預測模型符合我們的預先的期望，那麼我們就可以用這個模型進行預測的操作.

三、差別

特征

1.分類

2.回歸預測

輸出類型

1.離散資料

2.連續資料

目的

1.尋找決策邊界

2.找到最優拟合線

評價方法

1.精度、混淆矩陣

2.SEE(sum of square errors)或拟合優度

四、聯系

分類算法可以預測連續值，但是連續值是以類标簽的機率的形式。

預測算法可以預測離散值，但離散值以整數形式表示。

原文連結：https://blog.csdn.net/Datawhale/article/details/88316122

算法資料模組化 Py Python 人工智能機器學習深度學習

上一篇: Java基礎知識之設計模式--單例模式

下一篇: java線程池及建立多少線程合适

繼續閱讀