天天看點

資料進行模組化:算法的選擇算法目标導向分類(Classification)和預測(Prediction)的了解,主要步驟有哪些,以及兩者的差別和聯系

目标導向

機器學習

1.先看是分類問題還是回歸問題(分類就先從常用的分類模型裡選擇)

2.其次,看資料特征的資料類型,然後做一些初步的資料統計,比如是否資料均衡,大緻的資料分布是怎樣的(不同類别的分布)

3.然後判斷用哪個比較合适一些,是樹模型還是其他的分類模型。

4.最後檢視kaggle比賽有沒有相似案例,别人做的方法有沒有值得自己學習的地方

深度學習

對于深度學習算法選擇也是看任務目标選擇合适的模型,圖像類首選cnn及各種cnn的變種,時間順序相關的選rnn ,生成類的選vae或gan,有明确規則的選rl。

分類(Classification)和預測(Prediction)的了解,主要步驟有哪些,以及兩者的差別和聯系

一、介紹

分類:輸入樣本資料,輸出對應的類别,将樣本中每個資料對應一個已知屬性。

預測:兩種或者兩種以上的變量之間互相依賴的函數模型,預測給定自變量對應的因變量的值。

二、步驟

分類算法分為兩步:

(1)學習步:通過訓練樣本資料集,建立分類規則

(2)分類步:用已知的測試樣本集評估分類規則的準确率,若準确率可接受,則是使用該規則對除樣本以外的資料(待測樣本集)進行預測。

預測算法分兩步:

(1)我們先要基于一定數量的樣本來訓練出一個訓練模型;

(2)為了判斷這個模型訓練的如何,我們還要對其進行檢測一下;

(3)如果測試的樣本資料與我們想象中的差别太大,那麼我們就要重新進行訓練這個預測模型,但是如果我們的預測模型符合我們的預先的期望,那麼我們就可以用這個模型進行預測的操作.

三、差別

特征

1.分類

2.回歸預測

輸出類型

1.離散資料

2.連續資料

目的

1.尋找決策邊界

2.找到最優拟合線

評價方法

1.精度、混淆矩陣

2.SEE(sum of square errors)或拟合優度

四、聯系

分類算法可以預測連續值,但是連續值是以類标簽的機率的形式。

預測算法可以預測離散值,但離散值以整數形式表示。

原文連結:https://blog.csdn.net/Datawhale/article/details/88316122