天天看點

機器學習基礎知識-持續更新

雜談

  1. 對機器學習問題而言,資料和特征(包括擷取先驗知識所用到的資料和特征)決定了結果的上限,而模型、算法的選擇和優化則是在逐漸接近這個上限。
  2. 數值型特征歸一化
    • 為什麼需要進行特征歸一化?
      • 為了消除資料特征之間的量綱影響,使得不同名額處于同一數量級,具有可比性。
      • 特征歸一化後優化目标的等值圖會變為圓形,不同名額上的更新速度更為一緻,容易通過梯度下降找到最優解。
    • 特征歸一化的方b法:
      • 線性函數歸一化(min-max scaling)

        \[\frac{x-x_{min}}{x_{min}-x_{max}} \]

      • 零均值歸一化(z-score normalization)

        \[\frac{x-\mu}{\sigma} \]

    • 什麼時候會用到特征歸一化?
      • 通過梯度下降算法所求解的模型,如線性回歸、邏輯回歸、支援向量機、神經網絡。
      • 決策樹并不适用、因為決策樹進行節點分裂時主要依據資料集對于特征的資訊增益比,與歸一化無關。
  3. 類别型特征
    • 類别性特征的分類:
      • 序号編碼(ordinal encoding):用于處理類别間具有大小關系的資料(例如成績),轉換後保留了大小關系。
      • 獨熱編碼(one-hot encoding):用于處理類别間不具有大小關系的資料(例如軸承故障類别)
      • 二進制編碼(binary encoding):賦予類别ID,将對應ID的二進制編碼作為結果。(本質是用二進制對ID進行哈希映射,最終得到0/1特征向量,且維數少于獨熱編碼,節省存儲空間)
      • Helmert Contrast, Sum Contrast, Polynomial Contrast, Backward Difference Contrast ...
  4. 組合特征
    • 什麼是組合特征?
      • 為了提高複雜關系的拟合能力,特征工程經常會将低階離散特征組合,構成進階組合特征。
      • 如果要組合的低階特征次元過高,造成高階特征次元過高,可以先對低階特征進行降維。
    • 如何有效的找到組合特征?
      • 決策樹,并可以采用梯度提升決策樹有效地建構決策樹,該方法的思想是每次都在之前建構的決策樹的殘差上建構下一棵決策樹。
  5. 文本表示模型
    • 文本表示模型有哪些?
      • 詞袋模型(Bag of Words):将整段文本以詞為機關切分開,那麼文本可以表示為一個長向量,向量中的每一維代表一個單詞,該維對應的權重反映了詞在文章中的重要程度。常用TF-IDF計算權重,

        \[TF-IDF(t,d)=TF(t,d) \times IDF(t) \]

        其中TF(t,d)為單詞t在文檔d中出現的頻率,IDF(t)為逆文檔頻率,用來衡量單詞t對表達語義所起的重要性

        \[IDF(t)=log \frac {文章總數}{包含t的文章總數+1} \]

      • N-gram:單詞拆分後的含義與組合起來的含義可能差别很大,可以将連續出現的n個詞組成的詞組(N-gram)作為一個單獨的特征放到向量表示中,構成N-gram模型。
      • 詞幹抽取(Word Stemming):同一詞會有多種詞性變化,卻有相似的含義,可将不同詞性的單詞統一成為同一詞幹的形式。
      • 主題模型(Topic Model):從文本庫中發現有代表性的主題(得到每個主題上的詞分布特性),并能夠計算出每篇文章的主題分布。
      • 詞嵌入模型(Word Embedding):詞嵌入是一類将詞向量化的模型的統稱,核心思想是将每個詞映射為低維空間(50~300維)上的一個稠密向量(Dense Vector),空間中的每一維可以看作一個隐含的主題。
      • Word2Vec:一種常用的詞嵌入模型,一種淺層的神經網絡結構,由CBOW(Continues Bags of Words)和Skip-gram兩部分組成。CBOW根據上下文出現的詞語預測目前詞的出現機率,skip-gram根據目前詞預測上下文詞的生成機率。
      • 隐迪利克雷模型(LDA)
  6. 圖像不足時的處理方法
    • 一個模型所能提供的資訊一般來源于兩個方面:一是訓練資料中蘊含的資訊;二是在模型的形成過程中(包括構造、學習、推理),人們提供的先驗特征。訓練資料不足,意味着從原始資料中擷取的資訊比較少,這種情況下要保證模型的訓練效果,就需要更多的先驗特征。先驗特征可以作用在模型上,例如讓模型采用特定的内在結構、條件假設或添加其他一些限制條件;先驗資訊也可以直接施加在資料集上,即根據特定的先驗假設去調整、變換或擴充訓練資料,讓其展現出更多的、更有用的資訊,以利于後續模型的訓練和學習
    • 訓練資料的不足帶來的問題主要表現為過拟合(訓練集準确率高,測試集準确率低的泛化能力不足),相應的處理方法有兩類:
      • 基于模型:簡化模型、添加限制以縮小假設空間(L1\L2正則)、內建學習、Dropout
      • 基于資料:資料擴充(旋轉、平移、縮放、裁剪、填充、左右翻轉、添加噪聲、變換顔色、亮度、清晰度、對比度、銳度)
      • 特征空間變換:一些通用的資料擴充和上采樣技術,如SMOTE(Synthetic Minority Over-sample Technique)、gan
      • 遷移學習
  7. 評估方法
    • 階段劃分:離線評估、線上評估
    • 常用名額
      • 準确率(Accuracy):值分類正确的樣本占樣本個數的比例

        \[Accuracy= \frac {n_{correct}}{n_{total}} \]

        • 缺陷:當資料不均衡時,占比大的資料會成為影響準确率的最主要因素。(比如負樣本99%,所有樣本都預測為負樣本也可以獲得99%的準确率)
        • 解決方法:是用平均準确率(各類别下的樣本準确率的算術平均)
      • 精确率(Precision):分類正确的正樣本個數占分類器判定為正樣本的樣本個數的比例

        召回率(Recall):分類正确的正樣本個數占真正的正樣本個數的比例

        • 排序問題,常采用TopN傳回結果的 Precision 和 Recall 衡量排序模型的性能。
        • Precision 和 Recall
      • 均方根誤差(Root Mean Square Error, RMSE)

雜記

  • 高維特征所帶來的問題:
    • 在距離度量算法中(如K近鄰算法),高維空間中兩點之間的距離難以有效度量。
    • 在邏輯回歸模型中,參數數量會随着次元增加而增加,容易引起過拟合問題。
    • 通常隻有部分次元是對分類、預測有幫助的,應考慮特征選擇降低次元。
    • 對局部特征的提取
    • 減少了網絡中的待學習參數、提高了學習效率、并降低了過拟合風險。
    • 評估名額選擇不合理
    • 模型過拟合和欠拟合
    • 測試集和訓練集劃分不合理
    • 線下評估與線上測試的樣本分布存在差異

找準定位

繼續閱讀