內建學習（ensemble learning）應如何入門？

作者：哥廷根數學學派 2023-06-27 09:55:00

內建學習算法之間的主要差別在于以下3個方面: 提供給個體學習器的訓練資料不同; 産生個體學習器的過程不同; 學習結果的組合方式不同，從這三個方面去學。

多樣性

資料樣本多樣性：産生資料多樣性的方法主要有3種: 輸入樣本擾動; 輸入屬性擾動; 輸出表示擾動。

算法參數多樣性

算法參數多樣性是指通過使用不同的參數集來産生不同的個體學習器。即使每個個體學習器都使用相同的訓練集，但是由于使用的參數不同，其輸出也會随參數的改變而變化。

結構多樣性

結構多樣性主要是由個體學習器的内部結構或外部結構的不同所産生的。在一個內建學習系統中，如果個體學習器都是由同種算法訓練産生的，則稱之為同質內建。相反的，如果一個內建系統中包含着不同類型的個體學習器，則稱之為異質內建。

基學習器訓練方法

随着內建學習研究領域的不斷發展，雖然不斷提出新的內建學習算法，但是這些算法大都是由一些經典算法如: Bagging、Boosting、Stacking等改進得到的。

Bagging

Boosting

Stacking

基學習器的組合政策

建構內建學習系統的最後一步就是選擇個體學習器的組合政策。內建學習系統可以根據個體學習器的表現來決定是否使用該學習器。

投票法，簡單投票法一般分為以下2種: 絕對多數投票和相對多數投票。

平均法，平均法是一種組合連續數值型輸出常用的方法，它主要分為簡單平均法和權重平均法。

已有內建學習算法還存在很多不足和局限性，例如，若想通過Bagging算法取得較好的內建效果，則需要基學習器同時具備高效的學習能力以及高度的資料敏感性。Boosting算法在訓練帶有噪聲的資料時容易産生過拟合問題。是以內建學習在很多方面還需進一步研究，後續的研究工作可以從以下幾個方面展開: ①內建學習結構優化: 針對內建學習系統的内部結構和外部結構進行研究，使內建學習系統的性能進一步提高。②內建學習模型選擇: 對內建學習系統中的模型進行選擇，将備援和對結果有負面影響的模型移除。③內建學習模型融合: 對于非監督算法，其輸出結果較為複雜，适用于監督式內建學習算法的模型融合政策無法使用。

相關的文章參考

幾種信号降噪算法（第一部分）

https://www.toutiao.com/article/7190201924820402721/

幾種信号降噪算法（第二部分）

https://www.toutiao.com/article/7190270349236683264/

機械故障診斷及工業工程故障診斷若幹例子（第一篇）

https://www.toutiao.com/article/7193957227231855163/

知乎咨詢:哥廷根數學學派

算法代碼位址，面包多首頁：mbd.pub/o/GeBENHAGEN

擅長現代信号處理(改進小波分析系列，改進變分模态分解，改進經驗小波變換，改進辛幾何模态分解等等)，改進機器學習，改進深度學習，機械故障診斷，改進時間序列分析(金融信号，心電信号，振動信号等)

內建學習（ensemble learning）應如何入門？

繼續閱讀

python學習（十六）——多态、封裝、反射、、動态導入子產品、類内置attr方法

機器學習內建學習進階Xgboost算法原理

內建學習 - Bagging

JavaScript常用數組操作方法filter() 對數組的每一項運作給定的函數，傳回函數會傳回true的項組成的數組

機器學習內建學習進階LightGBM算法和案例

Day1 task1思考題練習題

Applying Machine Learning to Sentiment Analysis

元學習（meta learning）：機器學習如何學習

《K12智能批改技術的實踐與探索》的整理總結--NLP自然語言處理峰會K12智能批改技術的實踐與探索

【模闆】Kruskal算法求最小生成樹1.Kruskal算法介紹2.模闆實作3.例題

【清澄OJ】枚舉字串

Effective C++學習筆記第六彈 35-41

SCU training contest 3 D、化學品問題 II

最常用的決策樹算法（二）Random Forest、Adaboost、GBDT 算法

AdaBoost數學原理

突破！雙一流大學，首篇Nature！