⑴ 提升樹和梯度提升樹
提升樹和梯度提升樹(GBDT)是兩種基於決策樹的集成學習方法,它們通過迭代優化來構建更強大的預測模型。提升樹的基本理念是每輪迭代生成一個弱分類器,其殘差作為下一輪訓練的基礎。GBDT在此基礎上引入了更靈活的損失函數,通過負梯度來求解殘差。
以回歸問題為例,給定目標值30,通過多棵樹的預測結果相加(20+6+3+1=30)形成最終預測。決策樹加法模型可以表示為:[公式],其中[公式]表示決策樹參數,M為樹的數量或迭代次數。
GBDT在特徵選擇上,如CART樹,通過平方誤差准則選擇最佳特徵和切分點。在擬合殘差時,以均方誤差為例,通過計算當前預測值與真實標簽的差值,確定下一輪訓練的樣本。對於分類問題,如決策樹生成的標簽,損失函數通常用交叉熵,負梯度則對應於殘差的擬合。
在多分類問題中,GBDT針對每個類訓練一顆樹,樣本的分類結果用三維向量表示,比如樣本屬於第二類,對應的向量為[0,1,0]。每輪迭代時,不僅針對樣本的類別,還會針對所有類別進行訓練。
這些方法背後的原理和實現細節可以在《統計學習方法》等資料中找到更深入的理解,例如參考鏈接:[統計學習方法](cnblogs.com/bnuvincent/...) 和 [簡書文章](jianshu.com/p/405f233ed...)。