以下是 Week 09 的上課心得整理:
重點整理
1. 決策樹基礎
- 基本概念:
- 決策樹是一種可用於回歸和分類的模型,透過分割特徵空間來進行預測。
- 特點是簡單易解釋,但單一決策樹的效能通常不如其他方法。
- 優點與缺點:
- 優點:直觀、可處理數值與類別資料。
- 缺點:容易過擬合,效能受限。
2. 決策樹的改進方法
- 剪枝(Pruning):
- 減少決策樹的深度,降低模型的複雜度,提升泛化能力。
- 袋裝法(Bagging):
- 利用多個子數據集生成多個模型,通過平均結果降低模型的方差。
- 特點:提升模型穩定性,適合高方差模型。
- 隨機森林(Random Forest):
- 改善袋裝法,加入隨機選擇部分特徵作為分裂依據,進一步減少模型的相關性。
- 常用於高維數據,對異常值和缺失值不敏感。
- 提升法(Boosting):
- 漸進式建立模型,每次迭代強化前一次錯誤分類的樣本。
- 代表算法包括 Adaboost 和 Gradient Boosting。
3. 核心技術與應用
- 提升模型效能:
- 隨機森林通過特徵隨機選擇降低樹之間的相關性。
- 提升法專注於難以分類的樣本,適合處理不均衡數據。
- 應用場景:
- 基因表達數據分析:使用隨機森林篩選關鍵基因,進行癌症預測。
- 推薦系統:通過梯度提升機提升個性化推薦精度。
心得總結
本週課程系統地介紹了樹基模型的多種改進技術,讓我深刻理解如何利用袋裝法、隨機森林與提升法應對單一決策樹的效能限制。這些方法強調了模型的穩定性與準確性之間的權衡,並展示了其在基因數據分析等領域的實際應用。我認為,結合這些方法進行實際數據建模能提升對複雜數據的處理能力。未來,我希望能在實作中進一步探索如何針對不同場景選擇最適合的技術組合。
留言列表