以下是 Week 03 的上課心得整理
重點整理
1. 正規化方法與線性迴歸
- 過度擬合的挑戰:特徵過多或樣本量不足時,模型可能在訓練資料上表現良好,但對測試資料預測效果差。
- 正規化技術:
- Ridge Regression(L2 正則化):抑制模型參數過大,避免過度擬合。
- Lasso Regression(L1 正則化):促進稀疏解,使模型更容易解釋,適合特徵選擇。
- Elastic Net:結合 L1 和 L2 的正規化方式。
2. 偏差-變異數取捨
- 偏差(Bias):模型簡化假設帶來的誤差,通常與模型過於簡單有關。
- 變異數(Variance):模型對訓練數據過度擬合的程度,通常與模型過於複雜有關。
- 取捨關鍵:
- 適當正規化可以降低變異數但會增加偏差,需找到最佳平衡點。
- 課堂案例中,正規化參數 lambda 的大小對偏差與變異數的影響顯而易見。
3. 模型比較與案例分析
- 線性迴歸 vs. 正規化模型:
- Ridge 和 Lasso 在樣本數較少時通常比普通線性迴歸效果更佳。
- KNN 與正規化模型比較:
- KNN 在大規模數據集上有潛力表現更好,但計算成本高。
- KNN 的性能可透過加權特徵進一步提升。
- 實例研究:使用 Million Song Dataset 比較不同模型的預測表現,顯示 KNN 隨著數據集規模增長能持續改善,但計算效率遠低於線性迴歸。
心得總結
本週課程著重於模型正規化和偏差-變異數取捨的重要性,讓我理解在模型建構中如何避免過度擬合與欠擬合的平衡策略。課堂實例特別強調了 Ridge 和 Lasso 的實際應用,使我更能體會這些方法在處理現實數據時的優勢和局限。尤其是正規化參數 lambda 的選擇與調整,展現了模型優化中的關鍵步驟。此外,KNN 的應用雖然計算成本高,但在大型數據集上的表現令人印象深刻。未來,我希望能將這些理論運用於實際資料分析中,嘗試不同模型以提升預測準確性。
留言列表