以下是 Week 03 的上課心得整理

 

重點整理

1. 正規化方法與線性迴歸

- 過度擬合的挑戰:特徵過多或樣本量不足時,模型可能在訓練資料上表現良好,但對測試資料預測效果差。

- 正規化技術:

- Ridge Regression(L2 正則化):抑制模型參數過大,避免過度擬合。

- Lasso Regression(L1 正則化):促進稀疏解,使模型更容易解釋,適合特徵選擇。

- Elastic Net:結合 L1 和 L2 的正規化方式。

 

2. 偏差-變異數取捨

- 偏差(Bias):模型簡化假設帶來的誤差,通常與模型過於簡單有關。

- 變異數(Variance):模型對訓練數據過度擬合的程度,通常與模型過於複雜有關。

- 取捨關鍵:

- 適當正規化可以降低變異數但會增加偏差,需找到最佳平衡點。

- 課堂案例中,正規化參數 lambda  的大小對偏差與變異數的影響顯而易見。

 

3. 模型比較與案例分析

- 線性迴歸 vs. 正規化模型:

- Ridge 和 Lasso 在樣本數較少時通常比普通線性迴歸效果更佳。

- KNN 與正規化模型比較:

- KNN 在大規模數據集上有潛力表現更好,但計算成本高。

- KNN 的性能可透過加權特徵進一步提升。

- 實例研究:使用 Million Song Dataset 比較不同模型的預測表現,顯示 KNN 隨著數據集規模增長能持續改善,但計算效率遠低於線性迴歸。

 

 

 

心得總結

本週課程著重於模型正規化和偏差-變異數取捨的重要性,讓我理解在模型建構中如何避免過度擬合與欠擬合的平衡策略。課堂實例特別強調了 Ridge 和 Lasso 的實際應用,使我更能體會這些方法在處理現實數據時的優勢和局限。尤其是正規化參數 lambda 的選擇與調整,展現了模型優化中的關鍵步驟。此外,KNN 的應用雖然計算成本高,但在大型數據集上的表現令人印象深刻。未來,我希望能將這些理論運用於實際資料分析中,嘗試不同模型以提升預測準確性。


arrow
arrow
    全站熱搜
    創作者介紹
    創作者 戰昇 的頭像
    戰昇

    戰昇的部落格

    戰昇 發表在 痞客邦 留言(0) 人氣()