以下是 Week 02 上課心得整理:
重點整理
1. K 最近鄰法(KNN)迴歸
- 概念:透過找出與目標點最近的 k 個鄰居並計算其平均值進行預測。
- 特點:
- 不需要假設模型形式,適合非線性資料。
- 在高維資料中容易因噪音影響效能。
- **應用**:常用於資料量足夠且特徵維度較少的情境。
2. 線性迴歸
- 模型原理:假設變數之間存在線性關係,並透過資料估算模型參數。
- 優點:簡單易懂且計算效率高,特別適合處理線性關係的資料。
- 注意事項:特徵之間若高度相關,可能導致模型解釋能力下降。
3. 特徵工程
- 目的:提升模型預測效果。
- 方法:
- 使用虛擬變數(Dummy Variables)處理類別資料。
- 擴展非線性特徵,例如多項式特徵或基底函數。
- 對特徵進行標準化以增強數值穩定性。
- 案例應用:在房價預測中,加入環境特徵(如公園、學校距離)來提升模型準確性。
4. 模型比較
- 線性迴歸 vs. KNN:
- 資料呈線性關係時,線性迴歸更適合。
- 非線性資料中,KNN 在適當選擇鄰居數量後表現更佳。
心得總結
這週課程讓我深入了解 KNN 和線性迴歸兩種回歸方法的特性及應用場景,並體會到特徵工程對模型效能的重要性。KNN 的彈性和非參數特性在非線性情境中非常有用,但高維資料的挑戰也提醒我們需謹慎應對。而線性迴歸雖然簡單,但其高效和穩定性在適合的情境下仍然不可取代。未來,我希望能將這些方法結合實際數據,進一步理解它們的適用性與效能表現,為資料分析奠定更穩固的基礎。
全站熱搜
留言列表