以下是 Week 08 的上課心得整理:
重點整理
1. 維度縮減的重要性
- 意義:
- 在高維度數據中,維度縮減能加速學習模型的訓練,減少計算資源的使用。
- 解決「維度詛咒」問題,例如高維空間中的數據點大多集中於邊緣。
- 應用場景:
- 文本挖掘/自然語言處理
- 推薦系統
- 金融與風險管理
- 基因微陣列數據分析
2. 維度縮減的方法
- 主要分類:
- 線性方法:主成分分析(PCA)、奇異值分解(SVD)。
- 非線性方法:t-SNE、局部線性嵌入(LLE)、多維尺度分析(MDS)。
- PCA(主成分分析):
- 將高維數據投影到較低維空間,儘量保留數據的變異性。
- 透過協方差矩陣的特徵值與特徵向量確定主要成分。
- 在 MNIST 數據集上,使用 PCA 將特徵數從 784 降至 150 維,保留 90% 的變異。
- t-SNE:
- 使用概率分佈表示數據點的相似性,適合高維數據的可視化。
- 通過最小化 KL 散度來匹配高維與低維空間的分佈。
- SVD(奇異值分解):
- 分解數據矩陣,提取重要特徵。
- 常用於推薦系統中填補缺失的評分數據。
3. 優缺點分析
- 優點:
- 減少模型訓練時間,提高模型效能。
- 可視化高維數據的內部結構。
- 潛在風險:
- 可能破壞原始數據特徵的直觀解釋。
- 非線性方法計算成本較高。
心得總結
這週課程讓我對維度縮減技術的概念和實際應用有了更深的認識,特別是主成分分析(PCA)在數據壓縮與降噪中的應用令人印象深刻。同時,t-SNE 和 SVD 在高維數據可視化和推薦系統中的實例,展示了這些方法的靈活性與強大功能。我認為,這些技術不僅在大數據分析中不可或缺,還能為模型建構提供新的視角。未來,我希望通過實作這些方法,進一步探索其在不同領域中的應用潛力。
留言列表