以下是 Week 08 的上課心得整理:

重點整理

1. 維度縮減的重要性

- 意義:

- 在高維度數據中,維度縮減能加速學習模型的訓練,減少計算資源的使用。

- 解決「維度詛咒」問題,例如高維空間中的數據點大多集中於邊緣。

- 應用場景:

- 文本挖掘/自然語言處理

- 推薦系統

- 金融與風險管理

- 基因微陣列數據分析

 

2. 維度縮減的方法

- 主要分類:

- 線性方法:主成分分析(PCA)、奇異值分解(SVD)。

- 非線性方法:t-SNE、局部線性嵌入(LLE)、多維尺度分析(MDS)。

- PCA(主成分分析):

- 將高維數據投影到較低維空間,儘量保留數據的變異性。

- 透過協方差矩陣的特徵值與特徵向量確定主要成分。

- 在 MNIST 數據集上,使用 PCA 將特徵數從 784 降至 150 維,保留 90% 的變異。

- t-SNE:

- 使用概率分佈表示數據點的相似性,適合高維數據的可視化。

- 通過最小化 KL 散度來匹配高維與低維空間的分佈。

- SVD(奇異值分解):

- 分解數據矩陣,提取重要特徵。

- 常用於推薦系統中填補缺失的評分數據。

3. 優缺點分析

- 優點:

- 減少模型訓練時間,提高模型效能。

- 可視化高維數據的內部結構。

- 潛在風險:

- 可能破壞原始數據特徵的直觀解釋。

- 非線性方法計算成本較高。

 

心得總結

這週課程讓我對維度縮減技術的概念和實際應用有了更深的認識,特別是主成分分析(PCA)在數據壓縮與降噪中的應用令人印象深刻。同時,t-SNE 和 SVD 在高維數據可視化和推薦系統中的實例,展示了這些方法的靈活性與強大功能。我認為,這些技術不僅在大數據分析中不可或缺,還能為模型建構提供新的視角。未來,我希望通過實作這些方法,進一步探索其在不同領域中的應用潛力。


arrow
arrow
    全站熱搜
    創作者介紹
    創作者 戰昇 的頭像
    戰昇

    戰昇的部落格

    戰昇 發表在 痞客邦 留言(0) 人氣()