以下是 Week 10 的上課心得整理:
重點整理
1. 深度學習概論
- 定義與歷史:
- 深度學習是一種基於人工神經網路的機器學習方法,透過表徵學習實現數據驅動的建模。
- 2012 年,AlexNet 贏得 ImageNet 比賽,引領深度學習的爆炸式發展。
- 發展里程碑:
- 2014 年:生成對抗網路(GAN)的誕生。
- 2017 年:Google 提出 Transformer 架構,成為語言模型的基石。
- 2020 年後:多模態模型(如 CLIP)迅速發展。
2. 深度前饋神經網路(Feedforward Neural Networks)
- 結構與特性:
- 僅包含前向連接,無回饋連接。
- 隱藏層通過非線性激活函數(如 ReLU)引入模型複雜性。
- 訓練過程:
- 使用損失函數(如均方誤差或交叉熵)量化預測誤差。
- 透過梯度下降法優化模型參數,並利用反向傳播算法計算梯度。
3. 激活函數與架構設計
- 常見激活函數:
- ReLU:高效計算且收斂速度快,但可能出現「死亡 ReLU」問題。
- GELU:在 Transformer 等深度模型中應用廣泛。
- 架構設計:
- 深層網路比寬網路更具抽象表徵能力,適合處理複雜問題。
- 淺層網路易於記憶訓練數據,但泛化能力較差。
4. 深度學習訓練挑戰
- 局部最小值問題:
- 損失函數的非凸性可能導致參數陷入局部最小值,但通常只要達到「足夠好」的參數集即可。
- 習率的選擇:
- 學習率過高可能導致模型不穩定,過低則收斂緩慢。
- 隨機梯度下降(SGD)與 mini-batch 方法提高了計算效率。
心得總結
本週課程提供了深度學習的基礎與深度前饋神經網路的詳細介紹,讓我理解了從結構設計到訓練過程的完整流程。特別是反向傳播的應用與激活函數的選擇,展示了這些技術如何支持模型學習複雜的數據模式。課堂案例也突出了深層結構的優勢以及處理局部最小值問題的實務策略。我認為,這些知識為後續探索更複雜的深度學習模型奠定了堅實的基礎,未來希望能結合實作,深化對架構設計與訓練優化的理解。
留言列表