以下是 Week 13 的上課心得整理:
重點整理
1. 循環神經網路(Recurrent Neural Network, RNN)的基本概念
- 適用場景:
- 處理時序數據或序列相關的數據(例如:語言模型、時間序列預測)。
- 與回歸或分類不同,數據間的順序對結果有重要影響。
- RNN 的特性:
- 能夠記住過去的信息並應用於當前輸出。
- 通過 Back Propagation Through Time(BPTT)進行梯度更新,但可能面臨梯度消失或爆炸問題。
2. 增強型 RNN
- LSTM(長短期記憶網路):
- 引入記憶單元(Cell State),能夠長期保留或忘記信息。
- 由三個門組成:
- 忘記門(Forget Gate):選擇需丟棄的過去信息。
- 輸入門(Input Gate):決定新的信息進入多少。
- 輸出門(Output Gate):控制輸出的內容。
- GRU(門控循環單元):
- 簡化版的 LSTM,使用更新門(Update Gate)和重置門(Reset Gate)。
- 參數較少,收斂速度更快。
3. 語言模型與序列建模
- 語言模型的基本思想:
- 基於條件概率生成語言序列。
- 使用 n-gram 模型或深度學習方法來估算條件概率。
- 評估語言模型:
- 使用困惑度(Perplexity)作為指標,越低表示模型越好。
- 困惑度 k 相當於隨機選擇 k 個單詞的難度。
- 應用:
- 語言生成、機器翻譯、情感分析等。
4. Bidirectional RNN 與正規化方法
- 雙向 RNN:
- 同時考慮數據的前向與後向序列,適合需要整體語境的任務。
- 正規化方法:
- Dropout:防止過擬合。
- Variational Dropout:在序列建模中應用更穩定的 Dropout。
心得總結
這週課程對 RNN 的核心概念與實踐應用進行了深入講解,特別是 LSTM 和 GRU 的結構設計與應用場景分析。課堂內容讓我理解到這些增強型 RNN 如何克服基本 RNN 的局限性,如梯度消失問題。此外,困惑度的引入提供了一種直觀的方法來評估語言模型的效能。我認為,RNN 技術在處理序列數據方面具有極大潛力,特別是在自然語言處理和時間序列分析等領域。未來,我希望能通過實作進一步探索這些模型在不同場景中的性能表現。
留言列表