以下是 Week 13 的上課心得整理:

 

重點整理

1. 循環神經網路(Recurrent Neural Network, RNN)的基本概念

- 適用場景:

- 處理時序數據或序列相關的數據(例如:語言模型、時間序列預測)。

- 與回歸或分類不同,數據間的順序對結果有重要影響。

- RNN 的特性:

- 能夠記住過去的信息並應用於當前輸出。

- 通過 Back Propagation Through Time(BPTT)進行梯度更新,但可能面臨梯度消失或爆炸問題。

 

2. 增強型 RNN

- LSTM(長短期記憶網路):

- 引入記憶單元(Cell State),能夠長期保留或忘記信息。

- 由三個門組成:

- 忘記門(Forget Gate):選擇需丟棄的過去信息。

- 輸入門(Input Gate):決定新的信息進入多少。

- 輸出門(Output Gate):控制輸出的內容。

- GRU(門控循環單元):

- 簡化版的 LSTM,使用更新門(Update Gate)和重置門(Reset Gate)。

- 參數較少,收斂速度更快。

 

3. 語言模型與序列建模

- 語言模型的基本思想:

- 基於條件概率生成語言序列。

- 使用 n-gram 模型或深度學習方法來估算條件概率。

- 評估語言模型:

- 使用困惑度(Perplexity)作為指標,越低表示模型越好。

- 困惑度 k 相當於隨機選擇 k  個單詞的難度。

- 應用:

- 語言生成、機器翻譯、情感分析等。

 

4. Bidirectional RNN 與正規化方法

- 雙向 RNN:

- 同時考慮數據的前向與後向序列,適合需要整體語境的任務。

- 正規化方法:

- Dropout:防止過擬合。

- Variational Dropout:在序列建模中應用更穩定的 Dropout。

 

心得總結

這週課程對 RNN 的核心概念與實踐應用進行了深入講解,特別是 LSTM 和 GRU 的結構設計與應用場景分析。課堂內容讓我理解到這些增強型 RNN 如何克服基本 RNN 的局限性,如梯度消失問題。此外,困惑度的引入提供了一種直觀的方法來評估語言模型的效能。我認為,RNN 技術在處理序列數據方面具有極大潛力,特別是在自然語言處理和時間序列分析等領域。未來,我希望能通過實作進一步探索這些模型在不同場景中的性能表現。


arrow
arrow
    全站熱搜
    創作者介紹
    創作者 戰昇 的頭像
    戰昇

    戰昇的部落格

    戰昇 發表在 痞客邦 留言(0) 人氣()