以下是 Week 14 的上課心得整理:

 

重點整理

 

1. Transformers 的基本概念

- 背景與應用:

- Transformers 最初由 Vaswani 等人於 2017 年提出,主要用於機器翻譯,但其通用性使其被廣泛應用於自然語言處理(NLP)和計算機視覺等多領域。

- 相比 RNN,Transformers 的架構摒棄了遞歸和卷積,採用注意力機制,實現了更高效的平行運算,適合處理長序列數據。

- 關鍵組件:

- 注意力機制(Attention Mechanism):根據詞彙間的相關性分配權重。

- 多頭注意力(Multi-Head Attention):捕捉多樣化的語義信息。

- 位置編碼(Positional Encoding):解決序列中位置信息的缺失問題。

 

2. Transformers 的架構

- 原始架構(Encoder-Decoder):

- Encoder 將輸入序列嵌入到隱藏表示中。

- Decoder 將隱藏表示轉換為目標序列。

- 主要變體:

- Encoder-only:如 BERT,適合分類與標註等任務。

- Decoder-only:如 GPT,專注於生成任務。

- Encoder-Decoder:如 T5,支持多種編碼和生成任務。

 

3. GPT 系列模型

- 發展歷程:

- GPT-1:首次提出基於 Transformer 的生成模型。

- GPT-2:引入更大的數據集和模型參數,支持多任務學習。

- GPT-3:擴展到 175 億參數,成為支持少樣本學習的強大工具。

- ChatGPT:基於 GPT-3,使用強化學習與人類反饋進行微調。

- 應用場景:

- 文本生成、機器翻譯、摘要、情感分析等。

 

4. 解碼策略與應用

- 解碼策略:

- 貪婪搜索(Greedy Search):選擇最可能的下一個詞。

- Top-K 及 Top-P 取樣:提高生成文本的多樣性。

- Beam Search:同時考慮多條候選路徑以優化生成結果。

- 應用技術:

- 提示工程(Prompt Engineering):通過設計高效的提示來優化模型表現。

- 思路鏈(Chain-of-Thought, CoT):分解複雜問題,提升推理能力。

 

心得總結

本週課程深入探討了 Transformers 架構的核心原理與演進,特別是注意力機制和多頭注意力的設計理念讓我印象深刻。同時,通過對 GPT 系列模型的學習,我理解到這些大規模語言模型如何解決多樣化的 NLP 問題。課堂內容還強調了提示設計與解碼策略對生成質量的影響,為後續的實作應用提供了重要指引。我認為,Transformers 作為現代深度學習的核心技術之一,不僅拓展了我的技術視野,也激發了我進一步探索生成式 AI 應用的興趣。


arrow
arrow
    全站熱搜
    創作者介紹
    創作者 戰昇 的頭像
    戰昇

    戰昇的部落格

    戰昇 發表在 痞客邦 留言(0) 人氣()