以下是 Week 14 的上課心得整理:
重點整理
1. Transformers 的基本概念
- 背景與應用:
- Transformers 最初由 Vaswani 等人於 2017 年提出,主要用於機器翻譯,但其通用性使其被廣泛應用於自然語言處理(NLP)和計算機視覺等多領域。
- 相比 RNN,Transformers 的架構摒棄了遞歸和卷積,採用注意力機制,實現了更高效的平行運算,適合處理長序列數據。
- 關鍵組件:
- 注意力機制(Attention Mechanism):根據詞彙間的相關性分配權重。
- 多頭注意力(Multi-Head Attention):捕捉多樣化的語義信息。
- 位置編碼(Positional Encoding):解決序列中位置信息的缺失問題。
2. Transformers 的架構
- 原始架構(Encoder-Decoder):
- Encoder 將輸入序列嵌入到隱藏表示中。
- Decoder 將隱藏表示轉換為目標序列。
- 主要變體:
- Encoder-only:如 BERT,適合分類與標註等任務。
- Decoder-only:如 GPT,專注於生成任務。
- Encoder-Decoder:如 T5,支持多種編碼和生成任務。
3. GPT 系列模型
- 發展歷程:
- GPT-1:首次提出基於 Transformer 的生成模型。
- GPT-2:引入更大的數據集和模型參數,支持多任務學習。
- GPT-3:擴展到 175 億參數,成為支持少樣本學習的強大工具。
- ChatGPT:基於 GPT-3,使用強化學習與人類反饋進行微調。
- 應用場景:
- 文本生成、機器翻譯、摘要、情感分析等。
4. 解碼策略與應用
- 解碼策略:
- 貪婪搜索(Greedy Search):選擇最可能的下一個詞。
- Top-K 及 Top-P 取樣:提高生成文本的多樣性。
- Beam Search:同時考慮多條候選路徑以優化生成結果。
- 應用技術:
- 提示工程(Prompt Engineering):通過設計高效的提示來優化模型表現。
- 思路鏈(Chain-of-Thought, CoT):分解複雜問題,提升推理能力。
心得總結
本週課程深入探討了 Transformers 架構的核心原理與演進,特別是注意力機制和多頭注意力的設計理念讓我印象深刻。同時,通過對 GPT 系列模型的學習,我理解到這些大規模語言模型如何解決多樣化的 NLP 問題。課堂內容還強調了提示設計與解碼策略對生成質量的影響,為後續的實作應用提供了重要指引。我認為,Transformers 作為現代深度學習的核心技術之一,不僅拓展了我的技術視野,也激發了我進一步探索生成式 AI 應用的興趣。
留言列表