統計學習與深度學習(盧信銘教授教學) week 14－戰昇的部落格

以下是 Week 14 的上課心得整理：

重點整理

1. Transformers 的基本概念

- 背景與應用：

- Transformers 最初由 Vaswani 等人於 2017 年提出，主要用於機器翻譯，但其通用性使其被廣泛應用於自然語言處理（NLP）和計算機視覺等多領域。

- 相比 RNN，Transformers 的架構摒棄了遞歸和卷積，採用注意力機制，實現了更高效的平行運算，適合處理長序列數據。

- 關鍵組件：

- 注意力機制（Attention Mechanism）：根據詞彙間的相關性分配權重。

- 多頭注意力（Multi-Head Attention）：捕捉多樣化的語義信息。

- 位置編碼（Positional Encoding）：解決序列中位置信息的缺失問題。

2. Transformers 的架構

- 原始架構（Encoder-Decoder）：

- Encoder 將輸入序列嵌入到隱藏表示中。

- Decoder 將隱藏表示轉換為目標序列。

- 主要變體：

- Encoder-only：如 BERT，適合分類與標註等任務。

- Decoder-only：如 GPT，專注於生成任務。

- Encoder-Decoder：如 T5，支持多種編碼和生成任務。

3. GPT 系列模型

- 發展歷程：

- GPT-1：首次提出基於 Transformer 的生成模型。

- GPT-2：引入更大的數據集和模型參數，支持多任務學習。

- GPT-3：擴展到 175 億參數，成為支持少樣本學習的強大工具。

- ChatGPT：基於 GPT-3，使用強化學習與人類反饋進行微調。

- 應用場景：

- 文本生成、機器翻譯、摘要、情感分析等。

4. 解碼策略與應用

- 解碼策略：

- 貪婪搜索（Greedy Search）：選擇最可能的下一個詞。

- Top-K 及 Top-P 取樣：提高生成文本的多樣性。

- Beam Search：同時考慮多條候選路徑以優化生成結果。

- 應用技術：

- 提示工程（Prompt Engineering）：通過設計高效的提示來優化模型表現。

- 思路鏈（Chain-of-Thought, CoT）：分解複雜問題，提升推理能力。

心得總結

本週課程深入探討了 Transformers 架構的核心原理與演進，特別是注意力機制和多頭注意力的設計理念讓我印象深刻。同時，通過對 GPT 系列模型的學習，我理解到這些大規模語言模型如何解決多樣化的 NLP 問題。課堂內容還強調了提示設計與解碼策略對生成質量的影響，為後續的實作應用提供了重要指引。我認為，Transformers 作為現代深度學習的核心技術之一，不僅拓展了我的技術視野，也激發了我進一步探索生成式 AI 應用的興趣。

戰昇

戰昇的部落格

戰昇發表在痞客邦留言(0) 人氣()

E-mail轉寄

戰昇的部落格

統計學習與深度學習(盧信銘教授教學) week 14

歷史上的今天

留言列表

熱門文章

文章分類

轉移 (1)

【台大課程】 (5)

程式解題 (2)

理財觀念 (1)

台股盤後分析 (3)

市場 (1)

【chatgpt】 (1)

加密貨幣 (1)

優惠活動 (1)

【學測分科歷屆】 (6)

大學微積分 (2)

家教進度 (7)

歷屆詳解 (3)

日文學習 (1)

英文學習 (7)

期末再來放 (3)

紙牌遊戲 (1)

【統計相關程式】 (1)

【程式設計】 (1)

【家教相關】 (3)

【教育與學習】 (9)

【python學習】 (4)

【休閒娛樂】 (1)

【理財投資】 (2)

【網路行銷】 (5)

【大學相關】 (3)

【文書處理】 (2)

【個人成長】 (2)

我的秘密 (2)

網路行銷 (2)

程式設計 (3)

資訊學習應用 (5)

宗教與經典 (2)

議題討論 (2)

社會政論 (3)

學習與運用 (2)

課程介紹 (1)

看抖音學習 (2)

名人系列 (1)

神秘系列 (1)

武漢肺炎 (1)

U8介紹 (3)

大學課程 (7)

升學資訊 (7)

區塊鍊 (3)

綜藝節目 (2)

書籍介紹與分析 (7)

有趣事物 (1)

網路經營與賺錢 (10)

戰昇老師分享 (12)

食記與旅遊 (4)

笑話與廢文 (5)

升學與外語學習 (8)

影論與生活 (5)

心情與夢境 (4)

大學生活 (7)

財經與文書處理 (9)

最新文章

最新留言

文章精選

誰來我家

動態訂閱