- +1
理解大語言模型——10篇論文的簡明清單
原創(chuàng) Raschka 集智俱樂部

導語
理解大語言模型的一份最短閱讀清單,應該包含哪些論文?近日一位博主梳理了10篇里程碑式的論文。
關(guān)鍵詞:語言模型,機器學習
Sebastian Raschka | 作者
范思雨 | 譯者
鄧一雪 | 編輯
大語言模型(Large language models,LLMs)如今已成為公眾關(guān)注的焦點。在短短五年時間內(nèi),基于 Transformer結(jié)構(gòu)的大語言模型幾乎徹底改變了自然語言處理領(lǐng)域的研究。此外,這些模型也開始在計算機視覺和計算生物學等領(lǐng)域產(chǎn)生革命性影響。
考慮到大語言模型的出現(xiàn)對每個人的研究產(chǎn)生了如此大的影響,我想為正在入門機器學習的學界和業(yè)界朋友列出一份閱讀清單。在下文中,我將會給出一份僅包含學術(shù)論文的閱讀清單,并按照論文發(fā)表的時間順序依次介紹。當然,還有很多其他有用的資源供各位讀者參考,例如:
? Jay Alammar 解釋 Transformer 模型的文章
http://jalammar.github.io/illustrated-transformer/
? Lilian Weng 更偏技術(shù)性的博客文章
https://lilianweng.github.io/posts/2020-04-07-the-transformer-family/
? Xavier Amatriain 關(guān)于 Transformer 系列模型的科普文章
https://amatriain.net/blog/transformer-models-an-introduction-and-catalog-2d1e9039f376/
? Andrej Karpathy(特斯拉前AI總監(jiān))訓練中型GPT的開源代碼庫(nanoGPT)
https://github.com/karpathy/nanoGPT
? 以及由我自己授課的系列講座視頻和書籍章節(jié)
https://sebastianraschka.com/blog/2021/dl-course.html#l19-self-attention-and-transformer-networks
https://github.com/rasbt/machine-learning-book/tree/main/ch16
理解大語言模型的結(jié)構(gòu)和任務
如果你是剛剛接觸 Transformer 系列模型或者大語言模型,那么我們最好從頭開始介紹。
(1)結(jié)合對齊和翻譯的神經(jīng)網(wǎng)絡機器翻譯模型
論文題目:Neural Machine Translation by Jointly Learning to Align and Translate (2014)
論文作者:Bahdanau, Cho, Bengio
論文地址:https://arxiv.org/abs/1409.0473
如果時間充足,我建議從這篇論文開始讀起。這篇文章引入了一種注意力機制(attention mechanism),用于提升遞歸神經(jīng)網(wǎng)絡(RNN)的長序列建模能力。這使得 RNN 能夠更準確地翻譯更長的句子——這也是后來開發(fā)出原始 Transformer 模型的動機。

(2)注意力機制
論文題目:Attention Is All You Need (2017)
論文作者:Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, and Polosukhin
論文地址:https://arxiv.org/abs/1706.03762
這篇論文介紹了原始 Transformer 模型的結(jié)構(gòu)。該模型由編碼器和解碼器兩部分組成,這兩個部分在后續(xù)模型中分離成兩個獨立的模塊。此外,該論文還引入了縮放點積注意力機制(Scaled Dot Product Attention Mechanism)、多頭注意力機制(Multi-head Attention Blocks)和位置編碼(Positional Input Encoding)等概念,這些概念仍然是現(xiàn)代 Transformer 系列模型的基礎(chǔ)。

(3)BERT: 語言理解的深度雙向 Transformer 預訓練
論文題目:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018)
論文作者:Devlin, Chang, Lee, and Toutanova
論文地址:https://arxiv.org/abs/1810.04805
在原始的 Transformer 模型之后,大語言模型研究開始向兩個方向分化:基于編碼器結(jié)構(gòu)的 Transformer 模型用于預測建模任務,例如文本分類;而基于解碼器結(jié)構(gòu)的 Transformer 模型用于生成建模任務,例如翻譯、摘要和其他形式的文本內(nèi)容生成。

上述 BERT 論文引入了掩碼語言建模(Masked-language Modeling)概念,除此以外,下句預測(Next-Sentence Prediction)則是一種很重要的基于解碼器結(jié)構(gòu)的預訓練任務。如果你對這一研究分支感興趣,我建議你繼續(xù)研究 RoBERTa 模型,它通過取消下句預測任務簡化了預訓練目標。
論文題目:RoBERTa: A Robustly Optimized BERT Pretraining Approach
論文地址:https://arxiv.org/abs/1907.11692
(4)通過生成預訓練改進語言理解
論文題目:Improving Language Understanding by Generative Pre-Training (2018)
論文作者:Radford and Narasimhan
論文地址:https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035
這篇關(guān)于生成式預訓練模型(Generative Pre-Training,GPT)的文章介紹了基于解碼器的模型結(jié)構(gòu)和下句預測的預訓練任務。BERT 可以被認為是雙向 Transformer 模型,因為其采用了掩碼語言建模,GPT 則是單向自回歸模型。GPT 的嵌入也可用于分類任務,GPT 可被稱為現(xiàn)在最具影響力的各類大語言模型的核心,例如 ChatGPT。

如果你對這個研究方向感興趣,我建議你繼續(xù)閱讀 GPT-2 和 GPT-3 的相關(guān)論文。這兩篇論文表明大語言模型能夠進行零樣本學習和少量樣本學習,并強調(diào)了大型語言模型的涌現(xiàn)能力(Emergent Ability)。GPT-3 也是訓練現(xiàn)代大語言模型的基準模型,例如 ChatGPT。我們將在后續(xù)單獨介紹之后孕育出 ChatGPT 的模型—— InstructGPT。
GPT-3 論文
論文題目:Language Models are Few-Shot Learners
論文地址:https://arxiv.org/abs/2005.14165
GPT-2 論文
論文題目:Language Models are Unsupervised Multitask Learners
論文地址:https://www.semanticscholar.org/paper/Language-Models-are-Unsupervised-Multitask-Learners-Radford-Wu/9405cc0d6169988371b2755e573cc28650d14dfe
(5)BART:用于自然語言生成、翻譯和理解的降噪序列對序列預訓練
論文題目:BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension (2019)
論文作者:Lewis, Liu, Goyal, Ghazvininejad, Mohamed, Levy, Stoyanov, and Zettlemoyer
論文地址:https://arxiv.org/abs/1910.13461
如前所述,類似BERT這樣基于編碼器結(jié)構(gòu)的大語言模型通常用于預測建模任務。而類似 GPT 這樣基于解碼器結(jié)構(gòu)的大語言模型則更適合文本生成任務。為了兼顧兩類模型的優(yōu)點,這篇 BART 論文結(jié)合了編碼器和解碼器兩個部分(類似于本清單中提到的第二篇論文)。

規(guī)模法則和模型效率提升
如果你想了解更多有關(guān)提升 Transformer 模型效率的方法,我推薦閱讀2020年的 Efficient Transformers: A Survey 一文,然后再閱讀2023年的 A Survey on Efficient Training of Transformers。此外,以下是我認為有趣且值得深入研究的兩篇文章。
(6)Flash Attention:具有 IO 感知功能的快速高效的精確注意力機制
論文題目:Flash Attention: Fast and Memory-Efficient Exact Attention with IO-Awareness (2022)
論文作者:Dao, Fu, Ermon, Rudra, and Ré
論文地址:https://arxiv.org/abs/2205.14135
盡管大多數(shù) Transformer 論文并不考慮用其他機制替換縮放點積機制來實現(xiàn)自注意力(Self-Attention),但 Flash Attention 是我最近看到的最常被引用的新機制之一。

(7)Cramming:利用單個 GPU 單日訓練語言模型
論文題目:Cramming: Training a Language Model on a Single GPU in One Day (2022)
論文作者:Geiping and Goldstein
論文地址:https://arxiv.org/abs/2212.14034
在這篇論文中,研究者在單個GPU上對掩碼語言模型/基于編碼器的大語言模型(這里指BERT)進行了24小時的訓練。相比之下,2018年的BERT論文使用了16個TPU進行了四天的訓練。有趣的是,雖然較小的模型具有更高的吞吐量(throughput),但它們學習的效率也更低。因此,更大的模型不一定需要花費更多的訓練時間就能達到特定的預測性能閾值。

(8)訓練計算最優(yōu)的大語言模型
論文題目:Training Compute-Optimal Large Language Models (2022)
論文作者:Hoffmann, Borgeaud, Mensch, Buchatskaya, Cai, Rutherford, de Las Casas, Hendricks, Welbl, Clark, Hennigan, Noland, Millican, van den Driessche, Damoc, Guy, Osindero, Simonyan, Elsen, Rae, Vinyals, and Sifre
論文地址:https://arxiv.org/abs/2203.15556
這篇論文介紹了 Chinchilla 模型,它包含 700 億個參數(shù)。在生成建模任務中,該模型表現(xiàn)優(yōu)于包含 1750 億個參數(shù)的 GPT-3 模型。然而,這篇論文的主要論點是現(xiàn)代大語言模型存在“訓練不足”的問題。
該論文定義了大語言模型訓練的線性縮放律(Linear Scaling Law)。例如,雖然 Chinchilla 的參數(shù)量只有 GPT-3 的一半,但它的表現(xiàn)卻優(yōu)于 GPT-3。因為它是在 1.4 萬億個詞語標記(而不僅僅是 3000 億個)上進行訓練的。換句話說,詞語標記的數(shù)量與模型大小一樣重要。

對齊——引導大語言模型完成訓練目標
近年來,我們看到許多表現(xiàn)出色的大語言模型,它們可以生成非常貼近真實的文本內(nèi)容(例如GPT-3和Chinchilla)。就常用的預訓練范式而言,我們似乎已經(jīng)達到了一個上限。
為了使語言模型發(fā)揮更大作用,減少錯誤信息和有害語言的生成,研究者設(shè)計了新的訓練范式來對預訓練的基礎(chǔ)模型進行微調(diào)。
(9)使用人類反饋進行微調(diào)訓練語言模型在各種任務上與用戶意圖保持一致
論文題目:Training Language Models to Follow Instructions with Human Feedback (2022)
論文作者:Ouyang, Wu, Jiang, Almeida, Wainwright, Mishkin, Zhang, Agarwal, Slama, Ray, Schulman, Hilton, Kelton, Miller, Simens, Askell, Welinder, Christiano, Leike, and Lowe
論文地址:https://arxiv.org/abs/2203.02155
在這篇被稱為 InstructGPT 的論文中,研究者使用了一種利用人類反饋進行強化學習的機制(Reinforcement Learning with Human Feedback ,RLHF)。他們基于預訓練的 GPT-3 模型,使用監(jiān)督學習對人類生成的提示響應對( Prompt-Response Pairs)對模型進行進一步微調(diào)(步驟1)。接下來,他們要求人類對模型的輸出進行排序以訓練獎勵模型(步驟2)。最后,他們使用獎勵模型,通過近端策略優(yōu)化(Proximal Policy Optimization)(步驟3)的強化學習方法,來調(diào)整經(jīng)過預訓練和微調(diào)的GPT-3模型。
順便說一句,這篇論文也被稱為闡述 ChatGPT 思想內(nèi)核的論文——根據(jù)最近的說法,ChatGPT是InstructGPT的擴展版本,它實現(xiàn)了在更大的數(shù)據(jù)集上的微調(diào)。

(10)Constitutional AI:AI 反饋達成無害性
論文題目:Constitutional AI: Harmlessness from AI Feedback (2022)
論文作者:Yuntao, Saurav, Sandipan, Amanda, Jackson, Jones, Chen, Anna, Mirhoseini, McKinnon, Chen, Olsson, Olah, Hernandez, Drain, Ganguli, Li, Tran-Johnson, Perez, Kerr, Mueller, Ladish, Landau, Ndousse, Lukosuite, Lovitt, Sellitto, Elhage, Schiefer, Mercado, DasSarma, Lasenby, Larson, Ringer, Johnston, Kravec, El Showk, Fort, Lanham, Telleen-Lawton, Conerly, Henighan, Hume, Bowman, Hatfield-Dodds, Mann, Amodei, Joseph, McCandlish, Brown, Kaplan
論文地址:https://arxiv.org/abs/2212.08073
在這篇論文中,研究者將對齊思想(Alignment)又往前推了一步,提出了一種訓練機制,用于創(chuàng)建一個“無害”的人工智能系統(tǒng)。研究者提出了一種自我訓練機制,這種機制基于一系列規(guī)則(由人類提供),而不是直接人類監(jiān)督。這篇文章與前文提到的 InstructGPT 一樣采用了強化學習方法。

附加閱讀清單:
基于人類反饋的強化學習(RLHF)
盡管 RLHF 可能無法解決大語言模型當前面臨的所有問題,但它仍然被認為是最佳的選擇,特別是與上一代大語言模型相比。未來,我們會有很大希望看到更多創(chuàng)造性的方法將 RLHF 應用到大語言模型的其他領(lǐng)域。
上面的兩篇論文,InstructGPT 和 Constitutional AI,都使用了 RLHF。毋庸置疑,RLHF 代表了未來的研究趨勢。如果你想了解 RLHF,本節(jié)提供了額外的參考資料。(從技術(shù)層面講,Constitutional AI 這篇論文使用了 AI 而不是人類反饋,但它使用了類似 RL 的概念。)
(11)深度強化學習的異步方法
這篇文章引入了策略梯度算法,以替代作為基于深度學習的強化學習中的 Q-learning 方法。
論文題目:Asynchronous Methods for Deep Reinforcement Learning (2016)
論文作者:Mnih, Badia, Mirza, Graves, Lillicrap, Harley, Silver, and Kavukcuoglu
論文地址:https://arxiv.org/abs/1602.01783
(12)近端策略優(yōu)化
這篇文章提出了一種改進的近端策略強化學習過程,該過程比上面的普通策略優(yōu)化算法更具數(shù)據(jù)高效性和可擴展性。
論文題目:Proximal Policy Optimization Algorithms (2017)
論文作者:Schulman, Wolski, Dhariwal, Radford, Klimov
論文地址:https://arxiv.org/abs/1707.06347
(13)借助人類反饋學習總結(jié)
論文題目:Learning to Summarize from Human Feedback (2022)
論文作者:Stiennon, Ouyang, Wu, Ziegler, Lowe, Voss, Radford, Amodei, Christiano
論文地址:https://arxiv.org/abs/2009.01325
這篇文章介紹了實現(xiàn) RLHF 的三步過程:
1. 預訓練 GPT-3 模型
2. 對模型進行監(jiān)督微調(diào)
3. 以有監(jiān)督方法訓練獎勵模型,然后使用該獎勵模型疊加近端策略優(yōu)化方法以訓練出微調(diào)模型。
這篇文章還表明,與常規(guī)的監(jiān)督學習相比,使用近端策略優(yōu)化的強化學習可以訓練出更好的模型。

需要注意的是,前文中討論的 InstructGPT 論文(9)對 RLHF 使用了類似的三步過程,但它不是總結(jié)文本,而是側(cè)重于根據(jù)人工指令生成文本。此外,它還使用打標簽的方法對模型輸出進行從好到壞的排序(而不僅僅是人類和人工智能生成的文本之間的比較)。
結(jié)論以及延伸閱讀
在本文中,我嘗試提供一份簡潔、有用的閱讀清單,于是挑選了10篇核心文章(附加三篇RLHF的文章)來幫助各位了解大語言模型的設(shè)計、結(jié)構(gòu)演變以及模型限制。
想要了解更多內(nèi)容,我建議繼續(xù)閱讀上述論文的參考文獻?;蛘撸瑓⒖家韵沦Y源作為延伸閱讀:
GPT 的開源替代品
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model (2022), https://arxiv.org/abs/2211.05100
OPT: Open Pre-trained Transformer Language Models (2022), https://arxiv.org/abs/2205.01068
ChatGPT 的替代品
LaMDA: Language Models for Dialog Applications (2022), https://arxiv.org/abs/2201.08239
(Sparrow) Improving Alignment of Dialogue Agents via Targeted Human Judgements (2022), https://arxiv.org/abs/2209.14375
BlenderBot 3: A Deployed Conversational Agent that Continually Learns to Responsibly Rngage, https://arxiv.org/abs/2208.03188
大語言模型在計算生物學中的應用
ProtTrans: 通過自監(jiān)督學習和高性能計算破解生命的代碼語言
ProtTrans: Towards Cracking the Language of Life’s Code Through Self-Supervised Deep Learning and High Performance Computing (2021), https://arxiv.org/abs/2007.06225
使用 AlphaFold 進行高精度蛋白質(zhì)結(jié)構(gòu)預測
Highly Accurate Protein Structure Prediction with AlphaFold (2021), https://www.nature.com/articles/s41586-021-03819-2
利用大語言模型生成跨多個家族和功能的蛋白質(zhì)序列
Large Language Models Generate Functional Protein Sequences Across Diverse Families (2023), https://www.nature.com/articles/s41587-022-01618-2
原文鏈接:
https://sebastianraschka.com/blog/2023/llm-reading-list.html
原標題:《理解大語言模型——10篇論文的簡明清單》
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




