日本护士毛茸茸高潮,亚洲精品自偷自拍无码,久久精品国产一区二区三区,日韩人妻无码免费视频一二区

澎湃Logo
下載客戶端

登錄

  • +1

零樣本性能超越小樣本,谷歌1370億參數(shù)新模型比GPT-3更強

2021-09-08 18:11
來源:澎湃新聞·澎湃號·湃客
字號

機器之心報道

機器之心編輯部

在 NLP 領(lǐng)域,pretrain-finetune 和 prompt-tuning 技術(shù)能夠提升 GPT-3 等大模型在各類任務(wù)上的性能,但這類大模型在零樣本學(xué)習(xí)任務(wù)中的表現(xiàn)依然不突出。為了進一步挖掘零樣本場景下的模型性能,谷歌 Quoc Le 等研究者訓(xùn)練了一個參數(shù)量為 1370 億的自回歸語言模型 Base LM,并在其中采用了全新的指令調(diào)整(instruction tuning)技術(shù),結(jié)果顯示,采用指令調(diào)整技術(shù)后的模型在自然語言推理、閱讀理解和開放域問答等未見過的任務(wù)上的零樣本性能超越了 GPT-3 的小樣本性能。

大規(guī)模語言模型(LM)已經(jīng)被證明可以很好的應(yīng)用到小樣本學(xué)習(xí)任務(wù)。例如 OpenAI 提出的 GPT-3 ,參數(shù)量達 1,750 億,不僅可以更好地答題、翻譯、寫文章,還帶有一些數(shù)學(xué)計算的能力等。在不進行微調(diào)的情況下,可以在多個 NLP 基準上達到最先進的性能。

然而,像 GPT-3 這樣的大規(guī)模語言模型在零樣本(zero-shot)學(xué)習(xí)任務(wù)中表現(xiàn)不是很突出。例如,GPT-3 在執(zhí)行閱讀理解、問答和自然語言推理等任務(wù)時,零樣本的性能要比小樣本(few-shot)性能差很多。

本文中,Quoc Le 等來自谷歌的研究者探索了一種簡單的方法來提高大型語言模型在零樣本情況下的性能,從而擴大受眾范圍。他們認為 NLP 任務(wù)可以通過自然語言指令來描述,例如「這部影評的情緒是正面的還是負面的?」或者「把『how are you』譯成漢語」。

該研究采用具有 137B 參數(shù)的預(yù)訓(xùn)練模型并執(zhí)行指令調(diào)整任務(wù),對 60 多個通過自然語言指令表達的 NLP 任務(wù)進行調(diào)整。他們將這個結(jié)果模型稱為 Finetuned LANguage Net,或 FLAN。

論文地址:https://arxiv.org/pdf/2109.01652.pdf

GitHub 地址:https://github.com/google-research/flan.

為了評估 FLAN 在未知任務(wù)上的零樣本性能,該研究根據(jù) NLP 任務(wù)的任務(wù)類型將其分為多個集群,并對每個集群進行評估,同時在其他集群上對 FLAN 進行指令調(diào)整。如下圖 1 所示,為了評估 FLAN 執(zhí)行自然語言推理的能力,該研究在一系列其他 NLP 任務(wù)(如常識推理、翻譯和情感分析)上對模型進行指令調(diào)整。由于此設(shè)置確保 FLAN 在指令調(diào)整中未見自然語言推理任務(wù),因此可以評估其執(zhí)行零樣本自然語言推理的能力。

評估表明,F(xiàn)LAN 顯著提高了模型(base 137B 參數(shù))的零樣本性能。在 25 個評估任務(wù)中,F(xiàn)LAN 零樣本在 19 項任務(wù)上優(yōu)于具有 175B 參數(shù) GPT-3 零樣本,甚至在許多任務(wù)(如 ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA 和 StoryCloze)上也顯著優(yōu)于 GPT-3 小樣本。在消融研究中,研究發(fā)現(xiàn)在指令調(diào)整中增加任務(wù)集群的數(shù)量,可以提高模型在未見過的任務(wù)的性能,并且指令調(diào)整的好處只有在模型規(guī)模足夠大的情況下才會出現(xiàn)。

該研究實證結(jié)果強調(diào)了語言模型使用自然語言指令描述任務(wù)的能力。更廣泛地說,如圖 2 所示,指令調(diào)整結(jié)合了預(yù)訓(xùn)練微調(diào)(pretrain–finetune)特點,并通過使用 finetune 監(jiān)督來提高語言模型響應(yīng)推理時文本交互的能力。

FLAN:用指令調(diào)整改進零樣本學(xué)習(xí)

指令調(diào)整的動機是提高語言模型響應(yīng) NLP 指令的能力,旨在通過使用監(jiān)督來教 LM 執(zhí)行以指令描述的任務(wù)。語言模型將學(xué)會遵循指令,即使對于未見過的任務(wù)也能執(zhí)行。為了評估模型在未見過的任務(wù)上的性能,該研究按照任務(wù)類型將任務(wù)分成多個集群,當(dāng)其他集群進行指令調(diào)整時,留出一個任務(wù)集群進行評估。

任務(wù)和模板

該研究將 62 個在 Tensorflow 數(shù)據(jù)集上公開可用的文本數(shù)據(jù)集(包括語言理解和語言生成任務(wù))聚合到一起。下圖 3 顯示了該研究使用的所有數(shù)據(jù)集;每個數(shù)據(jù)集被歸類為十二個任務(wù)集群之一,每個集群中的數(shù)據(jù)集有著相同的任務(wù)類型。

該研究將任務(wù)定義為由數(shù)據(jù)集給出的一組特定的輸入 - 輸出對。對于每個任務(wù),研究者手動編寫十個獨特的模板,使用自然語言指令描述任務(wù)。十個模板大多描述的是原始任務(wù),但為了增加多樣性,研究者為每個任務(wù),提供了最多三個「變更任務(wù)(turned the task around)」的模板,下圖 4 給出了自然語言推理任務(wù)的多個指令模板。

訓(xùn)練細節(jié)

模型架構(gòu)和預(yù)訓(xùn)練。在實驗中,該研究使用密集的從左到右、僅解碼器、137B 參數(shù)的 transformer 語言模型。該模型在一組網(wǎng)絡(luò)文檔(包括含計算機代碼的文檔)、對話數(shù)據(jù)和 Wikipedia 上進行預(yù)訓(xùn)練,這些文檔使用 SentencePiece 庫 (Kudo & Richardson, 2018),被 tokenize 為 2.81T BPE token 和 32K token 的詞表。大約 10% 的預(yù)訓(xùn)練數(shù)據(jù)是非英語的。這個數(shù)據(jù)集不像 GPT-3 訓(xùn)練集那么干凈,而且還混合了對話和代碼。

實驗結(jié)果

研究者分別在自然語言推理、閱讀理解、開放域問答、常識推理、共指消解和翻譯等多項任務(wù)上對 FLAN 的性能進行了評估。對于每一項任務(wù),他們報告了在所有模板上性能的平均和標(biāo)準誤差,這代表了給定典型自然語言指令時 FLAN 的預(yù)期性能。

自然語言推理任務(wù)

下表 1 展示了不同模型自然語言推理測試的結(jié)果,其中給定一個前提與假設(shè)——模型必須確認在給定前提為真的情況下假設(shè)也為真??梢钥吹剑現(xiàn)LAN 在所有情況下均表現(xiàn)出強大的性能。

盡管在 CB 和 RTE 的不同模板的結(jié)果中存在高方差,但 FLAN 在沒有任何 prompt 工程時依然在四個數(shù)據(jù)集上顯著優(yōu)于零樣本和小樣本 GPT-3。在具有最佳 dev 模板時,F(xiàn)LAN 在五個數(shù)據(jù)集上優(yōu)于小樣本 GPT-3。FLAN 甚至在 ANLI-R3 數(shù)據(jù)集上超越了監(jiān)督式 BERT。

閱讀理解和開放域問答任務(wù)

在閱讀理解任務(wù)上,模型被要求回答關(guān)于給定文章段落的問題,結(jié)果如下表 2 所示。FLAN 在 BoolQ 和 OBQA 數(shù)據(jù)集上顯著優(yōu)于 GPT-3。在使用最佳 dev 模板時,F(xiàn)LAN 在 MultiRC 數(shù)據(jù)集上略優(yōu)于小樣本 GPT-3。

對于開放域問答任務(wù),F(xiàn)LAN 在 ARC-easy 和 ARC-challenge 數(shù)據(jù)集上顯著優(yōu)于零樣本和小樣本 GPT-3。在 Natural Questions 數(shù)據(jù)集上,F(xiàn)LAN 優(yōu)于零樣本 GPT-3,弱于小樣本 GPT-3。

常識推理和共指消解任務(wù)

不同模型在五個常識推理數(shù)據(jù)集上的結(jié)果如下表 3 所示,F(xiàn)LAN 在 StoryCloze 數(shù)據(jù)集上優(yōu)于 GPT-3,在 CoPA 和 PiQA 數(shù)據(jù)集上媲美 GPT-3。但在 HellaSwag 和 ReCoRD 數(shù)據(jù)集上,Base LM 和 FLAN 均弱于 GPT-3。

在兩個共指消解任務(wù)上,具有最佳 dev 模板的 FLAN 在 Winogrande 數(shù)據(jù)集上優(yōu)于零樣本 GPT-3,但在 WSC273 數(shù)據(jù)集上,Base LM 和 FLAN 均弱于 GPT-3。

翻譯

研究者還在 GPT-3 論文中評估的三個數(shù)據(jù)集上測試了 FLAN 的機器翻譯性能,這三個數(shù)據(jù)集分別是 WMT’14 法語 - 英語以及 WMT’16 的德語 - 英語和羅馬尼亞語 - 英語。

測試結(jié)果如下表 4 所示,Base LM 的零樣本翻譯性能弱,但小樣本翻譯結(jié)果媲美 GPT-3。FLAN 在六個評估指標(biāo)中的五個上優(yōu)于小樣本 Base LM。與 GPT-3 類似,F(xiàn)LAN 在翻譯成英語任務(wù)上展示出了強大的性能,并且與監(jiān)督式翻譯基線相比具有優(yōu)勢。

其他實驗

由于該論文的核心問題是指令調(diào)整如何提高模型在未見過任務(wù)上的零樣本性能,因此該研究的第一個消融實驗研究了指令調(diào)整中使用的集群和任務(wù)數(shù)量對性能的影響。

圖 5 顯示了實驗結(jié)果。與預(yù)期一致,研究者觀察到 3 個 held-out 集群的平均性能隨著向指令調(diào)整添加額外的集群和任務(wù)而提高(情感分析集群除外),證實了所提指令調(diào)整方法有助于在新任務(wù)上提升零樣本性能。

下圖 6 結(jié)果表明,對于較大規(guī)模的模型,指令調(diào)整填充了一些模型容量,但也教會了這些模型遵循指令的能力,允許模型將剩余的容量泛化到新任務(wù)。

? THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com

原標(biāo)題:《全新instruction調(diào)優(yōu),零樣本性能超越小樣本,谷歌1370億參數(shù)新模型比GPT-3更強》

閱讀原文

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋
            久久久久久久99精品老熟妇| 精品久久久久久中文墓无码| 久久精品丝袜高跟鞋| 欧美成人色图色小说| 丰满少妇被猛烈进入免费播放| 亚洲 欧美 日韩 国产综合 在线| 国产精品lululu在线观看| 中文AV字幕王| 精品无码人妻被多人侵犯av| 亚洲成人手机在线| FerrXXX性少妇HD新婚 | 一区二区小视频| 意大利高清XXXX极品| 狠狠躁夜夜躁人人爽天天5| 床震呻吟娇喘高潮无码视频 | www.日本中文字幕在线视频| 1000部啪啪免费视频| 国产伦一区二区三区精品| 狠狠躁夜夜躁人人爽天天爽| 91九色丨PORNY丨老师| 亚洲日韩av无码一区二区三区人| 香蕉EEWW99国产精选免费| 午夜理论在线| 欧美黑人又粗又大高潮喷水| 人人操人人谢| 国产精品1800| 国产亚洲精品福利在线无卡一| 国产在线视频一区二区| 国产无码伦精一区二区三区| 玖玖综合播播网| 产国偷Ⅴ产偷ⅴ自拍| 亚州熟2 不卡| 丁香六月婷婷五月天| 国产精品蜜芽在线观看| 开心五月激情逼逼| 欧洲熟妇色xxxx欧美老妇免费| 深爱激情五月婷婷| 久久青草免费91观看| 另类 专区 欧美 制服丝袜| 国产免费一区二区视频| 久久天天躁狠狠躁夜夜婷|