日本护士毛茸茸高潮,亚洲精品自偷自拍无码,久久精品国产一区二区三区,日韩人妻无码免费视频一二区

澎湃Logo
下載客戶端

登錄

  • +1

黑箱優(yōu)化:大規(guī)模語言模型的一種落地方式

2022-01-14 11:19
來源:澎湃新聞·澎湃號(hào)·湃客
字號(hào)

機(jī)器之心經(jīng)授權(quán)轉(zhuǎn)載

作者:孫天祥

在本文中,來自復(fù)旦大學(xué)的計(jì)算機(jī)博士生介紹了一些關(guān)于大規(guī)模預(yù)訓(xùn)練語言模型落地的思考。

語言模型的增長(zhǎng)

在 BERT 之后,人們看到了大規(guī)模預(yù)訓(xùn)練的潛力,嘗試了不同的預(yù)訓(xùn)練任務(wù)、模型架構(gòu)、訓(xùn)練策略等等,在做這些探索之外,一個(gè)更加直接也通常更加有效的方向就是繼續(xù)增大數(shù)據(jù)量和模型容量來向上探測(cè)這一模式的上界。

超大規(guī)模語言模型印象里大概從 GPT-3 開始,國(guó)內(nèi)外諸多大廠都開始了大規(guī)模預(yù)訓(xùn)練的軍備競(jìng)賽,Google 的 Switch-Transformer,國(guó)內(nèi)智源的 CPM,百度的 ERNIE 3.0,華為的盤古,阿里的 PLUG,浪潮的源 1.0 等等。與此同時(shí),相信也有很多人開始思考,花了幾個(gè)億訓(xùn)練的大模型該怎么用,難道就聽個(gè)響嗎?

大模型的玩法

在語言模型還不這么大的時(shí)候,一般是這么玩的:0. 下載某個(gè)開源的預(yù)訓(xùn)練模型或自研預(yù)訓(xùn)練模型,1. 收集特定任務(wù)的標(biāo)注數(shù)據(jù),2. Fine-tune 預(yù)訓(xùn)練語言模型,3. 上線推理。這種玩法我們叫小模型的玩法。

但大模型的預(yù)訓(xùn)練成本和 Fine-tuning 成本都是比較昂貴的,并且現(xiàn)在很多大模型出于成本和商業(yè)考慮都不再開源參數(shù),因此大模型得有大模型的玩法。作為大模型的開路先鋒,GPT-3 在他們的論文里給出的玩法就是 in-context learning. 如下圖所示,不需要進(jìn)行反向傳播,僅需要把少量標(biāo)注樣本放在輸入文本的上下文中即可誘導(dǎo) GPT-3 輸出答案。

GPT-3 in-context learning

這一玩法在當(dāng)時(shí)是相當(dāng)驚艷的,大家被 GPT-3 的這種玩法以及大規(guī)模預(yù)訓(xùn)練帶來的 “質(zhì)變” 感到震驚的同時(shí),OpenAI 也開始了對(duì)大模型商業(yè)落地的嘗試,開始開放 GPT-3 的推理 API 給開發(fā)者,出現(xiàn)了不少有趣的 APP,下面是其中一個(gè)例子,更多的 GPT-3 Demo 可以參見:300+ GPT-3 Examples, Demos, Apps, Showcase, and NLP Use-cases | GPT-3 Demo.(https://gpt3demo.com/)

使用 GPT-3 生成網(wǎng)頁(yè)布局

類似的,悟道 2.0 也開展了 AI 創(chuàng)新應(yīng)用大賽來鼓勵(lì)基于大模型 API 開發(fā)好玩的 APP:https://www.biendata.xyz/wudao/.

而這一玩法后來也被發(fā)展成為如今大火的 prompt-based learning,即我們可以將下游任務(wù)轉(zhuǎn)化為(M)LM 任務(wù)來直接用預(yù)訓(xùn)練語言模型解決,倘若模型規(guī)模越大從(M)LM 遷移到下游任務(wù)就越容易,那我們就可以用一個(gè)大規(guī)模通用語言模型來解決各種下游任務(wù)了。

由此來看,Prompt-based learning 起初的想法是很好的,但后來發(fā)展成為魔改輸入輸出后的加強(qiáng)版 fine-tuning,配以 MLM head 更好的初始化主攻小樣本性能個(gè)人以為偏離了其初心。但后來發(fā)展又與包括 Adapter 在內(nèi)的 parameter-efficient tuning 的工作類似,僅 fine-tune 連續(xù)的 prompt 而保持語言模型參數(shù)不變,能夠做到 mixed-task inference,我覺得一定程度上又回歸了原來的目標(biāo),即通用大模型的高效部署。然而,所有 in-context learning 之后的發(fā)展都需要梯度反向傳播,這至少損失了 in-context learning 一半的魅力。試想,未來大廠會(huì)雇傭一大批調(diào)參師傅來對(duì)用戶上傳的訓(xùn)練數(shù)據(jù)進(jìn)行 fine-tune 或者 prompt-tuning,甚至進(jìn)行 template 和 verbalizer 的搜索?用戶越多需要的調(diào)參師傅也越多,這不能規(guī)?;?/p>

關(guān)于大模型的落地姿勢(shì),除了 OpenAI 之外,國(guó)內(nèi)也有類似的看法,比如智源的張宏江博士就表示:“未來,大模型會(huì)形成類似電網(wǎng)的智能基礎(chǔ)平臺(tái),像發(fā)電廠一樣為全社會(huì)源源不斷地供應(yīng)‘智力源’”。這種把大模型作為一個(gè)在線的服務(wù)的模式我們稱之為 Language-Model-as-a-Service (LMaaS).

可以看到,大模型的玩法更貼近個(gè)人用戶和小 B 開發(fā)者,通過調(diào)用大廠開放的 API,就可以使用少量標(biāo)注數(shù)據(jù)得到還不錯(cuò)的效果(這里指 in-context learning)。相比于之前小模型的玩法,LMaaS 當(dāng)然要能夠降低某一個(gè)或幾個(gè)環(huán)節(jié)的成本才能夠推行。我們粗略地從這幾個(gè)方面去對(duì)比一下本地訓(xùn)練小模型的玩法和 LMaaS 的玩法:

預(yù)訓(xùn)練模型:小模型玩法可以是免費(fèi)的(直接用開源預(yù)訓(xùn)練模型),而 LMaaS 需要支付一部分調(diào)用 API 的費(fèi)用

數(shù)據(jù)標(biāo)注:小模型需要的標(biāo)注數(shù)據(jù)通常更多,因而標(biāo)注成本更高

實(shí)際性能:對(duì)于復(fù)雜任務(wù)或?qū)τ谟杏?jì)算資源的用戶,本地訓(xùn)練小模型通常能夠超過使用 prompt 來調(diào)用大模型 API 的效果;對(duì)于簡(jiǎn)單任務(wù)或計(jì)算資源有限的用戶,直接使用大模型 API 可能效果更好

經(jīng)過粗略地對(duì)比我們發(fā)現(xiàn)有調(diào)用大模型推理 API 需求的用戶主要是標(biāo)注預(yù)算不高、處理簡(jiǎn)單任務(wù)、計(jì)算資源有限的個(gè)人用戶或者小 B 開發(fā)者。那么,假設(shè)未來大規(guī)模預(yù)訓(xùn)練模型就是這樣一種玩法,怎么使其更好地為更多的用戶提供服務(wù)呢?或者說,怎么利用通用語言模型的推理 API 做好下游任務(wù)?再或者,怎么設(shè)計(jì)一個(gè)推理 API 能夠惠及更多的下游任務(wù)?更進(jìn)一步,大廠是否能夠發(fā)布推理 API 的同時(shí)也發(fā)布一輔助使用工具?這些問題構(gòu)成了我們最近工作的主要?jiǎng)訖C(jī)。

黑箱優(yōu)化:僅調(diào)用模型推理 API 完成常見語言理解任務(wù)

接下來我們提供一個(gè)適用于上述 LMaaS 場(chǎng)景的方案:Black-Box Tuning.

我們的文章標(biāo)題叫 Black-Box Tuning for Language-Model-as-a-Service,又名 Forward is All You Need,又名 Make Zeroth Optimization Great Again,又名 Inference as Training

前面提到,LMaaS 是要把大模型當(dāng)作發(fā)電廠,那自然不能給每家每戶都派一個(gè)調(diào)電(調(diào)參)師傅過去,最好是每家每戶能夠自己把電器(任務(wù))管理好,發(fā)電廠(大模型服務(wù)方)只需要確保供應(yīng)電力(算力),這才是規(guī)?;耐娣ā?/p>

為了做到大模型的高效部署,我們可以訴諸于 parameter-efficient tuning,即只 fine-tune 少量參數(shù),如 adapter 和 prompt tuning,但仍然需要調(diào)參師傅在服務(wù)端幫你 tuning。自然地,我們想到可以讓用戶根據(jù)推理 API 的返回結(jié)果自己優(yōu)化 adapter 或 prompt,比如用無梯度優(yōu)化(Derivative-Free Optimization)去優(yōu)化這些 “少量” 的參數(shù)?;谶@個(gè)樸素的想法,我們有了下面的一張?jiān)妇皥D:

LMaaS

但無梯度方法本質(zhì)上還是基于搜索的,即使對(duì)于 parameter-efficient tuning 也還是會(huì)有上萬的參數(shù)量需要優(yōu)化(例如 prompt tuning 優(yōu)化 20 個(gè) token,每個(gè) token 1024 維,總共是 20480 維),這讓非梯度優(yōu)化很難做。

在非梯度優(yōu)化中,如果要優(yōu)化的目標(biāo)函數(shù)原本維度很高,但只要本征維度很小,我們就可以使用非梯度優(yōu)化方法來做,一種方法就是通過 random embedding. 例如在下圖中,左邊的目標(biāo)函數(shù)是二維的,但其函數(shù)值實(shí)際上只跟一個(gè)參數(shù)( [x_1] )相關(guān),那么我們就可以使用一個(gè) random embedding 將要優(yōu)化的參數(shù)映射到一低維子空間(如下圖右邊的 embedding 就是 [x_1=x_2] ),在這一子空間中進(jìn)行優(yōu)化便可以找到最優(yōu)解 [x^*] .

Random Embedding

幸運(yùn)的是,最近的一些工作表明預(yù)訓(xùn)練模型參數(shù)越多,其本征維度反而越小。例如人們發(fā)現(xiàn)僅訓(xùn)練 RoBERTa-large 的 200 + 個(gè)參數(shù),然后映射回原本參數(shù)空間就可以達(dá)到 fine-tuning 90% 的性能[1],這就使得非梯度優(yōu)化方法變得可行了。

有意思的是,過去非梯度優(yōu)化方法不用于神經(jīng)網(wǎng)絡(luò)的參數(shù)優(yōu)化是因?yàn)槠鋮?shù)太多,而僅用于調(diào)節(jié)少數(shù)超參數(shù),現(xiàn)在隨著神經(jīng)網(wǎng)絡(luò)參數(shù)越來越多,梯度下降變得非常笨重,而非梯度優(yōu)化方法反而正好可以拿來做。

基于以上,我們大概可以得知,結(jié)合 parameter-efficient tuning 和基于 random embedding 的非梯度優(yōu)化算法,就可以做到前文提到的使用推理 API 把下游任務(wù)做好(開除調(diào)參師傅)的愿景。下面我們給出了 black-box tuning 的一個(gè)具體實(shí)現(xiàn),比較懶,請(qǐng)大家讀 caption.

Black-Box Tuning

這樣我們發(fā)現(xiàn),大模型服務(wù)方僅需要執(zhí)行模型推理(即提供算力),任務(wù)性能的優(yōu)化由用戶自己完成(即根據(jù)推理結(jié)果優(yōu)化 prompt),這樣就不需要調(diào)參師傅了。此外,prompt 的優(yōu)化幾乎是不耗費(fèi)算力的,因此這一優(yōu)化過程可以在任何終端設(shè)備進(jìn)行,根本不需要 GPU,所有算力需求集中在大模型服務(wù)端。此外,這種優(yōu)化方式還解藕了優(yōu)化過程和模型前向傳播的復(fù)雜度,原本的梯度下降中,反向傳播的時(shí)間和內(nèi)存占用與模型前向傳播成正比,隨著模型越來越大,優(yōu)化也變得越來越昂貴;而 black-box tuning 的優(yōu)化過程本身不耗費(fèi)什么時(shí)間和內(nèi)存,且復(fù)雜度僅依賴于本征維度 d 的大小,與前向傳播的復(fù)雜度無關(guān)。

(說了這么多,效果還是最關(guān)鍵的,它得能 work,至少要比 manual prompt 和 in-context learning 好吧)于是,我們做了 true few-shot 的實(shí)驗(yàn),他竟然不僅 work 了,還比基于梯度的 prompt-tuning 和 fine-tuning 還要 work,請(qǐng)看下圖:

Forward is All You Need

結(jié)果就不做太多解讀了,畢竟我也還沒整明白。

但既然這條路走通了,可以想到很多有意思的方向可以繼續(xù)做,(出于本人畢業(yè)壓力,這里還不能告訴你們,只能隨便說幾個(gè))例如 inference as training:實(shí)際上我們的 black-box tuning 是可以和 fine-tuning 并存的,在 fine-tune 之后(調(diào)參師傅調(diào)完之后),你還可以一邊推理 - 一邊標(biāo)注 - 一邊繼續(xù)優(yōu)化你的 prompt,這樣就不用再麻煩調(diào)參師傅了;再有一個(gè)就是可以做一個(gè) Pre-Trained Optimizer for Pre-Trained Language Models,也就是前面說的幾個(gè)問題里的“大廠是否能夠發(fā)布推理 API 的同時(shí)也發(fā)布一輔助使用工具”。好了不能再說了,否則,我就成調(diào)參師傅了。

參考

Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning https://aclanthology.org/2021.acl-long.568.pdf

原文鏈接:https://zhuanlan.zhihu.com/p/455915295

? THE END

轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)

投稿或?qū)で髨?bào)道:content@jiqizhixin.com

原標(biāo)題:《黑箱優(yōu)化:大規(guī)模語言模型的一種落地方式》

閱讀原文

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋
            无套内谢孕妇毛片免费看 | 四虎永久在线精品8848A| 欧美肉大捧一进一出免费视频| 久久jiujiure| 国产免费福利网站| h片日韩精品| 国产亚洲精品欧洲在线视频| 日韩无码免费不卡| 国产精品v片在线观看不卡| 亚洲一区二区三区人妻av| 九色PORNY丨首页 入口在线| 人体大胆掰开下面| 日本熟妇人妻一区不卡| 国产精品制服丝袜无码| av国产剧情md精品麻豆| 一区二区三区国产偷拍| 性猛交富婆╳Ⅹ乱大交| 激情av片网址| www.伊人久久.com| 无码av免费看| 亚洲线精品一区二区三区| 在线播放波多野结衣| 亚洲无码精品久久久| XXX69人与公交少妇| 国产精品进线69影院| 免费视频一区二区三区在线观看| 亚洲另类无码专区丝袜| 99精品久久久久中文字幕| 午夜热门精品一区二区三区| 无码在线网站| 欧美人妻一区二区三区| 人妻在厨房被朋友玩呻| 黄色毛片视频| 精品一区二区三区影院在线午夜 | 国产AV一区二区三区四期| 97久久精品人人做人人爽| 天美色欲A V| 日韩人妻精品中文字幕| 区二区三区久久综| 又湿又紧又大又爽a视频| 国产毛片一区二区精品|