下載客戶端

登錄

放話挑戰(zhàn)GPT-3，以色列推出參數(shù)多30億、詞條多5倍的新語言模型

2021-08-16 07:19

來源：澎湃新聞·澎湃號·湃客

豐色發(fā)自凹非寺

量子位報(bào)道 | 公眾號 QbitAI

GPT-3有多厲害不用多說了吧？

現(xiàn)在，以色列特拉維夫一家AI公司——AI21 Labs表示要挑戰(zhàn)一下這個(gè)巨星在NLP領(lǐng)域的主導(dǎo)地位。

他們計(jì)劃發(fā)布一個(gè)比GPT-3還要大的模型，且目前不用排隊(duì)苦苦申請，所有人都可以免費(fèi)“調(diào)教”。

大多少呢？

GPT-3模型擁有1750億個(gè)參數(shù)，而他們這個(gè)叫做Jurassic-1(侏羅紀(jì)-1)的模型有1780億個(gè)。

GPT-3模型的詞匯表有5萬個(gè)token，而Jurassic-1使用的詞匯表則有25萬個(gè)！

對所有人開放，訓(xùn)練只需提供50-100個(gè)樣本

Jurassic-1模型的訓(xùn)練數(shù)據(jù)包括3000億個(gè)tokens，由維基百科、新聞出版物、StackExchange（問答網(wǎng)站）和OpenSubtitles（全球最大的多國語言開放字幕庫）上的信息編譯而來。

在云上經(jīng)過數(shù)百個(gè)GPU的分布式訓(xùn)練而成，由于最終存儲1780億個(gè)參數(shù)需要超過350GB的內(nèi)存，這就要求開發(fā)團(tuán)隊(duì)使用多種策略來盡可能提高流程的效率。

而減少文本表示所需的token數(shù)就是一個(gè)好辦法。

Jurassic-1使用的詞匯表不僅包括了完整詞和分詞（word piece），還挖掘了一些不太常見的詞或詞組，比如“紐約洋基隊(duì)”、“run of the mill（習(xí)語，平庸的）”、國家元首名字。

這也是Jurassic-1成為第一個(gè)使用包含多詞匯（muti-word） token的語言模型。

這就讓模型的效率提上來了，比如“Once in a while I like to visit New York City”這句，GPT-3需要使用11個(gè)token來表示，而Jurassic-1只需4個(gè)。

Jurassic-1模型的規(guī)模大了30億參數(shù)，GPT-3能干的活它自然也“不甘示弱”：生成“人話”自不用說，文本轉(zhuǎn)表格、話題分類、Python轉(zhuǎn)JavaScript、從產(chǎn)品描述中生成簡短的產(chǎn)品名稱、寫歌、算數(shù)等從簡單到復(fù)雜的任務(wù)都能hold住。

△ Jurassic-1重新解讀商場“黑話”

△ Jurassic-1寫博客

性能如何呢？

實(shí)驗(yàn)顯示，Jurassic-1模型在一系列任務(wù)中的表現(xiàn)與GPT-3相當(dāng)或更好 (尤其是在回答學(xué)術(shù)和法律問題方面)。

下表說明了在幾乎所有的語料庫中，Jurassic-1模型的適用性都大幅領(lǐng)先對手GPT-3。

△各種預(yù)料庫中每個(gè)字節(jié)的平均對數(shù)概率（log-probabilities）

此外，與GPT-3相比，Jurassic-1在零樣本學(xué)習(xí)中與之性能持平，但在少樣本學(xué)習(xí)中略勝一籌，這也是因?yàn)樗膖okenizer可以在相同的上下文長度中容納更多的文本，因此可以在prompt中包含更多的示例。

△零樣本實(shí)驗(yàn)結(jié)果

△少樣本實(shí)驗(yàn)結(jié)果

現(xiàn)在，Jurassic-1模型的公測版本已通過AI21 Labs的Studio平臺提供給開發(fā)人員使用，大家訓(xùn)練只需提供50-100個(gè)樣本，就能搭建一些諸如聊天機(jī)器人的應(yīng)用程序原型。

無論你是大中小企業(yè)、研究員、自由職業(yè)者還是什么身份，所有人都可以不用排隊(duì)申請就能使用。

如果有人希望上線自己搭出來的成果，獲得生產(chǎn)規(guī)模流量，可申請?jiān)L問定制模型并獲得私有微調(diào)版本，在一個(gè)“按量付費(fèi)” （pay-as-you-go ）的云服務(wù)模式中使用。

ps.多少人申請的GPT-3 API一直是still waiting的狀態(tài)？

不過，至于如何將模型定制到新任務(wù)上，AI21 Labs表示這是個(gè)秘密，但反正過程會比標(biāo)準(zhǔn)微調(diào)技術(shù)更具有魯棒性。

因此，模型不太會容易“大面積失憶”，也就是在新任務(wù)上的繼續(xù)微調(diào)不會丟失此前編進(jìn)去的信息。

雖然自己罵自己，但它的語言偏見略低于GPT-3

可能你也會說，Jurassic-1在根本上也沒啥大新奇之處。

但復(fù)刻了GPT-3的開源AI研究機(jī)構(gòu)EleutherAI表示，這是一項(xiàng)工程壯舉，而且他們毫不懷疑Jurassic-1能執(zhí)行出與GPT-3相當(dāng)?shù)男Ч?/p>

不過問題是此類服務(wù)能否在激烈的競爭中盈利，以及如何處理不可避免的安全問題，比如模型的語言偏見。

Jurassic-1當(dāng)然也沒有解決模型輸出潛在的性別、種族和宗教以及其他形式的偏見。

但團(tuán)隊(duì)表示非常重視這個(gè)問題，目前正在限制在公開測試版中可以生成的文本數(shù)量，并且將人工審查每個(gè)微調(diào)模型的請求以防止濫用。

不知道能解決多少問題，反正Jurassic-1連自己人都罵

！

就比如下面這個(gè)，Jurassic-1生成了歧視猶太人的文本：

最后團(tuán)隊(duì)只是“弱弱”地表示，通過StereoSet（語言系統(tǒng)中與性別、職業(yè)、種族和宗教相關(guān)的偏見評估基準(zhǔn)）測試發(fā)現(xiàn)，Jurassic-1模型的偏見略低于GPT-3。

關(guān)于AI21 Labs

以色列一家專注于自然語言處理的AI公司，2017年成立，目前從以色列最大的創(chuàng)投機(jī)構(gòu)Pitango等公司獲得了3450萬美元資金。

創(chuàng)始人包括斯坦福大學(xué)名譽(yù)教授Yoav Shoham，CrowdX創(chuàng)始人和以色列輔助駕駛系統(tǒng)Mobileye的創(chuàng)始人Amnon Shashua ，目前有40多名員工。

Jurassic-1“調(diào)教”地址：

https://studio.ai21.com/playground

參考鏈接：

[1]https://www.ai21.com/blog/announcing-ai21-studio-and-jurassic-1

[2]https://venturebeat.com/2021/08/11/ai21-labs-trains-a-massive-language-model-to-rival-openais-gpt-3/

[3]https://uploads-ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf

— 完 —

本文系網(wǎng)易新聞?網(wǎng)易號特色內(nèi)容激勵(lì)計(jì)劃簽約賬號【量子位】原創(chuàng)內(nèi)容，未經(jīng)賬號授權(quán)，禁止隨意轉(zhuǎn)載。

原標(biāo)題：《放話挑戰(zhàn)GPT-3！以色列推出參數(shù)多30億、詞條多5倍的新語言模型｜公測不用排隊(duì)》

閱讀原文

特別聲明

本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報(bào)

#GPT-3 #Jurassic-1 #語言模型

掃碼下載澎湃新聞客戶端

澎湃矩陣

澎湃新聞微博
澎湃新聞公眾號
澎湃新聞抖音號
派生萬物開放平臺
IP SHANGHAI
SIXTH TONE

新聞報(bào)料

報(bào)料熱線: 021-962866
報(bào)料郵箱: news@thepaper.cn

滬ICP備14003370號

滬公網(wǎng)安備31010602000299號

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：31120170006

增值電信業(yè)務(wù)經(jīng)營許可證：滬B2-2017116

? 2014-2025 上海東方報(bào)業(yè)有限公司

反饋

日本护士毛茸茸高潮,亚洲精品自偷自拍无码,久久精品国产一区二区三区,日韩人妻无码免费视频一二区

放話挑戰(zhàn)GPT-3，以色列推出參數(shù)多30億、詞條多5倍的新語言模型

掃碼下載澎湃新聞客戶端

放話挑戰(zhàn)GPT-3，以色列推出參數(shù)多30億、詞條多5倍的新語言模型