- +1
放話挑戰(zhàn)GPT-3,以色列推出參數(shù)多30億、詞條多5倍的新語言模型
豐色 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號 QbitAI
GPT-3有多厲害不用多說了吧?
現(xiàn)在,以色列特拉維夫一家AI公司——AI21 Labs表示要挑戰(zhàn)一下這個(gè)巨星在NLP領(lǐng)域的主導(dǎo)地位。

他們計(jì)劃發(fā)布一個(gè)比GPT-3還要大的模型,且目前不用排隊(duì)苦苦申請,所有人都可以免費(fèi)“調(diào)教”。
大多少呢?
GPT-3模型擁有1750億個(gè)參數(shù),而他們這個(gè)叫做Jurassic-1(侏羅紀(jì)-1)的模型有1780億個(gè)。
GPT-3模型的詞匯表有5萬個(gè)token,而Jurassic-1使用的詞匯表則有25萬個(gè)!

對所有人開放,訓(xùn)練只需提供50-100個(gè)樣本
Jurassic-1模型的訓(xùn)練數(shù)據(jù)包括3000億個(gè)tokens,由維基百科、新聞出版物、StackExchange(問答網(wǎng)站)和OpenSubtitles(全球最大的多國語言開放字幕庫)上的信息編譯而來。
在云上經(jīng)過數(shù)百個(gè)GPU的分布式訓(xùn)練而成,由于最終存儲1780億個(gè)參數(shù)需要超過350GB的內(nèi)存,這就要求開發(fā)團(tuán)隊(duì)使用多種策略來盡可能提高流程的效率。
而減少文本表示所需的token數(shù)就是一個(gè)好辦法。
Jurassic-1使用的詞匯表不僅包括了完整詞和分詞(word piece),還挖掘了一些不太常見的詞或詞組,比如“紐約洋基隊(duì)”、“run of the mill(習(xí)語,平庸的)”、國家元首名字。
這也是Jurassic-1成為第一個(gè)使用包含多詞匯 (muti-word) token的語言模型。
這就讓模型的效率提上來了,比如“Once in a while I like to visit New York City”這句,GPT-3需要使用11個(gè)token來表示,而Jurassic-1只需4個(gè)。

Jurassic-1模型的規(guī)模大了30億參數(shù),GPT-3能干的活它自然也“不甘示弱”:生成“人話”自不用說,文本轉(zhuǎn)表格、話題分類、Python轉(zhuǎn)JavaScript、從產(chǎn)品描述中生成簡短的產(chǎn)品名稱、寫歌、算數(shù)等從簡單到復(fù)雜的任務(wù)都能hold住。

△ Jurassic-1重新解讀商場“黑話”

△ Jurassic-1寫博客
性能如何呢?
實(shí)驗(yàn)顯示,Jurassic-1模型在一系列任務(wù)中的表現(xiàn)與GPT-3相當(dāng)或更好 (尤其是在回答學(xué)術(shù)和法律問題方面)。
下表說明了在幾乎所有的語料庫中,Jurassic-1模型的適用性都大幅領(lǐng)先對手GPT-3。

△各種預(yù)料庫中每個(gè)字節(jié)的平均對數(shù)概率(log-probabilities)
此外,與GPT-3相比,Jurassic-1在零樣本學(xué)習(xí)中與之性能持平,但在少樣本學(xué)習(xí)中略勝一籌,這也是因?yàn)樗膖okenizer可以在相同的上下文長度中容納更多的文本,因此可以在prompt中包含更多的示例。

△零樣本實(shí)驗(yàn)結(jié)果

△少樣本實(shí)驗(yàn)結(jié)果
現(xiàn)在,Jurassic-1模型的公測版本已通過AI21 Labs的Studio平臺提供給開發(fā)人員使用,大家訓(xùn)練只需提供50-100個(gè)樣本,就能搭建一些諸如聊天機(jī)器人的應(yīng)用程序原型。
無論你是大中小企業(yè)、研究員、自由職業(yè)者還是什么身份,所有人都可以不用排隊(duì)申請就能使用。
如果有人希望上線自己搭出來的成果,獲得生產(chǎn)規(guī)模流量,可申請?jiān)L問定制模型并獲得私有微調(diào)版本,在一個(gè)“按量付費(fèi)” (pay-as-you-go )的云服務(wù)模式中使用。
ps.多少人申請的GPT-3 API一直是still waiting的狀態(tài)?
不過,至于如何將模型定制到新任務(wù)上,AI21 Labs表示這是個(gè)秘密,但反正過程會比標(biāo)準(zhǔn)微調(diào)技術(shù)更具有魯棒性。
因此,模型不太會容易“大面積失憶”,也就是在新任務(wù)上的繼續(xù)微調(diào)不會丟失此前編進(jìn)去的信息。
雖然自己罵自己,但它的語言偏見略低于GPT-3
可能你也會說,Jurassic-1在根本上也沒啥大新奇之處。
但復(fù)刻了GPT-3的開源AI研究機(jī)構(gòu)EleutherAI表示,這是一項(xiàng)工程壯舉,而且他們毫不懷疑Jurassic-1能執(zhí)行出與GPT-3相當(dāng)?shù)男Ч?/p>
不過問題是此類服務(wù)能否在激烈的競爭中盈利,以及如何處理不可避免的安全問題,比如模型的語言偏見。
Jurassic-1當(dāng)然也沒有解決模型輸出潛在的性別、種族和宗教以及其他形式的偏見。
但團(tuán)隊(duì)表示非常重視這個(gè)問題,目前正在限制在公開測試版中可以生成的文本數(shù)量,并且將人工審查每個(gè)微調(diào)模型的請求以防止濫用。
不知道能解決多少問題,反正Jurassic-1連自己人都罵
!
就比如下面這個(gè),Jurassic-1生成了歧視猶太人的文本:


最后團(tuán)隊(duì)只是“弱弱”地表示,通過StereoSet(語言系統(tǒng)中與性別、職業(yè)、種族和宗教相關(guān)的偏見評估基準(zhǔn))測試發(fā)現(xiàn),Jurassic-1模型的偏見略低于GPT-3。
關(guān)于AI21 Labs
以色列一家專注于自然語言處理的AI公司,2017年成立,目前從以色列最大的創(chuàng)投機(jī)構(gòu)Pitango等公司獲得了3450萬美元資金。
創(chuàng)始人包括斯坦福大學(xué)名譽(yù)教授Yoav Shoham,CrowdX創(chuàng)始人和以色列輔助駕駛系統(tǒng)Mobileye的創(chuàng)始人Amnon Shashua ,目前有40多名員工。

Jurassic-1“調(diào)教”地址:
https://studio.ai21.com/playground
參考鏈接:
[1]https://www.ai21.com/blog/announcing-ai21-studio-and-jurassic-1
[2]https://venturebeat.com/2021/08/11/ai21-labs-trains-a-massive-language-model-to-rival-openais-gpt-3/
[3]https://uploads-ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf
— 完 —
本文系網(wǎng)易新聞?網(wǎng)易號特色內(nèi)容激勵(lì)計(jì)劃簽約賬號【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號授權(quán),禁止隨意轉(zhuǎn)載。
原標(biāo)題:《放話挑戰(zhàn)GPT-3!以色列推出參數(shù)多30億、詞條多5倍的新語言模型|公測不用排隊(duì)》
本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




