- +1
智源AI研究院回應(yīng)大模型論文學(xué)術(shù)爭議
“我們已經(jīng)注意到對《A Roadmap for Big Model》一文的質(zhì)疑,正在對相關(guān)情況進行核實,智源研究院鼓勵學(xué)術(shù)創(chuàng)新和學(xué)術(shù)交流,對學(xué)術(shù)不端零容忍,有關(guān)進展將盡快通報。”4月13日,北京智源人工智能研究院回復(fù)谷歌大腦(Google Brain)的著名科學(xué)家Nicholas Carlini對一項中外合作大型學(xué)術(shù)論文涉嫌剽竊的指控。

此前4月8日,Nicholas Carlini公開撰文,指控一篇于今年3月26日刊登在論文預(yù)印網(wǎng)站Arxiv的論文《關(guān)于“大模型”的路線圖》(“A Roadmap for Big Model”)一文涉嫌嚴(yán)重抄襲。
該文是前不久國內(nèi)外多家高校和企業(yè)共同完成的長達(dá)200頁的學(xué)術(shù)綜述論文,有多達(dá)100名作者,分別來自于清華大學(xué)、北京大學(xué)等國內(nèi)高校,哥倫比亞大學(xué)、蒙特利爾大學(xué)等國外高校,字節(jié)跳動、華為、京東、騰訊等企業(yè)以及中科院和北京智源等機構(gòu)。

Nicholas Carlini在文章《機器學(xué)習(xí)研究中的一個抄襲案例》(“A Case of Plagarism in Machine Learning Research”)中則詳細(xì)列舉了該論文存在大段抄襲其他論文的嫌疑,證據(jù)是大規(guī)模的文本重疊,疑似被剽竊的論文也包括他自己的論文“Deduplicating Training Data Makes Language Models Better”。

Nicholas Carlini在文章中解釋,他們是在閱讀這篇論文時發(fā)現(xiàn)很多語句都非常的熟悉,然后通過使用論文查重工具發(fā)現(xiàn)了更多的證據(jù),進而準(zhǔn)確定位《關(guān)于“大模型”的路線圖》論文中和已有論文中存在剽竊嫌疑的文本內(nèi)容。
澎湃記者發(fā)現(xiàn),這篇被質(zhì)疑的論文目前已經(jīng)被其發(fā)表網(wǎng)站Arxiv在頁面上備注了該文和Nicholas Carlini的論文有“文本重疊”(text overlap)。

此前3月31日,北京智源社區(qū)撰文以《如何煉大模型?200頁pdf100+位作者19家單位!北京智源清華唐杰等發(fā)布》介紹該篇論文:
“隨著以深度學(xué)習(xí)為代表的AI技術(shù)的快速發(fā)展,智能模型的訓(xùn)練應(yīng)用模式逐漸由‘大煉模型’向‘煉大模型’轉(zhuǎn)變。大模型研究在近年來發(fā)展迅速,模型的參數(shù)量以驚人的速度擴展。北京智源人工智能研究院最近發(fā)布的《A Roadmap for Big Model》由悟道大模型研究項目負(fù)責(zé)人,智源學(xué)術(shù)副院長,清華大學(xué)計算機系教授唐杰牽頭,從大模型基礎(chǔ)資源、大模型構(gòu)建、大模型關(guān)鍵技術(shù)與大模型應(yīng)用探索4個層面出發(fā),對15個具體領(lǐng)域的16個相關(guān)主題進行全面介紹和探討。非常值得關(guān)注?!?/p>
《關(guān)于“大模型”的路線圖》中的研究主體“大模型”是近幾年人工智能的熱門關(guān)注領(lǐng)域。人工智能發(fā)展到今天,GPT和BERT等參數(shù)量巨大的模型被人們開發(fā)出來,他們在計算機視覺和自然語言處理等領(lǐng)域取得了前所未有的成就。同時,因為大模型參數(shù)量巨大,最近學(xué)術(shù)界開始將它們當(dāng)作一類特別的人工智能模型進行研究。
在一篇去年發(fā)布的,由斯坦福教授李飛飛等領(lǐng)銜的約百名作者署名論文將此類模型稱為“基礎(chǔ)模型”(Foundation Model),這篇由清華主要參與的論文關(guān)注與此相同含義的“大模型”(Big Model)的未來研究路徑。在清華的論文中,作者們介紹到“之前論文提及的'基礎(chǔ)模型'在中文語境中也被稱為‘大模型’”(“The mentioned foundation model is known as the BMs, and it is called Big Model in the Chinese context.” )。

這起“涉嫌抄襲”事件在國外社交媒體上引起熱議?;F盧大學(xué)教授Gautam Kamath表示,對于一篇有如此多作者的文章,他很驚訝沒有一個作者注意到相似之處并且去改正它。






- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




