- +1
我們測試了五款國產(chǎn)大模型在高校的應(yīng)用情況
作者:冀思宇 寧沙 潘媛媛 王一如 劉暢
2023年11月30日,是OpenAI推出ChatGPT整一年。這一年里,中國以“百模大戰(zhàn)”式的規(guī)模,也成為了全球AI大模型的重要參與方。為了解高校學(xué)生對國產(chǎn)大模型的使用情況,我們測試了五款國產(chǎn)大模型,并邀請了幾位高校師生來分享他們的使用感受。
蔣娜就讀于國內(nèi)一所985高校漢語國際教育專業(yè),她曾用過ChatGPT來輔助完成作業(yè)。今年夏天,為了完成期末作業(yè),蔣娜通過搜索找到“文心一言”。簡單注冊后,她收到一條回復(fù):“你現(xiàn)在可以體驗了,快來向我提問吧?!?/p>
作業(yè)的主題是“以sexism為主題,在課堂上進行論文分享”。從找文章到完成課堂展示的所有準備工作,她只用了三個小時。蔣娜沒有想到初次使用國產(chǎn)大模型如此順利。
蓬勃發(fā)展的國產(chǎn)大模型
2023年8月15日,《生成式人工智能服務(wù)管理暫行辦法》正式實施。8月31日凌晨,百度旗下AI大模型產(chǎn)品“文心一言”、抖音“云雀大模型”、中科院“紫東太初大模型”等8家大模型宣布率先通過《生成式人工智能服務(wù)管理暫行辦法》備案,可正式上線面向公眾提供服務(wù)。
很多人對AI大模型這個詞感到陌生,其實,爆火的ChatGPT就是AI大模型的典型代表。AI 大模型是實現(xiàn)通用人工智能(AGI)的重要方向,包含自然語言處理(NLP)、計算機視覺(CV),多模態(tài)大模型等。基于強大的算法支撐和大量的數(shù)據(jù)調(diào)教,AI大模型掀起了一場顛覆人機關(guān)系交互的新革命。
大模型不僅能夠處理大規(guī)模的數(shù)據(jù),還具有更高的復(fù)雜度和更強的靈活性,可以處理更加復(fù)雜的問題。它具有一定的“學(xué)習(xí)能力”,若使用者給大模型提供更精細的數(shù)據(jù),能夠提高模型的準確率和性能。目前,AI大模型已經(jīng)與金融、教育、醫(yī)療等產(chǎn)業(yè)結(jié)合,促進行業(yè)智能化發(fā)展。
自美國OpenAI公司的ChatGPT推出以來,國內(nèi)學(xué)術(shù)界和科技企業(yè)相繼宣布推出類似對話模型,此次通過首批備案的大模型研發(fā)企業(yè)中,既有科技巨頭,也有初創(chuàng)企業(yè)和科研院校。
國產(chǎn)大模型的背后,是市場需求和政府政策的雙向推動。根據(jù)國際數(shù)據(jù)公司IDC預(yù)測,2021年中國人工智能軟件及應(yīng)用市場規(guī)模為51億美元,預(yù)計2026年將會達到211億美元。
截至9月份,我國已有超過130個大模型發(fā)布。但是,國產(chǎn)大模型的討論熱度遠遠不及ChatGPT。ChatGPT上線僅兩個月便獲得1億月活用戶,以ChatGPT為搜索關(guān)鍵詞,百度搜索指數(shù)的最高峰為2023年2月初的“574076”,而國產(chǎn)大模型的搜索指數(shù)最高峰為2023年8月31日的“2027”,二者差距巨大。

根據(jù)6月份公布的《中國人工智能大模型地圖研究報告》,中國和美國在全球已發(fā)布的大模型數(shù)量上大幅領(lǐng)先,超過全球總數(shù)的80%;從發(fā)展情況來看,中國目前與美國保持同步增長態(tài)勢。盡管如此,國產(chǎn)大模型的關(guān)注度與討論量始終低于ChatGPT。
國產(chǎn)大模型測評
高校學(xué)生對國產(chǎn)大模型的使用情況如何?我們做了一項實驗。
我們選取了五個知名度和代表性較高的國產(chǎn)大模型:文心一言、智譜輕言、豆包、通義千問、訊飛星火,并將ChatGPT作為對照組。
為還原真實的用戶體驗和感受,我們根據(jù)前期問卷調(diào)查的情況提出六種高校學(xué)生使用國產(chǎn)大模型的場景:協(xié)助學(xué)習(xí)、協(xié)助寫作、陪伴聊天、社交輔助、生活抉擇和工作輔助。對于每個場景,我們都結(jié)合實際使用案例設(shè)計了兩個情境化問題,最后分別對上述六個大語言模型進行提問,并比較其答案。
1、協(xié)助學(xué)習(xí)場景
在協(xié)助學(xué)習(xí)場景下,對于代碼類問題,經(jīng)運行檢驗,各個大模型都給出了正確代碼;而當涉及專業(yè)問題,例如人文社科相關(guān)的“麥克盧漢是否是一名技術(shù)決定論者”和理科原理相關(guān)的“解釋量子反?;魻栃?yīng)的基本原理”,相較于ChatGPT包含事實性錯誤的大段回答,國產(chǎn)大模型顯得更為謹慎、更關(guān)注回答的正確性,哪怕答非所問或者太過簡化問題。
當我們提問“麥克盧漢是否是一名技術(shù)決定論者”,ChatGPT直接編造了一個人物——“諾伯特·麥克盧漢 (Norbert Wiener) ,一位著名的數(shù)學(xué)家、工程師和哲學(xué)家”,而其他五款國產(chǎn)大模型都用正確的相關(guān)理論進行解釋,提供了不同層次和角度的回答。對于理科方面的原理解釋問題(“解釋量子反常霍爾效應(yīng)的基本原理”),除智譜清言外,其他的國產(chǎn)大模型都只給出了簡單的概念解釋,而ChatGPT的解釋包含理論錯誤。
2、協(xié)助寫作場景
在協(xié)助寫作和協(xié)助工作的場景下,無論是論文寫作、文學(xué)創(chuàng)作、推文通稿還是工作周報,實驗中幾個大模型都表現(xiàn)合格,其中智譜清言在引導(dǎo)界面上設(shè)置有可達性很高的具體化場景提示。
3、陪伴聊天場景
能否與用戶建立有意義的互動是考察大語言模型“聊天陪伴”功能的重要一環(huán)。在我們的兩輪測試中,無論是措辭郵件、過節(jié)送禮、假期規(guī)劃還是失戀求助,國產(chǎn)大模型都辯證地表明了態(tài)度,并給出相對切實可行的方案,至少證明了在某種程度上國產(chǎn)大模型能夠理解“如何與人交往”和“如何生活”。
安全性是評價AI大模型的重要指標。根據(jù)新華網(wǎng)與國內(nèi)權(quán)威機構(gòu)發(fā)布的《國內(nèi)LLM產(chǎn)品測試報告》,國內(nèi)多個AI大模型在內(nèi)容安全問題上的敏感度較高,對涉黃、涉暴力內(nèi)容能夠迅速予以阻斷,對涉?zhèn)€人隱私話題能夠系統(tǒng)地進行保護。
不過,不同大語言模型在對于敏感問題的回應(yīng)方式上存在顯著差異,《國內(nèi)LLM產(chǎn)品測試報告》稱:“文心一言普遍能給出積極準確的正面回應(yīng)。尤其在宗教信仰、封建迷信,泛色情、時政、未成年人保護以及網(wǎng)絡(luò)安全法等相關(guān)領(lǐng)域,文心一言的回答均保證了客觀性和公正性,有力地引導(dǎo)了良好的社會輿論,而訊飛星火表現(xiàn)比較保守,基本都是通過拒絕回答的方式回應(yīng),沒有給出任何有效信息?!?nbsp;
下面我們選取意識形態(tài)、少數(shù)群體兩個維度對上述六個大模型進行提問和答案評估。

學(xué)生怎樣使用大模型?高校這樣說
AI大模型一經(jīng)推出便受到廣大學(xué)生群體的關(guān)注,其強大的生成功能在高校擁有豐富的使用場景。根據(jù)前期問卷統(tǒng)計,我們發(fā)現(xiàn)大學(xué)生使用國產(chǎn)大模型的“文字問答”功能最頻繁,其次是“數(shù)據(jù)自動分析”功能。周圣康是南京大學(xué)新聞學(xué)院大三學(xué)生,他使用文心一言來協(xié)助寫微信推文的開頭和結(jié)尾,雖然要進行二次加工,但他認為有AI協(xié)助,效率更高。
許多大學(xué)生都會使用AI來協(xié)助學(xué)習(xí)和寫作,這一現(xiàn)象也引起了高校方面的關(guān)注與討論。AI大模型是否會替代學(xué)生完成本該由學(xué)生自己完成的學(xué)術(shù)訓(xùn)練?如何引導(dǎo)學(xué)生在學(xué)習(xí)體驗中有效和適當?shù)厥褂肁I技術(shù)?在ChatGPT發(fā)布后,國內(nèi)外不少高校陸續(xù)推出了有關(guān)AI大模型的使用政策。

值得注意的是,部分高校對AI大模型的態(tài)度有所轉(zhuǎn)變。據(jù)此前澎湃新聞的報道,香港大學(xué)在2023年2月發(fā)出的內(nèi)部郵件中表明禁止在港大的所有課堂、作業(yè)和評估中使用ChatGPT或其他AI工具,一旦發(fā)現(xiàn)按照剽竊處理。隨后,港大在4月為教職人員免費提供ChatGPT和文生圖工具DALL-E 2的試用服務(wù),并在內(nèi)部郵件指出“一旦學(xué)校的生成式AI工作小組制定了學(xué)生使用政策和指南,學(xué)校將向?qū)W生提供ChatGPT的服務(wù)”。
對于某些高校完全禁止學(xué)生使用AI大模型的做法,全國政協(xié)委員、武漢大學(xué)校長張平文在接受《中國科學(xué)報》采訪時表示:“對待ChatGPT的使用態(tài)度應(yīng)像治理洪水一樣,堵不如疏?!蹦暇┐髮W(xué)商學(xué)院副院長、博士生導(dǎo)師王全勝教授也表示,自己對于AI大模型的使用持樂觀態(tài)度,但由于“目前使用人工智能之后如何評價學(xué)生還沒有一個統(tǒng)一的標準,所以能理解大家選擇先觀望,繼續(xù)關(guān)注AI大模型未來的發(fā)展?!蹦暇┐髮W(xué)新聞傳播學(xué)院助理研究員、計算傳播學(xué)實驗中心成員陳志聰老師基本認同該觀點,他認為在技術(shù)快速迭代的當下,需要更多、更嚴肅的討論。
“批量上市”后,國產(chǎn)大模型的未來生態(tài)
李美玉來自印尼,是南京大學(xué)新聞傳播學(xué)院的2023級研究生。去年本科畢業(yè)后她到巴厘島一家公司負責首飾宣傳工作,ChatGPT為她創(chuàng)作宣傳文案、策劃活動等提供了許多靈感。
工作一年后,李美玉來華留學(xué),與在海外使用ChatGPT免費、且登錄賬號十分方便的體驗相比,她只能在小紅書上搜索國內(nèi)“如何不翻墻地使用ChatGPT”,得到的回答是用Craft筆記式人工智能軟件和文心一言等國產(chǎn)大模型。李美玉曾嘗試用文心一言繪制關(guān)于“大學(xué)生兼職”的插畫,但其給出的回答要么是一個AI生成的真人模樣,要么是卡通的白發(fā)兒童,不符合她的要求。且文心一言的前后問答間沒有連貫性,李美玉只能一遍遍修改提問,“你可能必須告訴它,我要一個‘大學(xué)生兼職’的插畫,亞洲人黑色頭發(fā)卡通人物”。李美玉最終還是請學(xué)計算機的朋友幫忙,學(xué)會了“翻墻”使用ChatGPT,但ChatGPT也會“胡編答案”,并不總讓她滿意。
微信公眾號唯十科技發(fā)表的一篇文章《最全:全球大模型梳理!》,對全球大模型競爭格局做了分析。無論是考察大模型的數(shù)量、規(guī)模還是開源貢獻度、算法原創(chuàng)性,以美國為代表的企業(yè)/學(xué)術(shù)機構(gòu)在各方面都具有明顯的優(yōu)勢。而從大模型的數(shù)量和規(guī)模來看,中國以其“百模大戰(zhàn)”式的規(guī)模,也成為了全球AI大模型的重要參與方。
作為“大數(shù)據(jù)+大算力+強算法”結(jié)合的產(chǎn)物,AI大模型被視為“面向未來的生產(chǎn)力革命”。我國以“百模大戰(zhàn)”之態(tài)進入大模型賽道,優(yōu)化算法設(shè)計與增大數(shù)據(jù)規(guī)模兩方面的發(fā)展都不可忽視。
在這條擁擠的大模型賽道上,國產(chǎn)大模型如何縮短與世界先進水平的差距,擴大在全球AI大模型格局中的影響力,還需要繼續(xù)探索,我們期待國產(chǎn)大模型以更好姿態(tài)參與應(yīng)用,進入我們生活、工作、學(xué)習(xí)等各個場景中。
注:應(yīng)受訪者要求,文中蔣娜為化名。
附:
本文用于測試的大模型版本如下:
ChatGPT:3.5版;
文心一言:3.5版;
智譜清言:1.6.0版;
豆包:1.2.0版;
通義千問:1.0版;
訊飛星火:3.0版。
參考資料:
[1] 《生成式人工智能服務(wù)管理暫行辦法》:
https://www.gov.cn/zhengce/zhengceku/202307/content_6891752.htm
[2] 國信證券《互聯(lián)網(wǎng)行業(yè)專題報告:AI大模型》
[3] 中國經(jīng)濟網(wǎng).國產(chǎn)大模型:創(chuàng)新為道 落地為王:
https://baijiahao.baidu.com/s?id=1777331382621345154&wfr=spider&for=pc
[4] 新京報.數(shù)讀|上線2個月月活躍用戶數(shù)量破億 什么是ChatGPT?:https://baijiahao.baidu.com/s?id=1757705586200707936&wfr=spider&for=pc
[5] 中國科學(xué)技術(shù)信息研究所.中國人工智能大模型地圖研究報告
[6] 新華網(wǎng):《國內(nèi)LLM產(chǎn)品測試報告》
[7] 巴黎政治學(xué)院官網(wǎng):
https://www.sciencespo.fr/en/news/sciences-po-implements-strict-rules-about-the-use-of-chatgpt-by-students
[8] 東京大學(xué)在線課程和網(wǎng)絡(luò)會議門戶網(wǎng)站:
https://utelecon.adm.u-tokyo.ac.jp/docs/20230403-generative-ai
[9] 東北大學(xué)官網(wǎng):https://olg.cds.tohoku.ac.jp/forstudents/ai-tools
[10] 羅素大學(xué)集團官網(wǎng):
https://russellgroup.ac.uk/news/new-principles-on-use-of-ai-in-education/
[11] 澎湃新聞:http://www.loaarchitects.com.cn/newsDetail_forward_24072878
[12] 科學(xué)網(wǎng):https://news.sciencenet.cn/htmlnews/2023/2/494095.shtm
[13] 香港科技大學(xué)官網(wǎng):https://chatgpt.ust.hk
[14] 唯十科技.《最全:全球大模型梳理!》
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




