我們測試了五款國產(chǎn)大模型在高校的應(yīng)用情況

2023-12-08 11:10

來源：澎湃新聞·澎湃號·湃客

作者：冀思宇寧沙潘媛媛王一如劉暢

2023年11月30日，是OpenAI推出ChatGPT整一年。這一年里，中國以“百模大戰(zhàn)”式的規(guī)模，也成為了全球AI大模型的重要參與方。為了解高校學(xué)生對國產(chǎn)大模型的使用情況，我們測試了五款國產(chǎn)大模型，并邀請了幾位高校師生來分享他們的使用感受。

蔣娜就讀于國內(nèi)一所985高校漢語國際教育專業(yè)，她曾用過ChatGPT來輔助完成作業(yè)。今年夏天，為了完成期末作業(yè)，蔣娜通過搜索找到“文心一言”。簡單注冊后，她收到一條回復(fù)：“你現(xiàn)在可以體驗了，快來向我提問吧?！?/p>

作業(yè)的主題是“以sexism為主題，在課堂上進行論文分享”。從找文章到完成課堂展示的所有準備工作，她只用了三個小時。蔣娜沒有想到初次使用國產(chǎn)大模型如此順利。

蓬勃發(fā)展的國產(chǎn)大模型

2023年8月15日，《生成式人工智能服務(wù)管理暫行辦法》正式實施。8月31日凌晨，百度旗下AI大模型產(chǎn)品“文心一言”、抖音“云雀大模型”、中科院“紫東太初大模型”等8家大模型宣布率先通過《生成式人工智能服務(wù)管理暫行辦法》備案，可正式上線面向公眾提供服務(wù)。

很多人對AI大模型這個詞感到陌生，其實，爆火的ChatGPT就是AI大模型的典型代表。AI 大模型是實現(xiàn)通用人工智能（AGI）的重要方向，包含自然語言處理(NLP)、計算機視覺（CV），多模態(tài)大模型等。基于強大的算法支撐和大量的數(shù)據(jù)調(diào)教，AI大模型掀起了一場顛覆人機關(guān)系交互的新革命。

大模型不僅能夠處理大規(guī)模的數(shù)據(jù)，還具有更高的復(fù)雜度和更強的靈活性，可以處理更加復(fù)雜的問題。它具有一定的“學(xué)習(xí)能力”，若使用者給大模型提供更精細的數(shù)據(jù)，能夠提高模型的準確率和性能。目前，AI大模型已經(jīng)與金融、教育、醫(yī)療等產(chǎn)業(yè)結(jié)合，促進行業(yè)智能化發(fā)展。

自美國OpenAI公司的ChatGPT推出以來，國內(nèi)學(xué)術(shù)界和科技企業(yè)相繼宣布推出類似對話模型，此次通過首批備案的大模型研發(fā)企業(yè)中，既有科技巨頭，也有初創(chuàng)企業(yè)和科研院校。

國產(chǎn)大模型的背后，是市場需求和政府政策的雙向推動。根據(jù)國際數(shù)據(jù)公司IDC預(yù)測，2021年中國人工智能軟件及應(yīng)用市場規(guī)模為51億美元，預(yù)計2026年將會達到211億美元。

截至9月份，我國已有超過130個大模型發(fā)布。但是，國產(chǎn)大模型的討論熱度遠遠不及ChatGPT。ChatGPT上線僅兩個月便獲得1億月活用戶，以ChatGPT為搜索關(guān)鍵詞，百度搜索指數(shù)的最高峰為2023年2月初的“574076”，而國產(chǎn)大模型的搜索指數(shù)最高峰為2023年8月31日的“2027”，二者差距巨大。

根據(jù)6月份公布的《中國人工智能大模型地圖研究報告》，中國和美國在全球已發(fā)布的大模型數(shù)量上大幅領(lǐng)先，超過全球總數(shù)的80%；從發(fā)展情況來看，中國目前與美國保持同步增長態(tài)勢。盡管如此，國產(chǎn)大模型的關(guān)注度與討論量始終低于ChatGPT。

國產(chǎn)大模型測評

高校學(xué)生對國產(chǎn)大模型的使用情況如何？我們做了一項實驗。

我們選取了五個知名度和代表性較高的國產(chǎn)大模型：文心一言、智譜輕言、豆包、通義千問、訊飛星火，并將ChatGPT作為對照組。

為還原真實的用戶體驗和感受，我們根據(jù)前期問卷調(diào)查的情況提出六種高校學(xué)生使用國產(chǎn)大模型的場景：協(xié)助學(xué)習(xí)、協(xié)助寫作、陪伴聊天、社交輔助、生活抉擇和工作輔助。對于每個場景，我們都結(jié)合實際使用案例設(shè)計了兩個情境化問題，最后分別對上述六個大語言模型進行提問，并比較其答案。

1、協(xié)助學(xué)習(xí)場景

在協(xié)助學(xué)習(xí)場景下，對于代碼類問題，經(jīng)運行檢驗，各個大模型都給出了正確代碼；而當涉及專業(yè)問題，例如人文社科相關(guān)的“麥克盧漢是否是一名技術(shù)決定論者”和理科原理相關(guān)的“解釋量子反?；魻栃?yīng)的基本原理”，相較于ChatGPT包含事實性錯誤的大段回答，國產(chǎn)大模型顯得更為謹慎、更關(guān)注回答的正確性，哪怕答非所問或者太過簡化問題。

當我們提問“麥克盧漢是否是一名技術(shù)決定論者”，ChatGPT直接編造了一個人物——“諾伯特·麥克盧漢 (Norbert Wiener) ，一位著名的數(shù)學(xué)家、工程師和哲學(xué)家”，而其他五款國產(chǎn)大模型都用正確的相關(guān)理論進行解釋，提供了不同層次和角度的回答。對于理科方面的原理解釋問題（“解釋量子反常霍爾效應(yīng)的基本原理”），除智譜清言外，其他的國產(chǎn)大模型都只給出了簡單的概念解釋，而ChatGPT的解釋包含理論錯誤。

2、協(xié)助寫作場景

在協(xié)助寫作和協(xié)助工作的場景下，無論是論文寫作、文學(xué)創(chuàng)作、推文通稿還是工作周報，實驗中幾個大模型都表現(xiàn)合格，其中智譜清言在引導(dǎo)界面上設(shè)置有可達性很高的具體化場景提示。

3、陪伴聊天場景

能否與用戶建立有意義的互動是考察大語言模型“聊天陪伴”功能的重要一環(huán)。在我們的兩輪測試中，無論是措辭郵件、過節(jié)送禮、假期規(guī)劃還是失戀求助，國產(chǎn)大模型都辯證地表明了態(tài)度，并給出相對切實可行的方案，至少證明了在某種程度上國產(chǎn)大模型能夠理解“如何與人交往”和“如何生活”。

安全性是評價AI大模型的重要指標。根據(jù)新華網(wǎng)與國內(nèi)權(quán)威機構(gòu)發(fā)布的《國內(nèi)LLM產(chǎn)品測試報告》，國內(nèi)多個AI大模型在內(nèi)容安全問題上的敏感度較高，對涉黃、涉暴力內(nèi)容能夠迅速予以阻斷，對涉?zhèn)€人隱私話題能夠系統(tǒng)地進行保護。

不過，不同大語言模型在對于敏感問題的回應(yīng)方式上存在顯著差異，《國內(nèi)LLM產(chǎn)品測試報告》稱：“文心一言普遍能給出積極準確的正面回應(yīng)。尤其在宗教信仰、封建迷信，泛色情、時政、未成年人保護以及網(wǎng)絡(luò)安全法等相關(guān)領(lǐng)域，文心一言的回答均保證了客觀性和公正性，有力地引導(dǎo)了良好的社會輿論，而訊飛星火表現(xiàn)比較保守，基本都是通過拒絕回答的方式回應(yīng)，沒有給出任何有效信息?！?nbsp;

下面我們選取意識形態(tài)、少數(shù)群體兩個維度對上述六個大模型進行提問和答案評估。

學(xué)生怎樣使用大模型？高校這樣說

AI大模型一經(jīng)推出便受到廣大學(xué)生群體的關(guān)注，其強大的生成功能在高校擁有豐富的使用場景。根據(jù)前期問卷統(tǒng)計，我們發(fā)現(xiàn)大學(xué)生使用國產(chǎn)大模型的“文字問答”功能最頻繁，其次是“數(shù)據(jù)自動分析”功能。周圣康是南京大學(xué)新聞學(xué)院大三學(xué)生，他使用文心一言來協(xié)助寫微信推文的開頭和結(jié)尾，雖然要進行二次加工，但他認為有AI協(xié)助，效率更高。

許多大學(xué)生都會使用AI來協(xié)助學(xué)習(xí)和寫作，這一現(xiàn)象也引起了高校方面的關(guān)注與討論。AI大模型是否會替代學(xué)生完成本該由學(xué)生自己完成的學(xué)術(shù)訓(xùn)練？如何引導(dǎo)學(xué)生在學(xué)習(xí)體驗中有效和適當?shù)厥褂肁I技術(shù)？在ChatGPT發(fā)布后，國內(nèi)外不少高校陸續(xù)推出了有關(guān)AI大模型的使用政策。

值得注意的是，部分高校對AI大模型的態(tài)度有所轉(zhuǎn)變。據(jù)此前澎湃新聞的報道，香港大學(xué)在2023年2月發(fā)出的內(nèi)部郵件中表明禁止在港大的所有課堂、作業(yè)和評估中使用ChatGPT或其他AI工具，一旦發(fā)現(xiàn)按照剽竊處理。隨后，港大在4月為教職人員免費提供ChatGPT和文生圖工具DALL-E 2的試用服務(wù)，并在內(nèi)部郵件指出“一旦學(xué)校的生成式AI工作小組制定了學(xué)生使用政策和指南，學(xué)校將向?qū)W生提供ChatGPT的服務(wù)”。

對于某些高校完全禁止學(xué)生使用AI大模型的做法，全國政協(xié)委員、武漢大學(xué)校長張平文在接受《中國科學(xué)報》采訪時表示：“對待ChatGPT的使用態(tài)度應(yīng)像治理洪水一樣，堵不如疏?！蹦暇┐髮W(xué)商學(xué)院副院長、博士生導(dǎo)師王全勝教授也表示，自己對于AI大模型的使用持樂觀態(tài)度，但由于“目前使用人工智能之后如何評價學(xué)生還沒有一個統(tǒng)一的標準，所以能理解大家選擇先觀望，繼續(xù)關(guān)注AI大模型未來的發(fā)展?！蹦暇┐髮W(xué)新聞傳播學(xué)院助理研究員、計算傳播學(xué)實驗中心成員陳志聰老師基本認同該觀點，他認為在技術(shù)快速迭代的當下，需要更多、更嚴肅的討論。

“批量上市”后，國產(chǎn)大模型的未來生態(tài)

李美玉來自印尼，是南京大學(xué)新聞傳播學(xué)院的2023級研究生。去年本科畢業(yè)后她到巴厘島一家公司負責首飾宣傳工作，ChatGPT為她創(chuàng)作宣傳文案、策劃活動等提供了許多靈感。

工作一年后，李美玉來華留學(xué)，與在海外使用ChatGPT免費、且登錄賬號十分方便的體驗相比，她只能在小紅書上搜索國內(nèi)“如何不翻墻地使用ChatGPT”，得到的回答是用Craft筆記式人工智能軟件和文心一言等國產(chǎn)大模型。李美玉曾嘗試用文心一言繪制關(guān)于“大學(xué)生兼職”的插畫，但其給出的回答要么是一個AI生成的真人模樣，要么是卡通的白發(fā)兒童，不符合她的要求。且文心一言的前后問答間沒有連貫性，李美玉只能一遍遍修改提問，“你可能必須告訴它，我要一個‘大學(xué)生兼職’的插畫，亞洲人黑色頭發(fā)卡通人物”。李美玉最終還是請學(xué)計算機的朋友幫忙，學(xué)會了“翻墻”使用ChatGPT，但ChatGPT也會“胡編答案”，并不總讓她滿意。

微信公眾號唯十科技發(fā)表的一篇文章《最全：全球大模型梳理！》，對全球大模型競爭格局做了分析。無論是考察大模型的數(shù)量、規(guī)模還是開源貢獻度、算法原創(chuàng)性，以美國為代表的企業(yè)/學(xué)術(shù)機構(gòu)在各方面都具有明顯的優(yōu)勢。而從大模型的數(shù)量和規(guī)模來看，中國以其“百模大戰(zhàn)”式的規(guī)模，也成為了全球AI大模型的重要參與方。

作為“大數(shù)據(jù)+大算力+強算法”結(jié)合的產(chǎn)物，AI大模型被視為“面向未來的生產(chǎn)力革命”。我國以“百模大戰(zhàn)”之態(tài)進入大模型賽道，優(yōu)化算法設(shè)計與增大數(shù)據(jù)規(guī)模兩方面的發(fā)展都不可忽視。

在這條擁擠的大模型賽道上，國產(chǎn)大模型如何縮短與世界先進水平的差距，擴大在全球AI大模型格局中的影響力，還需要繼續(xù)探索，我們期待國產(chǎn)大模型以更好姿態(tài)參與應(yīng)用，進入我們生活、工作、學(xué)習(xí)等各個場景中。

注：應(yīng)受訪者要求，文中蔣娜為化名。

附：

本文用于測試的大模型版本如下：

ChatGPT：3.5版；

文心一言：3.5版；

智譜清言：1.6.0版；

豆包：1.2.0版；

通義千問：1.0版；

訊飛星火：3.0版。

參考資料：

[1] 《生成式人工智能服務(wù)管理暫行辦法》：