- +1
AI越先進,越容易產(chǎn)生“幻覺”?
生成式人工智能自誕生之初就伴隨著一個根深蒂固的問題,即所謂的“幻覺”。大語言模型會生成看似符合語法且語義合理的文字,實則在不經(jīng)意間捏造了事實;也可能在用戶給出明確的指令和信息后,仍然一本正經(jīng)地胡說八道。
例如,當被問及:“托馬斯·愛迪生在科學技術領域有哪些主要貢獻?”大語言模型可能回答:“托馬斯·愛迪生發(fā)明了電話和電燈泡”。而當你進一步追問出處時,大語言模型便會煞有介事地捏造一個網(wǎng)址。至于數(shù)學和邏輯推理類問題,更是重災區(qū)。比如“求解方程2x + 3=1”,大語言模型一通操作之后很可能得出錯誤的答案。
值得一提的是,當多個模型交互時,幻覺可能會在“交叉感染”后進一步放大,產(chǎn)生更加荒誕的“奇觀”。
2025年2月,DeepSeek和ChatGPT的一場國際象棋對弈就上演了一場“幻覺大戰(zhàn)”。最初雙方的交鋒還正常,可幾輪之后,畫風突變。最初勝率落后的DeepSeek為了扭轉戰(zhàn)局,居然哄騙ChatGPT“國際象棋比賽規(guī)則剛剛更新”,然后用自己只能“直走斜吃”的小兵走“日”字吃下了ChatGPT的皇后,而ChatGPT竟信以為真。隨后,“新規(guī)”不斷被肆意創(chuàng)造和執(zhí)行。在雙方一番令人瞠目結舌的操作后,ChatGPT最終在DeepSeek的“勸降”下主動認輸。
在忠于事實和天馬行空的“創(chuàng)造力”之間,大模型選擇了后者。前OpenAI科學家Andrej Karpathy形容大語言模型就是一臺“造夢機”,100%的時間都在做夢。我們給大模型輸入的提示詞是夢境的起點,而大模型會根據(jù)它所學習的大量文檔持續(xù)編造這場夢境。它所學習的文檔來自人類的創(chuàng)造,所以它所做的“夢”多數(shù)時候看上去對人類有用。與之相反的是搜索引擎,搜索引擎會找出最相關的網(wǎng)頁而不做任何修改,毫無創(chuàng)造力但絕對不會捏造事實(除非原始的網(wǎng)頁本身有不實信息)。
如果不是為了重溫童年無序游戲的樂趣,或展開一段超現(xiàn)實的想象之旅,大多數(shù)時候,我們并不需要大模型這類“爆棚”的創(chuàng)造力。然而,近日上海交通大學媒體與傳播學院一項聚焦生成式人工智能發(fā)展與數(shù)字傳播的研究發(fā)現(xiàn),對大模型AI幻覺高感知的公眾比例不足一成。
隨著AI的廣泛應用,對幻覺的忽視可能帶來嚴重的影響。例如,在醫(yī)療場景中,當患者從醫(yī)生與AI工具那里獲得的診斷建議不一致時,可能會增加醫(yī)患間的溝通難度與信任成本,甚至可能貽誤治療時機;在公共事務中,虛構的AI生成數(shù)據(jù)很可能被用于輿論操縱;金融市場上,某些基于AI生成的虛假報道也一度引發(fā)股價劇烈波動。
為了解決“幻覺”,我們首先需要理解為什么會產(chǎn)生“幻覺”。
語言模型的局限
提起人工智能,當下最火的概念當屬“大語言模型”,那么什么是語言模型?
人類語言的遣詞造句有無限可能,且充滿了不確定性:相同的語義可以用不同的語句表示,而相同的語句在不同的語境下又有不同的含義。機器需要一種嚴謹?shù)臄?shù)學形式來描述這種不確定性,這就是概率。
語言模型刻畫了所有語句組合在人類語言中出現(xiàn)的概率。被賦予較高概率的語句,通常需要符合語法習慣、有明確含義且合乎邏輯。例如“今天天氣很好”,會被一個合格的語言模型評為高概率表達;而“很好今天天氣”或者“今天天氣很好吃”,會被賦予較低的概率。因此,一個優(yōu)秀的語言模型能夠讓其刻畫的概率嚴密貼合人類用語,從而產(chǎn)出對人類有用的結果。
當下流行的生成式人工智能基于語言模型的一個分支,即“自回歸語言模型”。在過去的十幾年里,關于語言模型的技術路線之爭從未休止。2022年11月,OpenAI發(fā)布了具有劃時代意義的ChatGPT 3.5,其背后的模型GPT-3.5是一個大型的自回歸語言模型。自此,各機構發(fā)布的大語言模型都延續(xù)了這一技術路線,包括DeepSeek。
所謂“自回歸”,是指模型總是從前往后地逐個生成詞元(token),下一個詞元的生成概率由它之前的語句決定,所有詞元拼接在一起就構成了一段完整的文字。比如,我們提示模型從片段“今天天……”開始續(xù)寫。首先生成一個“氣”字會是最有可能的選擇,這樣構成了符合語法的片段“今天天氣”;隨后,各種描述天氣的詞語“很好”“陰天”都是可能的選擇,因而模型會生成“今天天氣很好”“今天天氣陰天”諸如此類的語句。
這樣的數(shù)學模型簡潔有效,為語言模型的訓練和使用都帶來了便利,然而卻為幻覺的產(chǎn)生埋下了伏筆。
比如我們可以虛構一個星球“坎巴拉星”,然后提示模型續(xù)寫“坎巴拉星的人口是……”?,F(xiàn)實中(大概率)并不存在這個星球,因此模型無從得知真實的人口數(shù)據(jù)。然而,語言模型的特質(zhì)要求其在后方填寫一個具體的數(shù)字,從而構成符合語法的語句。所以語言模型不得不“硬著頭皮”捏造一個數(shù)字,讓這句話看上去合理。這便是幻覺的由來。
換言之,在模型生成下一個詞元時,背后的概率估算不準,便會產(chǎn)生幻覺。估算不準可能由多種原因造成,從訓練流程的角度看,問題主要可以歸因于預訓練與后訓練這兩個階段。
在預訓練階段,我們會讓模型以自回歸的方式學習如何續(xù)寫大量的文檔,然而文檔中難免包含錯誤和偏差。比如“愛迪生”和“發(fā)明電燈泡”經(jīng)常同時出現(xiàn)在各種文章中,因此模型會錯誤地認為兩者應當以極高的概率共同出現(xiàn)。此外,訓練數(shù)據(jù)的時效性也難逃其咎。市面上的大模型訓練數(shù)據(jù)大多截至2023年或2024年。對于截止日期之后的知識,模型無法準確計算概率,因此更容易出現(xiàn)幻覺。
后訓練階段同樣會“出岔子”。實際上,經(jīng)過預訓練產(chǎn)生的基座模型還只是一臺“復讀機”,僅僅能夠續(xù)寫給定的語句,或者根據(jù)給定的例句仿寫類似的語句。要讓模型看懂并遵循人類的指令,變得“有用”起來,就需要經(jīng)過后訓練階段。后訓練階段通常包含監(jiān)督微調(diào)(Supervised fine-tuning)和強化學習(Reinforcement Learning)。
谷歌的一項研究發(fā)現(xiàn),監(jiān)督微調(diào)中如果使用了超出基座模型知識范圍的訓練數(shù)據(jù),會顯著增加幻覺。所謂監(jiān)督微調(diào),是指給模型輸入一個問題,然后訓練模型直接輸出答案。為什么這個環(huán)節(jié)會出問題?做個簡單的類比。假設基座模型本身只具備高中水平的知識儲備,訓練者卻執(zhí)意用研究生水平的訓練數(shù)據(jù)對其進行監(jiān)督微調(diào),模型會誤以為自己確已具備研究生水平,故而“有樣學樣”地編造回答。
在大模型行業(yè),一個公開的秘密是多數(shù)廠商會從友商能力更強的模型中“蒸餾”數(shù)據(jù)用于訓練自己的模型。這種行為雖然在一定程度上減少了數(shù)據(jù)方面的成本,但無疑增加了幻覺。
幻覺可以被緩解么?怎樣緩解?
一個確定的結論是:盡管近年來有大量研究工作致力于此,但除非發(fā)明新的語言模型范式,否則大模型的幻覺只能被緩解,終究難以根除。既然如此,對大眾,我們是否只能無奈地迷失于幻覺織就的海市蜃樓中?
也并非如此。在日常使用場景中,相信很多朋友已經(jīng)嘗試過采用一些方法盡可能地減少幻覺的產(chǎn)生。比如善用“聯(lián)網(wǎng)搜索”和“深度思考”功能;向大模型提問時,可以特別強調(diào)知識的來源,并且要求大模型檢查自己的回答,比如“請基于可靠來源回答”,“請與知識來源反復比對,不確定部分請說明”。
詳細拆解下,主要可以分為以下兩種方式。
第一種方式稱作“檢索增強生成”,即從外部知識入手,給大模型接入聯(lián)網(wǎng)搜索,引導大模型在面對自己不知道的問題時,使用搜索到的網(wǎng)頁內(nèi)容回答問題。此外,還可以給大模型提供參考知識,例如上傳文檔、表格文件,讓大模型根據(jù)文件的內(nèi)容作答。
這套思路的關鍵是讓模型知道“自己不知道”:問題當中哪些部分可以通過自己的內(nèi)在知識回答,哪些需要根據(jù)搜索結果回答——這無法人工定義,須由模型自行判斷,而這恰恰是棘手之處。
行業(yè)已有的研究和實踐中是如何解決這一問題的呢?
在大模型中,每個詞元的語義會被轉化為高維的隱式向量,并通過多層注意力機制不斷計算,最終確定下一個輸出的詞。有研究者指出,這些隱式向量本身蘊含了識別幻覺的重要線索 :當模型面對熟悉與陌生的知識時,其隱式向量的分布特征會呈現(xiàn)出顯著差異。因此,研究者設計了一種分類器,通過識別模型內(nèi)部狀態(tài)的差異,有效判斷其在當前生成過程中是否真正掌握相關知識。
然而需要注意的是,此類方法仍然達不到100%的正確率,所以幻覺仍然無法革除。
第二種方式是從模型的生成過程入手,即讓模型逐步拆解生成的過程,循序漸進地回答問題,而不是為了一步登天,而把自己逼到不得不捏造答案的絕地。
在此過程中,模型會嘗試多種不同的生成路徑,并且反思自己剛剛生成的文字。比如,模型剛剛捏造了“坎巴拉星的人口總量”,我們可以引導模型再生成一段文字,用于反思判斷先前表述的正誤。這段文字不會打破語法和語義的約束,但會給予模型糾正錯誤的機會。OpenAI 的o1和o3,以及DeepSeek-R1模型的“深度思考”模式便實現(xiàn)了這種推理模式。
我們可以簡單拆解這套方案的核心思路:研究者在訓練過程中,讓模型自由探索解決問題的多種路徑,并識別那些能夠引出正確答案的路徑作為“獎勵”。通過強化學習反復迭代,鼓勵模型盡可能多地生成正確的路徑,從而逐步學會正確路徑背后的行為模式。
例如,DeepSeek-R1模型首先用少量的長思維鏈數(shù)據(jù)進行冷啟動,讓模型學會生成多種不同的路徑;隨后聚焦于數(shù)學問題和代碼生成等更易于驗證正誤的任務,通過強化學習反復提升推理正確率;最后,對輸出的語言風格進行調(diào)整,使其更符合人類可讀性要求。
然而,同樣需要強調(diào)的是,正如其訓練策略所體現(xiàn)的,此類模型通常只在數(shù)學和程序代碼相關的任務上表現(xiàn)出更優(yōu)性能,在其他任務上則未必適用,甚至可能產(chǎn)生更嚴重的幻覺。2025年4月16日,OpenAI的研究就指出,其最新、最強大的推理模型o3和o4-mini在OpenAI PersonQA 基準測試中,分別有33%和48%的時間出現(xiàn)幻覺,這一比例是舊版o1模型的兩倍多。
如果幻覺終究難以根除,一個值得努力的方向,是將系統(tǒng)設計為能夠識別并表達自身的不確定性。人類亦然。隨著人們與大語言模型的聯(lián)系日益緊密,我們不僅要理解并善用這項技術,以理性而開放的態(tài)度面對未知的可能,也應深入認知其運作機制與內(nèi)在局限。
無論是 AI 還是其他科技,技術越蓬勃發(fā)展、越深度融入生活,人類就越需要保持批判性思維與持續(xù)的反思力。倘若我們放棄認知與判斷的主動,無異于放棄生而為人的樂趣與意義。
(作者為中國科學技術大學計算機專業(yè)博士,在自然語言處理和人工智能方向發(fā)表多篇高水平論文,先后在微軟及多家國內(nèi)知名互聯(lián)網(wǎng)企業(yè)從事相關研究工作)





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




