日本护士毛茸茸高潮,亚洲精品自偷自拍无码,久久精品国产一区二区三区,日韩人妻无码免费视频一二区

澎湃Logo
下載客戶端

登錄

  • +1

實測數據告訴你:帶引用的AI也不可靠

2025-07-29 20:00
來源:澎湃新聞·澎湃號·湃客
字號

圖片由Chatgpt生成,prompt如下:圖片尺寸為16:9,請你想象這樣一個場景:AI幻覺泛濫,會給整個社會帶來什么影響?

“約 35% 畢業(yè)生進入報社、電視臺、通訊社等機構,如《人民日報》、央視、澎湃新聞等,近 40% 畢業(yè)生進入互聯網平臺(如字節(jié)跳動、騰訊)、數字營銷公司或自媒體領域,約 15% 進入金融、咨詢、教育等行業(yè),從事品牌傳播、市場分析等工作?!?/em>

這段帶數據且言之鑿鑿的內容由AI提供,附有多個引用鏈接,看上去十分令人信服。

然而,這些數據全部是虛假的。

許多用戶也有類似經歷:向AI提問,它能信誓旦旦地給出一個看似合理的答案,甚至還可以給出了“權威出處”,但深入核實后發(fā)現,這些信息來源或是根本不存在,或是與答案毫無關聯。

這種現象在人工智能研究領域被稱作AI幻覺(AI Hallucination),是指AI創(chuàng)建虛假信息并將其呈現為真實信息的情況。它不同于人類偶爾的記憶錯誤或口誤,而是 AI系統性地生成看似合理但實際上完全錯誤的信息,并且以看似準確的方式呈現給用戶。

那么,AI的幻覺到底有多嚴重?聯網搜索、深度思考這些機制,能否幫助消除AI幻覺?我們嘗試從學術研究中搜集相關數據,并實測國內幾款主流的大模型,來回答上述問題。

01|幻覺,一個所有大模型都會犯的錯誤

AI幻覺,并非某個特定模型的缺陷,而是當前AI技術架構的固有限制,是每一個大模型都會犯的錯誤。

引發(fā)AI幻覺產生的機制相當復雜,在模型開發(fā)與使用的每個階段都有可能引入錯誤信息或不穩(wěn)定因素,從而導致幻覺的出現。

比如,大語言模型所依賴的海量訓練數據來自互聯網,數據源就包含著錯誤信息。如果訓練數據中某專業(yè)領域的知識較少,模型在面對相關問題時也會編造看似正確但實則錯誤的答案。此外,指令調優(yōu)過程也有可能會過度強化模型“必須回答用戶問題”的行為。

最重要的是,本質上,大模型只是一個“概率生成機器”——它并不理解學習內容的真正含義,只是根據在訓練中學到的詞匯搭配頻率來生成回答。

不過,不同大模型的幻覺程度有所不同

為了檢驗不同大模型的幻覺水平,人工智能公司Vectara推出了專門的幻覺評估模型,可以基于模型在文本摘要任務中的表現,檢測生成內容與原始文本的語義一致性,進而評估模型的幻覺率。這款模型已經成為行業(yè)內部有關“AI幻覺”的權威測試工具。

在7月最新更新的一次AI幻覺排行榜中,谷歌的Gemini 2.0及2.5系列模型表現出色,整體幻覺率在0.7%-1.8%之間,其中Google Gemini-2.0-Flash-001模型在本次測試的所有模型中幻覺率最低。

在幻覺率最低的20個大模型中,來自Google或OpenAI的模型占據較大比例,這顯示出頭部廠商在提升模型可靠性上的進展。聚焦于國產模型,則是KIMI和智譜GLM模型的表現較為優(yōu)秀。

觀察幻覺率最高的20個大模型可以發(fā)現,其中大部分都是參數量在10B以下的小模型,此外,一些指令調優(yōu)模型(instruct/it版本)的幻覺率也較高。

前階段大熱的DeepSeek-R1的幻覺率達到了14.3%,在測試的149個模型中位居第16位。專家推測,這可能是R1模型文學創(chuàng)造力過強帶來的副作用。

為了提升AI生成內容的可信度,突破大模型訓練數據過時的局限,聯網搜索與引用機制應運而生。2021年12月,OpenAI發(fā)布了WebGPT模型,這也是最早實現網頁搜索并能夠標注信息出處的大模型之一。

現在,聯網搜索和引用功能已經成為不少主流AI工具的標配。但是,這真的可以使AI生成的內容更加準確嗎?

02|AI幻覺,聯網搜索也無法徹底規(guī)避

為了回答上面的問題,我們進行了一次簡單的實驗。我們模擬了一次專業(yè)信息查詢的過程。在開啟聯網搜索的情況下,小組成員圍繞著自己的專業(yè)情況對AI展開提問。我們選擇了國內幾款比較主流的大模型,對每個大模型在開啟深度思考與不開啟深度思考的情況下分別詢問8個問題,總計提問400次。具體的實驗流程如下:

在AI生成的400個答案中,有鏈接被引用的次數是3123次。然而,僅有1706次引用能完全支持AI生成的答案內容,仍然有45.37%的鏈接不能完全支持答案文本中的闡述。具體到模型的表現上,則是智譜清言和豆包的引用錯誤率較高,為50%以上。

也就是說,仍然有一定的概率,AI生成的內容與鏈接文章的內容無法實現完全匹配。如果不點開鏈接進行進一步確認,用戶將會很容易地被“騙”過去

我們進一步觀察了引用鏈接無法支持生成文本的具體情形。除了鏈接失效以外,我們重點關注了錯誤的類別,包括無中生有、張冠李戴、時間混亂、以全概偏、計算錯誤、以偏概全六類。其中,無中生有這一類錯誤尤為常見。在3123個引用中,無中生有類引用共計出現了952次,占比30.48%。

此外,由于現階段這些AI工具并不具備事實核查的能力,只能從檢索到的文本中進行學習。因此,即使生成答案標注了來源鏈接,也無法保證信息的真實性和準確性

而脫離開我們所模擬的信息查詢情景,AI幻覺也對我們的日常生活造成越來越切實的影響。尤其是在醫(yī)療、法律這些高度依賴信息準確性的領域中,AI幻覺可能會構成更嚴重的風險。

比AI幻覺本身更令人擔憂的是,公眾對這一風險仍然普遍缺乏警覺。

根據上海交通大學的研究結果,大部分人都沒有對AI幻覺形成足夠的認知:45.6%的受訪者僅表現出模糊或輕微的擔憂,缺乏對幻覺產生機制和誤導后果的具體理解,29.7%的群體幾乎沒有意識到AI可能構成信息誤導,對AI幻覺保持“高警覺”的人群僅占 8.5%。

作家Mathew Maavak這樣表達他對AI幻覺的擔憂:“我相信錯誤的數據和有缺陷的輸入已經從AI系統流入交易和金融平臺、航空控制、核反應堆、生化武器實驗室和敏感的化學工廠——就在我寫這篇文章的時候。”

但就像人工智能教父杰弗里·辛頓說的:“人們還不明白發(fā)生了什么?!?/p>

“我們就像擁有一只非??蓯鄣睦匣⒂揍痰娜恕3悄隳芊浅4_定它長大后不會想殺你,否則你應該擔心?!?/span>

03|和幻覺共生的未來

面對大模型的幻覺問題,大廠的技術引領者們持有著不同的看法。

一方面,大模型廠商認為基于 “預測下一個單詞” 的訓練機制,幻覺率歸零 “非常困難”,公司只能通過迭代降低風險而非完全杜絕;另一方面,也有人期待,AI 幻覺只是大模型發(fā)展中的階段性問題,可通過技術手段逐步解決。例如,微軟就將幻覺視為 “可通過科學研究破解的機制問題”,并投入資源研究模型架構優(yōu)化。

近年來,各個大模型廠商開始致力于運用各種方法消除AI幻覺。尤其是通過不斷優(yōu)化模型架構,例如:通過開發(fā)推理模型來降低AI幻覺。

從原理上來說,依靠“思維鏈”的推理模型,能夠實現從拆解問題、逐步推導,再到得出結論的結構化推理,這樣一來,模型就可以減少因邏輯錯誤產生的幻覺,并能通過對上下文的邏輯推導,更精準地把握信息間的關聯,從而避免斷章取義。

然而,推理模型的實際表現不盡如人意。

我們的小實驗表明,在開啟深度思考的情況下,除KIMI以外,所有的大模型的句內引用數都有所增加,但與此同時,大模型的引用錯誤率明顯上升——不同大模型的引用錯誤率在開啟深度思考后都達到了30%以上。

例如,在未開啟深度思考模式時,豆包的錯誤率為11.59%,為五款大模型中表現最好的大模型;但在開啟深度思考后,其錯誤率為58.79%,成為深度思考模式下引用錯誤率最高的大模型。

上述觀察和實際的規(guī)律相吻合。根據OpenAI的內部測試,推理模型 o3 和 o4-mini 比該公司之前的推理模型 o1、o1-mini 和 o3-mini 以及 OpenAI 的非推理模型(如 GPT-4o)產生幻覺的頻率更高。

采用專門優(yōu)化的推理架構的DeepSeek-R1也出現了類似情況。在Vectara的幻覺評估測試中,其幻覺率高達14.3%,是前代模型DeepSeek-V3的近四倍。

如此看來,推理這個本來預期降低AI幻覺的功能,卻增加了AI幻覺率。

有學者推測,這可能是由于推理模型傾向在事實間建立虛構連接,造成邏輯過度外推;另一方面,高推理模型不會輕易說 “不知道”,而是自信地輸出一個符合概率的錯誤答案,甚至在初始假設錯誤的情況下,也可能基于錯誤前提進行下一步推理,這些情況都會導致推理模型的幻覺增加。

這背后的具體原理還有待學界的進一步探究。正如OpenAI在其針對 o3 和 o4-mini 的技術報告中寫到的, “需要更多研究來理解為什么隨著推理模型的擴展,幻覺會變得越來越嚴重?!?/p>

技術的進步需要時間。盡管目前人工智能技術取得了驚人進展,但很明顯,它仍然遠未達到可以被完全信任的程度。理解AI的局限性、學會與不完美的AI系統共處,或許是未來一段時間人機互動的常態(tài)。而在AI完全成熟之前,我們都是這場人機共存實驗的參與者。

最好的生存策略,也許就是永遠記?。?span style="color: #3598db;">再聰明的機器,也需要人類那顆會思考、會質疑的心來為它把關。

參考資料:

[1] Huang L, Yu W, Ma W, et al. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions[J]. ACM Transactions on Information Systems, 2025, 43(2): 1-55.

[2] 字節(jié)跳動技術團隊 - 一文搞懂 | 大模型為什么出現幻覺?從成因到緩解方案, https://mp.weixin.qq.com/s/vCz2kyitgtOjN669gbHd6g

[3] OpenAI - WebGPT: Improving the factual accuracy of language models through web browsing, https://openai.com/index/webgpt/

[4] 新華網 - “已讀亂回”你有警覺嗎?調研發(fā)現近七成公眾對大模型AI幻覺低感知, http://sh.news.cn/20250610/3223aa0ca7654a63a0b8db7e5b40ee3c/c.html

[5] RT - AI hallucinations: A budding sentience or a global embarrassment?, https://www.rt.com/news/618100-ai-hallucination-global-embarrassment/

[6] Fortune - ‘Godfather of AI’ says AI is like a cute tiger cub—unless you know it won’t turn on you, you should worry, https://fortune.com/article/geoffrey-hinton-ai-godfather-tiger-cub/

[7] Microsoft - Why AI sometimes gets it wrong — and bigstrides to address it, https://news.microsoft.com/source/features/company-news/why-ai-sometimes-gets-it-wrong-and-big-strides-to-address-it/?utm_source=chatgpt.com

[8] OpenAI - OpenAI o3 and o4-mini System Card, https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

[9] TechCrunch - OpenAI’s new reasoning AI models hallucinate more, https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/

[10] 清華大學新聞與傳播學院新媒體研究中心 - DeepSeek與AI幻覺, https://www.lib.szu.edu.cn/sites/szulib/files/2025-02/DeepSeek與AI幻覺-清華大學-附知識庫_0.pdf

[11] 36kr - DeepSeek-R1超高幻覺率解析:為何大模型總“胡說八道”?, https://www.36kr.com/p/3163559253993986K

[12] AP news - Researchers say an AI-powered transcription tool used in hospitals invents things no one ever said, https://apnews.com/article/ai-artificial-intelligence-health-business-90020cdf5fa16c79ca2e5b6c4c9bbb14

復旦大學新聞學院《數據新聞與可視化》(碩士生)課程作品

指導老師:徐笛

作者:夏昊揚 李林杰 宋語陽 唐小茗

    本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業(yè)務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋
            人妻丝袜无码国产一区| 日本夜爽爽一区二区三区| 亚洲AV秘 片一区二区三原神| 青春草无码精品| 99精品国产福久久久久久| 在线精品视频一区二区三四| 亚洲熟女乱熟乱熟妇综合网二区| 成人不卡在线| 欧美日韩成人在线观看| 天天干夜夜做伊人| 精品国产乱码久久久久久1区2区| 国产成人手机高清在线观看网站| 国产成人亚洲综合网色欲网| 噜噜噜久久,亚洲精品国产品| 久久www成人_看片免费不卡| 日本另类αv欧美另类aⅴ| 丝袜勾搭国产精品| 九七色色资源总站| 超清纯白嫩大学生无码网站| 乱人伦人妻中文字幕| 人妻综合蜜桃| 日韩无矿砖2021中文字幕| 免费观看成人久久网免费观看 | 日本最乱的老少配| 国产激情久久久久影院小草| 日韩中字国产| 日韩电影无码| 国产丰满乱子伦无码专区| 亚洲精品成人网站在线播放| 美国成人网站免费| 女人腿张开让男人桶爽30分钟 | 欧美成在线精品视频| 久久人人做人人妻人人玩精| 人人人妻人人澡人人爽欧美第一区 | 日韩中文在线视频| 后入大屁股美女| 亚洲精品乱码久久久久久中文字幕| 久久精品国产2020观看福利| 欧美中文字幕人妻丰满| 精品丝袜久久久久久| 亚洲欧美人成网站在线观看看|