日本护士毛茸茸高潮,亚洲精品自偷自拍无码,久久精品国产一区二区三区,日韩人妻无码免费视频一二区

澎湃Logo
下載客戶端

登錄

  • +1

明查·實(shí)驗(yàn)室|“AI核查員”上線,四大模型誰最靠譜?

明查員 鄭淑婧 杜新月 制圖 彭玉潔 海報設(shè)計 白浪
2025-11-18 07:17
來源:澎湃新聞
? 澎湃明查 >
字號

【編者按】

生成式人工智能的出現(xiàn),將人類帶入一個機(jī)器生成內(nèi)容與人類原創(chuàng)內(nèi)容深度交織的世界。

以 Sora、Midjourney為代表的AIGC模型,展示了人類通向通用人工智能(AGI)的想象力,也讓虛假影像以前所未有的速度涌入公共空間,而人類的識別速度卻遠(yuǎn)遠(yuǎn)落后于造假的節(jié)奏。

在此背景下,“以AI辨AI”似乎成為一種可行的思路。我們好奇,人工智能能否輔助核查員和讀者完成核查工作?大模型如何定義“真實(shí)“的邊界?

為了解答這些疑問,“澎湃明查“發(fā)起挑戰(zhàn),將ChatGPT、Gemini、DeepSeek、豆包等熱門模型請上了實(shí)驗(yàn)臺。

背景

兩年前,澎湃明查曾做過一項(xiàng)實(shí)驗(yàn),測試幾款生成式人工智能工具在核查文字虛假信息方面的能力。

當(dāng)時,我們選取了微軟的BingChat、百度的“文心一言”,以及智能問答搜索工具Perplexity AI。測試內(nèi)容是已經(jīng)被權(quán)威機(jī)構(gòu)確認(rèn)的虛假信息。結(jié)果顯示,這些AI工具雖然能提供一些參考信息和推理線索,但在判斷真假時仍容易出現(xiàn)“幻覺”或錯誤。

兩年過去,技術(shù)發(fā)展迅速——GPT-5的出現(xiàn)讓AI不僅能處理文字,還能理解圖片、視頻和音頻等多模態(tài)信息;豆包(Doubao)、Claude等新的模型后來者居上,在判斷事實(shí)一致性和推理透明度上優(yōu)勢顯著……

這是否意味著,大模型在核查信息方面的能力也可能已有顯著提升?為此,我們開展了新一輪測試。

這一次,我們挑選了四款市面上主流、風(fēng)格各異的AI模型:Anthropic推出的Claude Sonnet 4、OpenAI的ChatGPT-5、字節(jié)跳動旗下的豆包和中國初創(chuàng)團(tuán)隊(duì)開發(fā)的DeepSeek。

測試規(guī)則沿用了兩年前的標(biāo)準(zhǔn):每款模型都要判斷20條已經(jīng)被核查機(jī)構(gòu)確認(rèn)的虛假信息,其中10條為中文,10條為英文,發(fā)布時間均在2025年,內(nèi)容涉及健康、科技、時政和社會等多個領(lǐng)域。

我們對AI的反饋進(jìn)行打分。標(biāo)準(zhǔn)仍然是:回答正確得1分,回答錯誤得0分,在不確定消息真假情況下提示用戶注意甄別得0.5分,滿分為20分。

明查

與兩年前的測試結(jié)果顯著不同,如今的大模型在檢驗(yàn)已被證偽的虛假信息方面的表現(xiàn)可謂亮眼——四款模型的平均分達(dá)到了19.125分,其中兩款甚至獲得了滿分。這說明,至少在核查已被驗(yàn)證的虛假信息時,現(xiàn)有的大模型已經(jīng)基本能夠做到準(zhǔn)確無誤。

獲得滿分的模型分別是Anthropic的Claude和字節(jié)跳動旗下的豆包。兩款模型對輸入信息的真實(shí)性均做出了正確判斷,并展示了完整的分析思路。

我們觀察到,Claude在分析問題時,會將虛假說法中的內(nèi)容進(jìn)行拆解,逐一分析,并嘗試從不同角度切入,交叉驗(yàn)證信息。例如,在驗(yàn)證“OpenAI CEO 奧爾特曼是否利用 Concept的技術(shù)實(shí)現(xiàn)了世界上首例雙父生子”的內(nèi)容時,Claude的分析角度含括了網(wǎng)傳的奧爾特曼生子所使用的技術(shù)、Concept公司擁有的技術(shù)、雙父生子技術(shù)發(fā)展的現(xiàn)狀和奧爾特曼本人的聲明等。

豆包同樣會在核查過程中將信息中的關(guān)鍵要素進(jìn)行拆解,但更倚仗權(quán)威媒體或權(quán)威機(jī)構(gòu)的信息。例如,在對“短劇《特朗普愛上白宮保潔》風(fēng)靡海外”這一信息進(jìn)行查證的過程中,豆包AI首先確認(rèn)了短劇名稱和平臺,查證該劇是否存在,然后核查了是否有媒體報道1.5億營收和50%付費(fèi)率,同時查證好萊塢演員收入激增的說法是否屬實(shí),最終綜合判斷該信息為虛假信息。

大模型會在核查過程中將信息中的關(guān)鍵要素進(jìn)行拆解。

在驗(yàn)證“女性飛行員賈米洛駕駛殲-10戰(zhàn)斗機(jī)擊落印度陣風(fēng)戰(zhàn)機(jī)”的信息時,豆包反復(fù)強(qiáng)調(diào)在印巴兩國發(fā)布的官方通報中沒有顯示此類信息。此外,豆包習(xí)慣于在解釋完一則信息的證偽邏輯后,附上與虛假信息的傳播邏輯與動機(jī)相關(guān)的內(nèi)容,這也是其區(qū)別于另外3個模型的特點(diǎn)。

豆包習(xí)慣于在解釋完一則信息的證偽邏輯后,附上與虛假信息的傳播邏輯與動機(jī)相關(guān)的內(nèi)容。

就最終的得分而言,國產(chǎn)大模型DeepSeek在回答的精準(zhǔn)性上稍顯遜色。在使用中英文分別向DeepSeek進(jìn)行提問的過程中,DeepSeek均有錯誤的回答生成。

盡管如此,該模型在每一條回答后,都會顯示“本回答由AI生成,內(nèi)容僅供參考,請仔細(xì)甄別”的內(nèi)容。除了給出核查結(jié)論以及核查過程,DeepSeek還會給出“如何識別此類信息”的提醒。

在信源的使用上,DeepSeek傾向于采用來自事實(shí)核查機(jī)構(gòu)的報道。在多條核查信息中,DeepSeek都抓取了“澎湃明查”的事實(shí)核查新聞。

DeepSeek會給出“如何識別此類信息”的提醒。

在核查風(fēng)格方面,四款模型中,ChatGPT給出的結(jié)論往往更加中立、也更加簡明。由于眾多傳播于網(wǎng)絡(luò)空間中的虛假信息往往是捕風(fēng)捉影,可能基于一定事實(shí)。在面對這樣的信息時,ChatGPT即便認(rèn)定一則說法整體上是失實(shí)的,也還是會將其中與事實(shí)相符的部分呈現(xiàn)出來。

ChatGPT在認(rèn)定一則說法整體上是失實(shí)同時,會將其中與事實(shí)相符的部分呈現(xiàn)出來。

Claude在呈現(xiàn)核查結(jié)果時,語氣更為強(qiáng)烈,常常使用“這是假新聞”“這是虛假信息”“這是完全虛假的信息”等表述。相較于ChatGPT的回答,這樣的表達(dá)更為絕對,有時會遺漏部分與提問相關(guān)的信息。

綜合來看,上述測試結(jié)果顯示,現(xiàn)有的大模型較兩年前已經(jīng)有了長足的進(jìn)步,可謂具備了基本的核查功能。不同模型的核查風(fēng)格存在差異,用戶可以根據(jù)需求選擇使用。

除文字外,我們觀察到,有的大模型也已經(jīng)具備多模態(tài)搜索的能力。接下來,“澎湃明查”將圍繞AI生成的圖片和視頻進(jìn)行更多的測試。歡迎大家在評論區(qū)分享意見或建議。

海報設(shè)計 白浪

    責(zé)任編輯:王靚
    校對:劉威
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋
            中文字幕亚洲一区| 美女色播久久| 亚洲av日韩av永久无码下载| 国产青草精品久久久久浪潮AⅤ| 精品人妻无码四色影视盒| 精品无人乱码一区二区三区| 欲女琪琪窝窝777777| 一天免费的成人片| 无码人妻熟妇av又粗又大APP| 亚洲永久无码3d动漫一区| 国偷自产一区二区三区在线视频| 亂倫近親相姦中文字幕| 五月婷婷导航| se五月婷婷| 国产区女主播在线观看| 777久久精品一区二区三区无码| 奇米艾7777| 无码高清色色色| 99国产揄拍国产精品人妻| 火车上双乳被一左一右吃| 亚洲国产精品久久电影欧美| 国产成人a在线观看视频| 欧美综合第一页| 国产蜜臀AV无码一区二区三区| 麻豆人妻无码性色av专区| 一级丰满老熟女免费| 亚洲av网址在线观看| 国产粉嫩嫩00在线正在播放| 国产又色又刺激高潮视频| 337P粉嫩大胆色噜噜噜噜| 亚洲AV色电影| 欧美日本免费一区二区三区| 人妻无码精品久久久久久| 日韩人妻熟精品久久无码| 久久天天躁狠狠躁夜夜躁| 色婷婷电影网| 亚洲最大的成人一二三区视频| 国产成人啪精品视频午夜| 五月天国产成人AV免费观看| 亚欧乱码卡一卡二卡新| 色综合久久久久久中文网|