明查·實(shí)驗(yàn)室｜“AI核查員”上線，四大模型誰最靠譜？

明查員鄭淑婧杜新月制圖彭玉潔海報設(shè)計白浪

2025-11-18 07:17

來源：澎湃新聞

? 澎湃明查 >

【編者按】

生成式人工智能的出現(xiàn)，將人類帶入一個機(jī)器生成內(nèi)容與人類原創(chuàng)內(nèi)容深度交織的世界。

以 Sora、Midjourney為代表的AIGC模型，展示了人類通向通用人工智能（AGI）的想象力，也讓虛假影像以前所未有的速度涌入公共空間，而人類的識別速度卻遠(yuǎn)遠(yuǎn)落后于造假的節(jié)奏。

在此背景下，“以AI辨AI”似乎成為一種可行的思路。我們好奇，人工智能能否輔助核查員和讀者完成核查工作？大模型如何定義“真實(shí)“的邊界？

為了解答這些疑問，“澎湃明查“發(fā)起挑戰(zhàn)，將ChatGPT、Gemini、DeepSeek、豆包等熱門模型請上了實(shí)驗(yàn)臺。

背景

兩年前，澎湃明查曾做過一項(xiàng)實(shí)驗(yàn)，測試幾款生成式人工智能工具在核查文字虛假信息方面的能力。

當(dāng)時，我們選取了微軟的BingChat、百度的“文心一言”，以及智能問答搜索工具Perplexity AI。測試內(nèi)容是已經(jīng)被權(quán)威機(jī)構(gòu)確認(rèn)的虛假信息。結(jié)果顯示，這些AI工具雖然能提供一些參考信息和推理線索，但在判斷真假時仍容易出現(xiàn)“幻覺”或錯誤。

兩年過去，技術(shù)發(fā)展迅速——GPT-5的出現(xiàn)讓AI不僅能處理文字，還能理解圖片、視頻和音頻等多模態(tài)信息；豆包（Doubao）、Claude等新的模型后來者居上，在判斷事實(shí)一致性和推理透明度上優(yōu)勢顯著……

這是否意味著，大模型在核查信息方面的能力也可能已有顯著提升？為此，我們開展了新一輪測試。

這一次，我們挑選了四款市面上主流、風(fēng)格各異的AI模型：Anthropic推出的Claude Sonnet 4、OpenAI的ChatGPT-5、字節(jié)跳動旗下的豆包和中國初創(chuàng)團(tuán)隊(duì)開發(fā)的DeepSeek。

測試規(guī)則沿用了兩年前的標(biāo)準(zhǔn)：每款模型都要判斷20條已經(jīng)被核查機(jī)構(gòu)確認(rèn)的虛假信息，其中10條為中文，10條為英文，發(fā)布時間均在2025年，內(nèi)容涉及健康、科技、時政和社會等多個領(lǐng)域。

我們對AI的反饋進(jìn)行打分。標(biāo)準(zhǔn)仍然是：回答正確得1分，回答錯誤得0分，在不確定消息真假情況下提示用戶注意甄別得0.5分，滿分為20分。

明查

與兩年前的測試結(jié)果顯著不同，如今的大模型在檢驗(yàn)已被證偽的虛假信息方面的表現(xiàn)可謂亮眼——四款模型的平均分達(dá)到了19.125分，其中兩款甚至獲得了滿分。這說明，至少在核查已被驗(yàn)證的虛假信息時，現(xiàn)有的大模型已經(jīng)基本能夠做到準(zhǔn)確無誤。

獲得滿分的模型分別是Anthropic的Claude和字節(jié)跳動旗下的豆包。兩款模型對輸入信息的真實(shí)性均做出了正確判斷，并展示了完整的分析思路。

我們觀察到，Claude在分析問題時，會將虛假說法中的內(nèi)容進(jìn)行拆解，逐一分析，并嘗試從不同角度切入，交叉驗(yàn)證信息。例如，在驗(yàn)證“OpenAI CEO 奧爾特曼是否利用 Concept的技術(shù)實(shí)現(xiàn)了世界上首例雙父生子”的內(nèi)容時，Claude的分析角度含括了網(wǎng)傳的奧爾特曼生子所使用的技術(shù)、Concept公司擁有的技術(shù)、雙父生子技術(shù)發(fā)展的現(xiàn)狀和奧爾特曼本人的聲明等。

豆包同樣會在核查過程中將信息中的關(guān)鍵要素進(jìn)行拆解，但更倚仗權(quán)威媒體或權(quán)威機(jī)構(gòu)的信息。例如，在對“短劇《特朗普愛上白宮保潔》風(fēng)靡海外”這一信息進(jìn)行查證的過程中，豆包AI首先確認(rèn)了短劇名稱和平臺，查證該劇是否存在，然后核查了是否有媒體報道1.5億營收和50%付費(fèi)率，同時查證好萊塢演員收入激增的說法是否屬實(shí)，最終綜合判斷該信息為虛假信息。

大模型會在核查過程中將信息中的關(guān)鍵要素進(jìn)行拆解。

在驗(yàn)證“女性飛行員賈米洛駕駛殲-10戰(zhàn)斗機(jī)擊落印度陣風(fēng)戰(zhàn)機(jī)”的信息時，豆包反復(fù)強(qiáng)調(diào)在印巴兩國發(fā)布的官方通報中沒有顯示此類信息。此外，豆包習(xí)慣于在解釋完一則信息的證偽邏輯后，附上與虛假信息的傳播邏輯與動機(jī)相關(guān)的內(nèi)容，這也是其區(qū)別于另外3個模型的特點(diǎn)。

豆包習(xí)慣于在解釋完一則信息的證偽邏輯后，附上與虛假信息的傳播邏輯與動機(jī)相關(guān)的內(nèi)容。

就最終的得分而言，國產(chǎn)大模型DeepSeek在回答的精準(zhǔn)性上稍顯遜色。在使用中英文分別向DeepSeek進(jìn)行提問的過程中，DeepSeek均有錯誤的回答生成。

盡管如此，該模型在每一條回答后，都會顯示“本回答由AI生成，內(nèi)容僅供參考，請仔細(xì)甄別”的內(nèi)容。除了給出核查結(jié)論以及核查過程，DeepSeek還會給出“如何識別此類信息”的提醒。

在信源的使用上，DeepSeek傾向于采用來自事實(shí)核查機(jī)構(gòu)的報道。在多條核查信息中，DeepSeek都抓取了“澎湃明查”的事實(shí)核查新聞。

DeepSeek會給出“如何識別此類信息”的提醒。

在核查風(fēng)格方面，四款模型中，ChatGPT給出的結(jié)論往往更加中立、也更加簡明。由于眾多傳播于網(wǎng)絡(luò)空間中的虛假信息往往是捕風(fēng)捉影，可能基于一定事實(shí)。在面對這樣的信息時，ChatGPT即便認(rèn)定一則說法整體上是失實(shí)的，也還是會將其中與事實(shí)相符的部分呈現(xiàn)出來。