明查·實(shí)驗(yàn)室｜這個“六指小男孩”，大模型知道TA是AI造的嗎？

明查員鄭淑婧杜新月制圖彭玉潔海報設(shè)計白浪

2025-11-19 07:25

來源：澎湃新聞

? 澎湃明查 >

【編者按】

生成式人工智能的出現(xiàn)，將人類帶入一個機(jī)器生成內(nèi)容與人類原創(chuàng)內(nèi)容深度交織的世界。

以 Sora、Midjourney為代表的AIGC模型，展示了人類通向通用人工智能（AGI）的想象力，也讓虛假影像以前所未有的速度涌入公共空間，而人類的識別速度卻遠(yuǎn)遠(yuǎn)落后于造假的節(jié)奏。

在此背景下，“以AI辨AI”似乎成為一種可行的思路。我們好奇，人工智能能否輔助核查員和讀者完成核查工作？大模型如何定義“真實(shí)”的邊界？

為了解答這些疑問，“澎湃明查”發(fā)起挑戰(zhàn)，將ChatGPT、Gemini、DeepSeek、豆包等熱門模型請上了實(shí)驗(yàn)臺。

背景

大語言模型的“讀圖”能力日新月異、突飛猛進(jìn)。

從OpenAI的GPT-5，到xAI開發(fā)的Grok，再到國產(chǎn)模型豆包，如今的人工智能大模型已經(jīng)能夠判斷圖像中的文字、場景乃至情緒，并給出近乎人類水準(zhǔn)的描述。

AI似乎已經(jīng)擁有了“眼睛”。但它們擁有人類的頭腦嗎？它們會被圖像欺騙嗎？它們能判斷一張圖片是否經(jīng)過編輯嗎？能識別AI生成的圖片嗎？

帶著這些問題，我們對市場上已經(jīng)具備初步識圖能力的主流大模型——ChatGPT-5、Grok-4和豆包（Doubao）進(jìn)行了測試。我們?yōu)槟Ｐ蛡儨?zhǔn)備了10張圖片，其中5張為AI生成圖像，5張為實(shí)際拍攝的照片（包含2張經(jīng)過編輯的圖片），均源自澎湃明查過往的核查案例。

對于每一張圖片，我們有針對性地向大模型們提了三個問題：

這張圖片是真實(shí)拍攝的，還是經(jīng)過后期編輯的？

這張圖片是由AI生成的嗎？

這張圖片是否呈現(xiàn)了網(wǎng)傳說法中所描述的內(nèi)容？

問題的背后隱含著這場測試的真實(shí)目的——驗(yàn)證人工智能能否穩(wěn)定地、真實(shí)地對圖片使用的背景做出準(zhǔn)確判斷。以下是測試結(jié)果。

明查

是真懂，還是幻覺？

AI會說謊，這不是秘密。隨著OpenAI等公司穩(wěn)步改進(jìn)其人工智能系統(tǒng)，大模型的功能變得比以前更強(qiáng)大了，但也更容易產(chǎn)生“幻覺”（即大模型自信地編造內(nèi)容）了。例如，OpenAI o3在運(yùn)行PersonQA基準(zhǔn)測試（涉及回答有關(guān)公眾人物的問題）時，出現(xiàn)“幻覺”的概率達(dá)到了33%，比之前的推理系統(tǒng)o1的“幻覺”發(fā)生率高出兩倍多，而o4-mini的“幻覺”發(fā)生率則達(dá)到了48%。

為了防止人工智能是“蒙對”而非真的讀懂了圖片，我們首先對模型的回答一致性（魯棒性）進(jìn)行了評價。使用的方法叫“變著法子提問”——如果模型能夠提供統(tǒng)一、穩(wěn)定的回答，那么，無論答對答錯，至少在一致性的維度上，這就是一款“立場堅定”的好模型。

3款模型中，表現(xiàn)最靠譜的當(dāng)數(shù)國產(chǎn)大模型“豆包”。在回答與10張圖片相關(guān)的30個問題時，豆包都提供了前后一致的回答。即便是在回答錯誤的情況下，豆包也將錯誤的答案強(qiáng)調(diào)了一遍又一遍。

被測試模型中相對不可靠的是馬斯克引領(lǐng)的團(tuán)隊開發(fā)的Grok。例如在識別一張聲稱顯示“樺加沙臺風(fēng)前被‘五花大綁’的雕塑”的AI生成的虛假圖片時，Grok先是通過搜索，查證到此圖可能是使用AI工具生成的假圖。但在變換提問方式后，Grok又表示圖片“顯示的是2025年9月臺風(fēng)樺加沙來臨前，深圳證券交易所前的公牛雕塑被繩子‘五花大綁’以防被強(qiáng)風(fēng)吹倒的場景”。

即便如此，在回答與10張圖片相關(guān)的問題時，Grok對其中8張圖片的判斷還是呈現(xiàn)了具有邏輯一致性的回答。

ChatGpt-5在測試中答錯了一題——在被問到一張反映了“在立陶宛維爾紐斯大教堂參與彌撒、為失蹤士兵祈禱的人們”的真實(shí)拍攝的照片“是否經(jīng)過后期處理”時，模型先聲稱此圖片是“經(jīng)過后期合成處理”的，而后被問到“圖片是否由AI生成”時，又表示“圖片看起來是真實(shí)拍攝的”。

一番角逐后，我們?yōu)槿畲竽Ｐ瓦M(jìn)行賦分?！岸拱币浴皬囊欢K”的表現(xiàn)獲得了滿分。

魔法能打敗魔法嗎？

本輪測試的另一個重要目的，是檢驗(yàn)大模型判斷由AI生成圖片的能力。

在理想的情況下，我們希望模型能對那些由AI生成的圖片做出準(zhǔn)確判斷；而對于那些并非由AI生成的圖片，也不要進(jìn)行誤判。

經(jīng)過測試，我們發(fā)現(xiàn)，對于那些具有明顯AIGC特征，如存在畸形手指等不合理細(xì)節(jié)的圖片，模型較易分辨出其為AI生成。例如，在評估“西藏地震中被壓在廢墟下的小男孩”一圖時，參與實(shí)驗(yàn)的所有模型都能準(zhǔn)確識別出其為AI生成。ChatGPT在回答“這張圖片是真實(shí)拍攝的還是經(jīng)過后期編輯的”的問題時，便給出了“該圖片可能為AI生成”的判斷，并且給出了“皮膚與質(zhì)地異?！薄把矍蚍垂膺^度”“毛線帽與毛衣的紋理過于均勻”等具體的判別理由。Grok提示了圖片左手“有畸形跡象”，并且提供了展示真實(shí)救援場景的照片供用戶參考。

而對于那些經(jīng)Photoshop等軟件編輯的真實(shí)圖片，或是由AI生成后仍存在編輯痕跡的圖片，大模型則很難進(jìn)行區(qū)分。例如，在測試一張生成展示了“太平洋上漂浮著的塑料垃圾”的圖片時，ChatGPT和Grok都將圖片判作了由AI生成的圖片，但這張圖片其實(shí)是通過后期技術(shù)將兩張真實(shí)拍攝的照片拼合而成的。

ChatGPT將這一圖片判作了由AI生成的圖片，而這張圖片其實(shí)是通過后期技術(shù)將兩張真實(shí)拍攝的照片拼合而成的。

特別值得一提的是豆包。在測試中我們發(fā)現(xiàn)，該模型似乎通過了所有圖片的考核，并提供了具有參考價值的依據(jù)，但這些依據(jù)主要來自中文網(wǎng)絡(luò)，包括“澎湃明查”以往發(fā)布過的文章。在補(bǔ)充測試中，我們發(fā)現(xiàn)，對于那些存在AI生成痕跡但未在中文網(wǎng)絡(luò)發(fā)表、成稿的案例，如網(wǎng)傳“民眾舉著縮寫為JIBA的牌子為日本首相高市早苗應(yīng)援”的AI生成圖片，豆包則無法做出準(zhǔn)確判斷，這或許意味著，該模型對圖片相關(guān)信息的檢索、整合能力要強(qiáng)于其本身的讀圖、判別能力。

豆包將網(wǎng)傳“民眾舉著縮寫為JIBA的牌子為日本首相高市早苗應(yīng)援”的AI生成圖片判斷為真實(shí)圖片。

綜合以上線索，我們對3款模型的AI識別能力評價如下。

綜合能力哪家強(qiáng)？

最后，我們對3款大模型的綜合辨圖能力進(jìn)行了打分。這一評價維度并非對上述評分結(jié)果的簡單加總，而是審視了大模型對3個問題的回答后，依據(jù)模型能否對圖片的真實(shí)性做出準(zhǔn)確判斷并提供翔實(shí)的判斷依據(jù)所做的綜合評價。

3款模型中，豆包對圖片產(chǎn)生的背景和使用的語境的判斷是最為準(zhǔn)確的，且在回答的一致性上的表現(xiàn)可圈可點(diǎn)。但豆包提供的判別依據(jù)往往簡短，更像是對既有與圖片相關(guān)的核查稿件的概述，缺乏更為詳盡的核查步驟的展開或?qū)D片進(jìn)行進(jìn)一步核查的提示。此外，豆包對于那些未成稿圖片案例的判斷并不十分準(zhǔn)確。

相較而言，Grok的專家模式會將其思考過程做詳細(xì)的呈現(xiàn)，甚至?xí)门c圖片語境相關(guān)的真實(shí)圖片進(jìn)行對比，更利于激發(fā)用戶的思考。但就圖片判斷的準(zhǔn)確度和模型本身的幻覺度而言，現(xiàn)階段Grok給出的答案并不可靠，只能選擇性地參考。

總體上，ChatGPT的圖像辨識能力最為突出，既能作出較為可靠的判斷，也能清晰展示推理路徑。只不過，ChatGPT在任何一個評價維度上的表現(xiàn)都不是完美的。對于希望借助AI判斷圖片真?zhèn)蔚挠脩舳?，理解模型“怎么想”往往比相信它“怎么說”更重要——模型的結(jié)論可供參考，但最終判斷仍需人類完成。