日本护士毛茸茸高潮,亚洲精品自偷自拍无码,久久精品国产一区二区三区,日韩人妻无码免费视频一二区

澎湃Logo
下載客戶端

登錄

  • +1

明查·實(shí)驗(yàn)室|這個“六指小男孩”,大模型知道TA是AI造的嗎?

明查員 鄭淑婧 杜新月 制圖 彭玉潔 海報設(shè)計 白浪
2025-11-19 07:25
來源:澎湃新聞
? 澎湃明查 >
字號

【編者按】

生成式人工智能的出現(xiàn),將人類帶入一個機(jī)器生成內(nèi)容與人類原創(chuàng)內(nèi)容深度交織的世界。

以 Sora、Midjourney為代表的AIGC模型,展示了人類通向通用人工智能(AGI)的想象力,也讓虛假影像以前所未有的速度涌入公共空間,而人類的識別速度卻遠(yuǎn)遠(yuǎn)落后于造假的節(jié)奏。

在此背景下,“以AI辨AI”似乎成為一種可行的思路。我們好奇,人工智能能否輔助核查員和讀者完成核查工作?大模型如何定義“真實(shí)”的邊界?

為了解答這些疑問,“澎湃明查”發(fā)起挑戰(zhàn),將ChatGPT、Gemini、DeepSeek、豆包等熱門模型請上了實(shí)驗(yàn)臺。

背景

大語言模型的“讀圖”能力日新月異、突飛猛進(jìn)。

從OpenAI的GPT-5,到xAI開發(fā)的Grok,再到國產(chǎn)模型豆包,如今的人工智能大模型已經(jīng)能夠判斷圖像中的文字、場景乃至情緒,并給出近乎人類水準(zhǔn)的描述。

AI似乎已經(jīng)擁有了“眼睛”。但它們擁有人類的頭腦嗎?它們會被圖像欺騙嗎?它們能判斷一張圖片是否經(jīng)過編輯嗎?能識別AI生成的圖片嗎?

帶著這些問題,我們對市場上已經(jīng)具備初步識圖能力的主流大模型——ChatGPT-5、Grok-4和豆包(Doubao)進(jìn)行了測試。我們?yōu)槟P蛡儨?zhǔn)備了10張圖片,其中5張為AI生成圖像,5張為實(shí)際拍攝的照片(包含2張經(jīng)過編輯的圖片),均源自澎湃明查過往的核查案例。

對于每一張圖片,我們有針對性地向大模型們提了三個問題:

這張圖片是真實(shí)拍攝的,還是經(jīng)過后期編輯的?

這張圖片是由AI生成的嗎?

這張圖片是否呈現(xiàn)了網(wǎng)傳說法中所描述的內(nèi)容?

問題的背后隱含著這場測試的真實(shí)目的——驗(yàn)證人工智能能否穩(wěn)定地、真實(shí)地對圖片使用的背景做出準(zhǔn)確判斷。以下是測試結(jié)果。

明查

是真懂,還是幻覺?

AI會說謊,這不是秘密。隨著OpenAI等公司穩(wěn)步改進(jìn)其人工智能系統(tǒng),大模型的功能變得比以前更強(qiáng)大了,但也更容易產(chǎn)生“幻覺”(即大模型自信地編造內(nèi)容)了。例如,OpenAI o3在運(yùn)行PersonQA基準(zhǔn)測試(涉及回答有關(guān)公眾人物的問題)時,出現(xiàn)“幻覺”的概率達(dá)到了33%,比之前的推理系統(tǒng)o1的“幻覺”發(fā)生率高出兩倍多,而o4-mini的“幻覺”發(fā)生率則達(dá)到了48%。

為了防止人工智能是“蒙對”而非真的讀懂了圖片,我們首先對模型的回答一致性(魯棒性)進(jìn)行了評價。使用的方法叫“變著法子提問”——如果模型能夠提供統(tǒng)一、穩(wěn)定的回答,那么,無論答對答錯,至少在一致性的維度上,這就是一款“立場堅定”的好模型。

3款模型中,表現(xiàn)最靠譜的當(dāng)數(shù)國產(chǎn)大模型“豆包”。在回答與10張圖片相關(guān)的30個問題時,豆包都提供了前后一致的回答。即便是在回答錯誤的情況下,豆包也將錯誤的答案強(qiáng)調(diào)了一遍又一遍。

被測試模型中相對不可靠的是馬斯克引領(lǐng)的團(tuán)隊開發(fā)的Grok。例如在識別一張聲稱顯示“樺加沙臺風(fēng)前被‘五花大綁’的雕塑”的AI生成的虛假圖片時,Grok先是通過搜索,查證到此圖可能是使用AI工具生成的假圖。但在變換提問方式后,Grok又表示圖片“顯示的是2025年9月臺風(fēng)樺加沙來臨前,深圳證券交易所前的公牛雕塑被繩子‘五花大綁’以防被強(qiáng)風(fēng)吹倒的場景”。

即便如此,在回答與10張圖片相關(guān)的問題時,Grok對其中8張圖片的判斷還是呈現(xiàn)了具有邏輯一致性的回答。

ChatGpt-5在測試中答錯了一題——在被問到一張反映了“在立陶宛維爾紐斯大教堂參與彌撒、為失蹤士兵祈禱的人們”的真實(shí)拍攝的照片“是否經(jīng)過后期處理”時,模型先聲稱此圖片是“經(jīng)過后期合成處理”的,而后被問到“圖片是否由AI生成”時,又表示“圖片看起來是真實(shí)拍攝的”。

一番角逐后,我們?yōu)槿畲竽P瓦M(jìn)行賦分?!岸拱币浴皬囊欢K”的表現(xiàn)獲得了滿分。

魔法能打敗魔法嗎?

本輪測試的另一個重要目的,是檢驗(yàn)大模型判斷由AI生成圖片的能力。

在理想的情況下,我們希望模型能對那些由AI生成的圖片做出準(zhǔn)確判斷;而對于那些并非由AI生成的圖片,也不要進(jìn)行誤判。

經(jīng)過測試,我們發(fā)現(xiàn),對于那些具有明顯AIGC特征,如存在畸形手指等不合理細(xì)節(jié)的圖片,模型較易分辨出其為AI生成。例如,在評估“西藏地震中被壓在廢墟下的小男孩”一圖時,參與實(shí)驗(yàn)的所有模型都能準(zhǔn)確識別出其為AI生成。ChatGPT在回答“這張圖片是真實(shí)拍攝的還是經(jīng)過后期編輯的”的問題時,便給出了“該圖片可能為AI生成”的判斷,并且給出了“皮膚與質(zhì)地異?!薄把矍蚍垂膺^度”“毛線帽與毛衣的紋理過于均勻”等具體的判別理由。Grok提示了圖片左手“有畸形跡象”,并且提供了展示真實(shí)救援場景的照片供用戶參考。

而對于那些經(jīng)Photoshop等軟件編輯的真實(shí)圖片,或是由AI生成后仍存在編輯痕跡的圖片,大模型則很難進(jìn)行區(qū)分。例如,在測試一張生成展示了“太平洋上漂浮著的塑料垃圾”的圖片時,ChatGPT和Grok都將圖片判作了由AI生成的圖片,但這張圖片其實(shí)是通過后期技術(shù)將兩張真實(shí)拍攝的照片拼合而成的。

ChatGPT將這一圖片判作了由AI生成的圖片,而這張圖片其實(shí)是通過后期技術(shù)將兩張真實(shí)拍攝的照片拼合而成的。

特別值得一提的是豆包。在測試中我們發(fā)現(xiàn),該模型似乎通過了所有圖片的考核,并提供了具有參考價值的依據(jù),但這些依據(jù)主要來自中文網(wǎng)絡(luò),包括“澎湃明查”以往發(fā)布過的文章。在補(bǔ)充測試中,我們發(fā)現(xiàn),對于那些存在AI生成痕跡但未在中文網(wǎng)絡(luò)發(fā)表、成稿的案例,如網(wǎng)傳“民眾舉著縮寫為JIBA的牌子為日本首相高市早苗應(yīng)援”的AI生成圖片,豆包則無法做出準(zhǔn)確判斷,這或許意味著,該模型對圖片相關(guān)信息的檢索、整合能力要強(qiáng)于其本身的讀圖、判別能力。

豆包將網(wǎng)傳“民眾舉著縮寫為JIBA的牌子為日本首相高市早苗應(yīng)援”的AI生成圖片判斷為真實(shí)圖片。

綜合以上線索,我們對3款模型的AI識別能力評價如下。

綜合能力哪家強(qiáng)?

最后,我們對3款大模型的綜合辨圖能力進(jìn)行了打分。這一評價維度并非對上述評分結(jié)果的簡單加總,而是審視了大模型對3個問題的回答后,依據(jù)模型能否對圖片的真實(shí)性做出準(zhǔn)確判斷并提供翔實(shí)的判斷依據(jù)所做的綜合評價。

3款模型中,豆包對圖片產(chǎn)生的背景和使用的語境的判斷是最為準(zhǔn)確的,且在回答的一致性上的表現(xiàn)可圈可點(diǎn)。但豆包提供的判別依據(jù)往往簡短,更像是對既有與圖片相關(guān)的核查稿件的概述,缺乏更為詳盡的核查步驟的展開或?qū)D片進(jìn)行進(jìn)一步核查的提示。此外,豆包對于那些未成稿圖片案例的判斷并不十分準(zhǔn)確。

相較而言,Grok的專家模式會將其思考過程做詳細(xì)的呈現(xiàn),甚至?xí)门c圖片語境相關(guān)的真實(shí)圖片進(jìn)行對比,更利于激發(fā)用戶的思考。但就圖片判斷的準(zhǔn)確度和模型本身的幻覺度而言,現(xiàn)階段Grok給出的答案并不可靠,只能選擇性地參考。

總體上,ChatGPT的圖像辨識能力最為突出,既能作出較為可靠的判斷,也能清晰展示推理路徑。只不過,ChatGPT在任何一個評價維度上的表現(xiàn)都不是完美的。對于希望借助AI判斷圖片真?zhèn)蔚挠脩舳?,理解模型“怎么想”往往比相信它“怎么說”更重要——模型的結(jié)論可供參考,但最終判斷仍需人類完成。

海報設(shè)計 白浪

    責(zé)任編輯:林順祺
    校對:張亮亮
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋
            久久久久久久人妻一区精品| 少妇推油后内谢69XX| 亚洲成av人在线观看无堂无码| 久久久久无码精品国产9| 有没有看Av的网站| 精品国产成人三级在线观看| 欧美少妇尉房性生治片| 人妻校园都市另类| 亚洲综合AV在线一区二区三区| 久拍国产在线观看| 中文字幕不卡在线播放| 最爽无遮挡行房视频| 国产内射在线激情一区| 亚洲色图乱伦小说| 国产精品vⅰdeoxxxx国产| 2023国精产品一二三线 | 亚洲av日韩av综合在线观看| 日日摸夜夜添夜夜添无| 俺也去www色官方网站伴半| 最近中文字幕国产精选| 久久久久久久久性潮| 黑人无码av| 色婷婷成人网站| 亚洲成AⅤ人在线观看无码| av大大一区二区| 中文字幕无线码中文字幕免费| 亚洲欧美日本国产综合一区二区| 国产AV熟女内射不卡| 亚洲精品精华液一区二区| 亚洲av无码乱码国产精品fc2 | 漂亮的少妇无码| 日韩亚AV无码一区二区三区| 亚洲国产中文字幕在线视频综合| 国产男男做受69高| 狠狠操人人操| 99精品欧美一区二区三区小说| 免费无码av一区二区三区| 欧美破苞流血一区二区| make love 成人片免费欧美 | 亚洲欧美日韩精品久久奇米色影视| 成全视频免费观看在线下载|