支付寶“探一下”實測：以圖搜物不錯，視覺搜索要爆發(fā)了？

2024-12-31 09:45

來源：澎湃新聞·澎湃號·湃客

日前，支付寶上線了全新AI視覺搜索產(chǎn)品“探一下”。用戶遇到感興趣的事物，就能夠讓AI通過攝像頭，“探一探”花草動物潮玩、做旅游的隨身講解、查詢商品藥品詳情等。

距離螞蟻集團正式提出AI戰(zhàn)略僅一年時間，AI對傳統(tǒng)應用的覆蓋已如此全面而深入。就拿支付寶App來說，2024年以來，支付寶接連發(fā)布“支小寶”等AI獨立應用以及智能體開發(fā)平臺，支付寶App當中也集成了各種智能助理。支付寶此次的“探一下”則是聚焦視覺多模態(tài)賽道的一次嘗試，其體驗到底如何呢？

不是機械的畫面解讀，而是用戶的“隨身解說”

進入“探一下”主界面后的第一件事就是定格攝像頭獲得的畫面并開始生成分析結果，這一套操作差點讓小雷沒有反應過來。但換個角度想想，“探一下”本身是集成在支付寶掃一掃當中的擴展能力，并不是獨立的App，通過搜索進入可能不是最好的交互方式。

功能劃分上，“探一下”主要有“探知識”“探靈感”“探文字”“AR”四個選項，最后兩個其實是常規(guī)的文字識別和AR顯示，小雷認為前兩個功能才是“探一下”的核心能力所在。

（圖片來自雷科技攝制）

“探一下”和其它主流視覺識別型AI的工作原理相差無多，都是通過識別并分析攝像頭傳來的畫面，不同之處在于，“探一下”會在捕捉畫面主體后主動生成識別結果，還可以根據(jù)圖片特征關聯(lián)商品信息，像是結合了拍圖搜物的能力。后者則是需要用戶向發(fā)起提問，比如希望獲得畫面當中的什么信息，AI才會分析，但可能由于沒有對應的接口，一般不會生成具體的產(chǎn)品型號等信息。

和常規(guī)的視覺識別大模型APP不一樣，“探一下”在生成識別結果之后會進一步發(fā)散，識別的范圍很大，綠植、飲料、食物等都可以識別。比如小雷識別了眼前的腸粉之后，“探一下”會基于識別結果提供額外的生成選項，例如“腸粉的起源地”“腸粉與廣東早茶文化有何聯(lián)系”之類的。個人感受來說，如果當下小雷遇到從未見過但又很好奇的事物，“探一下”的探知識能力的確會是一種相對有效的引導。

（圖片來自雷科技）

網(wǎng)傳“探一下”能夠準確識別各個版本的奧特曼，小雷用一個動漫手辦嘗試了一下，結果并沒有網(wǎng)傳的厲害，大概是數(shù)據(jù)庫沒有對應的角色。

換作是菊花茶這種有明顯商品特征的識別結果，“探一下”會在探知識的選項當中接入商品鏈接，這就是小雷前面提到的拍圖搜商品的能力，這在日常中可能會用得比較多。只不過目前“探一下”識別結果的準確性還有提升空間，就比如它會將小雷手上的華為nova 13 Pro識別成華為P50 Pro，猜測識別的準確性與數(shù)據(jù)庫、攝像頭畫面有一定的關聯(lián)。

（圖片來自雷科技）

小雷還發(fā)現(xiàn)“探一下”在識別上的一些細節(jié)，當系統(tǒng)直接框選或摳出重點物體時，識別結果和發(fā)散內(nèi)容可能會多一些（增加探商品、探實物等詞條），如果保留原始畫面，一定程度上說明識別結果不一定準確。

而“探靈感”則類似于看圖配文，提供“幽默”和“治愈”兩種文本生成風格，前者會以漫畫對話氣泡展現(xiàn)，有點像是物品的“內(nèi)心OS”之類的，看起來還算有趣，“治愈”就是正能量文本輸出，這些文本內(nèi)容都是基于AI對畫面內(nèi)容識別之后延伸出來的答案，把視覺識別與AI幫寫結合在了一起。

簡短體驗下來，小雷認為支付寶“探一下”更像是一種帶有玩樂和創(chuàng)意屬性的生成式AI輕應用，它不會針對畫面內(nèi)容輸出具體的識別結果，而是簡化識別結果，并以科普、搜同款、AI創(chuàng)意文案這幾點為核心，可以把它看作是“隨身講解”。

（圖片來自雷科技）

但本質(zhì)上小雷認為“探一下”的出現(xiàn)還是支付寶對本土服務的整合，比如以圖搜商品之類的，再通過AI視覺識別和知識科普、文字靈感推薦這樣的親民玩法，帶動更多人使用AI功能，亦或是引導用戶養(yǎng)成一種全新的搜索習慣。

對戰(zhàn)理想同學、智譜：視覺識別能力強大

前面聊了關于支付寶“探一下”的體驗和玩法分析，為了弄清楚和常規(guī)的視覺模型App區(qū)別在哪里，小雷找來了理想同學、智譜兩款支持視覺識別的App進行簡單對比。

小雷前面有提到，支付寶“探一下”不需要用戶主動發(fā)文，也不會輸出攝像頭畫面的具體分析結果，而是跳過這一步驟，直接提供知識科普、AI個性化文案這樣的發(fā)散選項。作為對比，常規(guī)的視覺大模型App先是收集畫面內(nèi)容，再等待用戶提問，往往能夠得到十分具體的畫面解讀。另外，“探一下”不支持文字輸入，它就是單純的視覺識別。

都是畫面識別，“探一下”走的是一條不同于常規(guī)視覺大模型的道路，后者強調(diào)看到了什么內(nèi)容，前者強調(diào)的是物體背后的內(nèi)容（購物鏈接、歷史背景等）。面對同樣的現(xiàn)代風格建筑畫面，理想同學和智譜的解答方向是一致的，智譜的解答更詳細，具體到畫面周邊的元素，以及建筑表面可能會被植被覆蓋這樣的細節(jié)，甚至還會進一步猜測這張圖片所處的環(huán)境。

（圖片來自雷科技，圖一為“探一下”，圖二為理想同學，圖三為智譜）

而“探一下”直接跳過了畫面分析這個步驟，直接擺出“石材的使用如何提升建筑物的視覺質(zhì)感”“玻璃幕墻在節(jié)能方面有哪些技術優(yōu)勢”等，來引導我們進一步了解。事實上，對于正在游覽景點的人而言，這種發(fā)散式的知識科普可能比游園內(nèi)的講解器還有用。

識別花花草草，支付寶的“探一下”還是有點實力，和理想同學、智譜的對比當中，“探一下”和理想同學都能準確識別眼前的花卉的品種（千日紅），而智譜輸出成雞冠花。實際上千日紅和雞冠花兩個品種的顏色比較接近，只在造型上有明顯區(qū)分，更考驗AI對畫面內(nèi)容識別的準確性。

（圖片來自雷科技，圖一為“探一下”，圖二為理想同學，圖三為智譜）

至于文字生成、圖片生成一類的，我們就沒有必要折騰支付寶的“探一下”了，它和理想同學、Kimi、豆包之類的大模型App并不在一條賽道上，并不具備查詢資料、寫作、畫圖之類的生產(chǎn)能力，本質(zhì)上還是一個更趣味的以圖搜索的輕量AI工具。

單論視覺識別的話，雖說視覺模型對具體產(chǎn)品的識別能力普遍比較弱，但支付寶“探一下”的識別水平至少不弱于主流，得益于背后有本土服務等數(shù)據(jù)資源，它的周邊搜索能力可能還比常規(guī)的視覺模型更強，比如識別到具體的飲料或藥物，適合什么時候、什么人群服用，“探一下”更集中于這些日常生活的服務。

AI視覺爆發(fā)，“探一下”掀起視覺搜索大戰(zhàn)？

2023年，螞蟻戰(zhàn)略集團對外宣布了AI提速戰(zhàn)略，確定了“AI First”，正式將AI作為公司發(fā)展的核心戰(zhàn)略之一。如今，除了最近上線的“探一下”視覺AI產(chǎn)品外，支付寶今年也完成了AI智能助理的布局，出行、健康、政務等30多項場景服務當中，都接入了AI大模型能力。

支付寶推出“探一下”AI視覺產(chǎn)品，本身不是為了和智譜、Kimi等主流大模型展開競爭，嚴格來說，支付寶和他們完全不在一條賽道上。在小雷看來，無論是智能助理還是“探一下”，又或者是“支小寶”等AI獨立應用，幫助我們解決問題，

廠商狂卷AI大模型規(guī)模的“玩概念”時代已經(jīng)過去，如何讓AI落到實處，引導用戶使用AI能力，才是當下行業(yè)普遍關注的重點。

官方表示，人類獲取的信息有超過80%來自視覺，以視覺為中心的人工智能產(chǎn)品，可以極大地降低人與AI交互的門檻。事實上，AI大模型供應商也在加緊視覺模型的鋪開和開發(fā)，Google Lens、理想同學、智譜等視覺模型，利用廣泛知識庫識別、理解視覺內(nèi)容，已經(jīng)成為一種新浪潮。