日本护士毛茸茸高潮,亚洲精品自偷自拍无码,久久精品国产一区二区三区,日韩人妻无码免费视频一二区

澎湃Logo
下載客戶端

登錄

  • +1

同一個Deepseek R1,不同“買家秀”?實測不同云平臺ds性能

2025-03-05 07:21
來源:澎湃新聞·澎湃號·湃客
字號

作者|冰拿鐵

編輯|星奈

媒體|AI大模型工場

大模型“撞衫”不可怕,誰性能差誰尷尬——今年年初,DeepSeek R1大模型橫空出世,推理能力、性能媲美OpenAI o1,引起模圈震動,得益于其開源策略與靈活部署能力,火山引擎、阿里云、騰訊云、百度智能云等平臺爭相接入:

數(shù)據(jù)顯示,DeepSeek 相關(guān)平臺的API調(diào)用量急劇增長,根據(jù)調(diào)研,數(shù)碼企業(yè)、法務公司、電商企業(yè)均加速接入DeepSeek-R1開源大模型。而隨著越來越多主流廠商接入Deepseek,一場關(guān)于基礎(chǔ)設施適配能力的暗戰(zhàn)悄然展開:

當下,同一款大模型在各平臺上呈現(xiàn)出顯著的性能分野。前不久,中國軟件評測中心人工智能部選擇十余家國內(nèi)外服務的廠商開展全面評測,結(jié)果顯示,各廠商深度思考能力、代碼能力等維度分化明顯,如火山引擎、訊飛開放等代碼任務能力較強;硅基流動與百度智能云在代碼任務中出現(xiàn)少許截斷或未回復情況;

推理維度,百度智能云、訊飛開放、火山引擎等平臺的生成內(nèi)容的總字數(shù)都接近三千字,其中推理字數(shù)占比分別達到68%、69%以及60%,展現(xiàn)出更強的邏輯延展性,相較之下,部分平臺僅能提供淺層推理。

這種“橘生淮南則為橘”的現(xiàn)象,揭示了技術(shù)適配、資源調(diào)度與生態(tài)協(xié)同的深層博弈。那么,真的有那么明顯的差距嗎?誰又是DeepSeek的最強輔助?讓我們一起試試吧!

一、各平臺AIME答疑表現(xiàn):火山正確率最高,官方其次

眾所周知,deepseek最明顯的長板即深度推理能力,通過強化學習和混合專家架構(gòu)(MoE)等技術(shù),顯著提升了推理效率和性能。為此,我們選取在大模型測評領(lǐng)域具有權(quán)威性的測試集——AIME 數(shù)學競賽題目。作為美國數(shù)學邀請賽,AIME 包含算術(shù)、代數(shù)、計數(shù)、幾何、數(shù)論、概率等多個領(lǐng)域,要求參賽者在 3 小時內(nèi)完成 15 道高難度填空題,且答案需精確到三位數(shù),對模型的數(shù)學推理能力、邏輯嚴謹性和計算精度提出了極高要求。

同時,在技術(shù)層面,AIME 題目往往需要多步推理和創(chuàng)造性解題策略,例如通過假設驗證、思路糾偏或單位換算等復雜操作才能完成解答,這種特性使其成為檢驗大模型深度推理能力的有效工具。此前,DeepSeek-R1官方在AIME 2024基準測試中取得了79.8%的pass@1得分。

而此次我們通過Python 腳本進行測評(腳本放在文末),選取了火山引擎、阿里云、官方Deepseek、騰訊云四位考生,感興趣的朋友一起試試吧!

結(jié)果:AIME題庫下,正確率由高到低依次是:火山引擎83.33% ;官方Deepseek 73.33% ;阿里云 71.67% ;騰訊云58.33% 。

其中火山、 Deepseek各網(wǎng)絡狀態(tài)下表現(xiàn)平穩(wěn),測試均為一遍過,30道題全部響應,測得比較省心。

阿里云在電信下異常中斷較嚴重,聯(lián)通下表現(xiàn)良好,電信下響應7道題,正確率為57.14%,聯(lián)通下響應29道題,正確率86.20%,取兩次的平均值。

騰訊網(wǎng)絡無響應情況稍顯頻繁,同樣取多次測試的平均值。

順帶吐槽下,這兩家頻頻不響應,一做題CPU就燒的廠商把我們公司本職程序員,被臨時搖來測評的同學脾氣都磨沒了,一天的測評任務硬生生三天才完成,不是在刷新頁面就是在刷新頁面的路上,白天在公司修BUG,半夜兼職跑數(shù)據(jù)的日子,讓其本來就不濃郁的頭發(fā)此刻更顯稀疏。對此,他表示無力吐槽:

“尤其是阿里,在電信網(wǎng)絡里像是被拔了網(wǎng)線的AI高考生,做了7道題直接擺爛,一換到聯(lián)通網(wǎng)絡立刻化身學霸,不演了,堪比期末考前夜的突擊戰(zhàn)神,小丫頭還有兩幅面孔呢?”

(讓程序員同學兩眼一黑的超時現(xiàn)場)

那么,這三家的思考過程究竟是啥樣的呢,有沒有更直觀的體現(xiàn)?接下來,我們手動選取了一道AIME試題,看其具體推理、思考過程及表現(xiàn)。結(jié)果可見,同樣的問題雖然幾家最終都取得了正確結(jié)果,但火山速度最快、解題步驟也更為清晰明了,還貼心地翻譯成了中文,更適合中國寶寶體質(zhì)。速度上,同樣的問題火山用時13.68秒,官方最慢,81秒。

火山引擎

騰 訊云

(官方DeepSeek內(nèi)心os:我不要面子的嘛?)

那么,正確率和速度之外,如果想更全面、綜合地測評各廠商API性能,還有哪些維度可以涵蓋進去呢?

二、性能、速度、穩(wěn)定性綜合比拼:Deepseek六邊形最強輔助出爐

測評一時爽,一直測評火葬場,這部分,我們一致決定:還是抱大腿抄作業(yè),直接搬運個大神的測評吧!

功夫不負有心人,一番5G沖浪,我們扒到了一個硬核實測——由第三方開發(fā)者實時檢測各云廠商DeepSeek API性能指標的項目,不僅從TTFT(Time To First Token)、TBT(Total Blocking Time)、Throughput (吞吐量)等維度全面測評,堪稱測評界的心電圖,還貼心地繪制了圖表,得來全不費工夫!

附網(wǎng)站地址:https://deepseek.ai-infra.fun/ ,里面有性能指標和實時數(shù)據(jù)更新呦。有DeepSeek API選型需求的企業(yè)可以蹲蹲最新數(shù)據(jù),直接Ctrl+C走這份實戰(zhàn)指南。

【PS:TTFT指標顯示了用戶在看到模型輸出之前需要等待的時間,TTFT 越小,用戶等待時間越短,體驗越好。TBT表示生成相鄰 token 之間的平均時間間隔,反映了模型生成文本的連續(xù)性和流暢度,數(shù)值越低表示生成速度越快,用戶獲得完整回復的時間越短;Throughput (吞吐量)反映了模型的實際生成效率,數(shù)值越高表示生成速度越快】

可見,生成速度、效率領(lǐng)域,火山引擎遙遙領(lǐng)先,通過 29.50 tokens/s 的吞吐量實現(xiàn)行業(yè)最高效的文本生成能力,較阿里百煉(6.70 tokens/s)快340%。這意味著在生成1000 tokens的文檔時,火山引擎僅需34秒,而阿里百煉需要149秒。而33.9ms 的TBT指標,確保相鄰token生成間隔控制在人類無感閾值內(nèi),避免對話機器人出現(xiàn)"打字機效應"。

其次,高負載下的穩(wěn)定性保障維度,火山引擎在保證TTFT(首token響應時間)0.46秒的同時,仍能維持超高吞吐量,體現(xiàn)動態(tài)資源調(diào)度技術(shù)的成熟度。相較騰訊知識引擎(TTFT 0.70s時吞吐26.04 tokens/s),火山引擎的單位時間資源利用率提升42%。

為此,我們做出場景優(yōu)勢總結(jié):火山引擎在生成速度、效率、穩(wěn)定性領(lǐng)域兼具綜合優(yōu)勢,在需要實時交互(客服/助手)、長文本生成(創(chuàng)作/代碼)等硬核業(yè)務場景中,可首選火山方舟,TBT 33.90ms + TTFT 0.46s雙管齊下=絲滑流暢。

而另一家權(quán)威機構(gòu)中國軟件評測中心人工智能部的評測也佐證了這一趨勢:

其指出,各平臺正確率區(qū)分小,性能的資源效率差異較大,其中,深度思考時間以及吞吐速率的表現(xiàn)大相徑庭?;鹕揭?、納米AI搜索等平臺在既保證了準確率的情況下,吞吐速率也較快。無問芯穹、百度智能云、訊飛開放等平臺雖正確率較高,但吞吐速率較低,用戶體驗受限。以無問芯穹為例(硅基流動平臺無響應),吞吐速率僅為9字/秒,盡管能夠得到較為準確的答案,但是在使用體驗上很是卡頓,甚至會出現(xiàn)截斷的情況;POE平臺以33.78字/秒的吞吐速率領(lǐng)先,但正確率僅50%。

綜合以上來看,火山引擎目前確實是Deepseek最強“六邊形戰(zhàn)士”輔助。不過,AI戰(zhàn)場瞬息萬變,從Deepseek的橫空出世、彎道超車就能看出來,沒有哪家廠商擁有永恒不變的優(yōu)勢地位,同志仍需努力!當然,AI大模型工場也會持續(xù)關(guān)注行業(yè)動向做出更新,為需要的企業(yè)、開發(fā)者發(fā)回“一線電報”。

尾聲:

最后,DeepSeek R1的云平臺分化現(xiàn)象,本質(zhì)是AI基礎(chǔ)設施能力的一次公開檢驗,既映射著各廠商在算力基建、工程化能力和生態(tài)整合上的實力差距,也暴露出國產(chǎn)AI產(chǎn)業(yè)鏈條中芯片適配、模型優(yōu)化等關(guān)鍵環(huán)節(jié)的攻堅難點。未來,云廠商需在算力國產(chǎn)化、數(shù)據(jù)工程化、生態(tài)開放化等方面構(gòu)筑護城河。

而對用戶而言,“橘生淮南”的差異恰是精細化選擇的機遇——唯有深入理解技術(shù)棧與業(yè)務場景的耦合關(guān)系,方能真正釋放大模型的變革潛力。

不過,值得欣慰的是,當前行業(yè)領(lǐng)跑者已開啟能力普惠化進程,將技術(shù)優(yōu)勢轉(zhuǎn)化為用戶體驗紅利。以火山引擎為例,其目前正在做拉新活動,暢享DeepSeek R1 和 V3,支持3萬RPM和500萬TPM不限速,分享即可領(lǐng)tokens!如果想快速上手deepseek、獲得絲滑流暢體驗,即刻邀請好友免費領(lǐng)大模型!成功邀請1位新用戶,最高雙方可得145元代金券,可抵扣3625萬tokens,多邀多得不封頂。

對于亟需平衡成本與效能的開發(fā)者,這類“先試后買”的體驗機會,恰好是理解不同平臺技術(shù)底座、并在自家業(yè)務上試點的絕佳契機??靵硌埬闵磉叺拈_發(fā)者吧!地址:https://www.volcengine.com/activity/deepseek

附文中測評Python腳本,感興趣的朋友可以自己跑跑,也可以搬走自行調(diào)整配置文件和模板快速適配不同評估需求:

git 地址:

https://gitee.com/ai-large-model-factory/evals.git

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務許可證:31120170006

            增值電信業(yè)務經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋
            黑人乱码一区二区三区AV| 精品国产乱码久久久人妻| 十六以下岁女子毛片免费| 在国产线视频A在线视频| 日韩成人不卡影院| 国产三区四区| 超碰97人人做人人爱2020| Yyy1111少妇影院免费| 午夜寂寞少妇aaa片毛片| 永久免费AV| 亚洲精品麻豆| 国产三级a毛视频在线观看| 有没有看Av的网站| 人妻少妇456在线视频| 国产成人免费一区二区| 被教官按在寝室狂到腿软视频| 欧美人成视频在线视频| 亚洲精品无码久久网红一百部AV| 亚洲偷自拍另类图片二区| 国产亚洲欧美日韩在线观看一区二区| 亚洲国际午夜在线| 四虎亚洲精品成人A在线观看| 日本无码人妻一区二区色欲| 丁香婷婷六月天| 好大好硬好深好爽想要 叫床| 午夜亚洲福利在线老司机| 中文字幕亚洲制服在线看| 国产成人经典视频| 熟妇人妻av无码一区二区三区 | 很很日狠狠干| 国产一区影视在线| 色吊丝免费av一区二区| 日韩无码 久久久| 99国产精品久久久久久久久久久| 久久天堂av综合色无码专区| 亚洲高清无码中字人妻| 欧美一级婬片人妻蜜乳A| 果冻传媒董小宛视频一区| 激情五月天伊人久久| 亚洲激情综合图色| 毛片网站完整版|