下載客戶端

登錄

同一個Deepseek R1，不同“買家秀”？實測不同云平臺ds性能

2025-03-05 07:21

來源：澎湃新聞·澎湃號·湃客

作者｜冰拿鐵

編輯｜星奈

媒體｜AI大模型工場

大模型“撞衫”不可怕，誰性能差誰尷尬——今年年初，DeepSeek R1大模型橫空出世，推理能力、性能媲美OpenAI o1，引起模圈震動，得益于其開源策略與靈活部署能力，火山引擎、阿里云、騰訊云、百度智能云等平臺爭相接入：

數(shù)據(jù)顯示，DeepSeek 相關(guān)平臺的API調(diào)用量急劇增長，根據(jù)調(diào)研，數(shù)碼企業(yè)、法務公司、電商企業(yè)均加速接入DeepSeek-R1開源大模型。而隨著越來越多主流廠商接入Deepseek，一場關(guān)于基礎(chǔ)設施適配能力的暗戰(zhàn)悄然展開：

當下，同一款大模型在各平臺上呈現(xiàn)出顯著的性能分野。前不久，中國軟件評測中心人工智能部選擇十余家國內(nèi)外服務的廠商開展全面評測，結(jié)果顯示，各廠商深度思考能力、代碼能力等維度分化明顯，如火山引擎、訊飛開放等代碼任務能力較強；硅基流動與百度智能云在代碼任務中出現(xiàn)少許截斷或未回復情況；

推理維度，百度智能云、訊飛開放、火山引擎等平臺的生成內(nèi)容的總字數(shù)都接近三千字，其中推理字數(shù)占比分別達到68%、69%以及60%，展現(xiàn)出更強的邏輯延展性，相較之下，部分平臺僅能提供淺層推理。

這種“橘生淮南則為橘”的現(xiàn)象，揭示了技術(shù)適配、資源調(diào)度與生態(tài)協(xié)同的深層博弈。那么，真的有那么明顯的差距嗎？誰又是DeepSeek的最強輔助？讓我們一起試試吧！

一、各平臺AIME答疑表現(xiàn)：火山正確率最高，官方其次

眾所周知，deepseek最明顯的長板即深度推理能力，通過強化學習和混合專家架構(gòu)（MoE）等技術(shù)，顯著提升了推理效率和性能。為此，我們選取在大模型測評領(lǐng)域具有權(quán)威性的測試集——AIME 數(shù)學競賽題目。作為美國數(shù)學邀請賽，AIME 包含算術(shù)、代數(shù)、計數(shù)、幾何、數(shù)論、概率等多個領(lǐng)域，要求參賽者在 3 小時內(nèi)完成 15 道高難度填空題，且答案需精確到三位數(shù)，對模型的數(shù)學推理能力、邏輯嚴謹性和計算精度提出了極高要求。

同時，在技術(shù)層面，AIME 題目往往需要多步推理和創(chuàng)造性解題策略，例如通過假設驗證、思路糾偏或單位換算等復雜操作才能完成解答，這種特性使其成為檢驗大模型深度推理能力的有效工具。此前，DeepSeek-R1官方在AIME 2024基準測試中取得了79.8%的pass@1得分。

而此次我們通過Python 腳本進行測評（腳本放在文末），選取了火山引擎、阿里云、官方Deepseek、騰訊云四位考生，感興趣的朋友一起試試吧！

結(jié)果：AIME題庫下，正確率由高到低依次是：火山引擎83.33% ；官方Deepseek 73.33% ；阿里云 71.67% ；騰訊云58.33% 。

其中火山、 Deepseek各網(wǎng)絡狀態(tài)下表現(xiàn)平穩(wěn)，測試均為一遍過，30道題全部響應，測得比較省心。

阿里云在電信下異常中斷較嚴重，聯(lián)通下表現(xiàn)良好，電信下響應7道題，正確率為57.14%，聯(lián)通下響應29道題，正確率86.20%，取兩次的平均值。

騰訊網(wǎng)絡無響應情況稍顯頻繁，同樣取多次測試的平均值。

順帶吐槽下，這兩家頻頻不響應，一做題CPU就燒的廠商把我們公司本職程序員，被臨時搖來測評的同學脾氣都磨沒了，一天的測評任務硬生生三天才完成，不是在刷新頁面就是在刷新頁面的路上，白天在公司修BUG，半夜兼職跑數(shù)據(jù)的日子，讓其本來就不濃郁的頭發(fā)此刻更顯稀疏。對此，他表示無力吐槽：

“尤其是阿里，在電信網(wǎng)絡里像是被拔了網(wǎng)線的AI高考生，做了7道題直接擺爛，一換到聯(lián)通網(wǎng)絡立刻化身學霸，不演了，堪比期末考前夜的突擊戰(zhàn)神，小丫頭還有兩幅面孔呢？”

（讓程序員同學兩眼一黑的超時現(xiàn)場）

那么，這三家的思考過程究竟是啥樣的呢，有沒有更直觀的體現(xiàn)？接下來，我們手動選取了一道AIME試題，看其具體推理、思考過程及表現(xiàn)。結(jié)果可見，同樣的問題雖然幾家最終都取得了正確結(jié)果，但火山速度最快、解題步驟也更為清晰明了，還貼心地翻譯成了中文，更適合中國寶寶體質(zhì)。速度上，同樣的問題火山用時13.68秒，官方最慢，81秒。

火山引擎

騰訊云

（官方DeepSeek內(nèi)心os：我不要面子的嘛？）

那么，正確率和速度之外，如果想更全面、綜合地測評各廠商API性能，還有哪些維度可以涵蓋進去呢？

二、性能、速度、穩(wěn)定性綜合比拼：Deepseek六邊形最強輔助出爐

測評一時爽，一直測評火葬場，這部分，我們一致決定：還是抱大腿抄作業(yè)，直接搬運個大神的測評吧！

功夫不負有心人，一番5G沖浪，我們扒到了一個硬核實測——由第三方開發(fā)者實時檢測各云廠商DeepSeek API性能指標的項目，不僅從TTFT（Time To First Token）、TBT（Total Blocking Time）、Throughput (吞吐量）等維度全面測評，堪稱測評界的心電圖，還貼心地繪制了圖表，得來全不費工夫！

附網(wǎng)站地址：https://deepseek.ai-infra.fun/ ，里面有性能指標和實時數(shù)據(jù)更新呦。有DeepSeek API選型需求的企業(yè)可以蹲蹲最新數(shù)據(jù)，直接Ctrl+C走這份實戰(zhàn)指南。

【PS：TTFT指標顯示了用戶在看到模型輸出之前需要等待的時間，TTFT 越小，用戶等待時間越短，體驗越好。TBT表示生成相鄰 token 之間的平均時間間隔，反映了模型生成文本的連續(xù)性和流暢度，數(shù)值越低表示生成速度越快，用戶獲得完整回復的時間越短；Throughput (吞吐量）反映了模型的實際生成效率，數(shù)值越高表示生成速度越快】

可見，生成速度、效率領(lǐng)域，火山引擎遙遙領(lǐng)先，通過 29.50 tokens/s 的吞吐量實現(xiàn)行業(yè)最高效的文本生成能力，較阿里百煉（6.70 tokens/s）快340%。這意味著在生成1000 tokens的文檔時，火山引擎僅需34秒，而阿里百煉需要149秒。而33.9ms 的TBT指標，確保相鄰token生成間隔控制在人類無感閾值內(nèi)，避免對話機器人出現(xiàn)"打字機效應"。

其次，高負載下的穩(wěn)定性保障維度，火山引擎在保證TTFT（首token響應時間）0.46秒的同時，仍能維持超高吞吐量，體現(xiàn)動態(tài)資源調(diào)度技術(shù)的成熟度。相較騰訊知識引擎（TTFT 0.70s時吞吐26.04 tokens/s），火山引擎的單位時間資源利用率提升42%。

為此，我們做出場景優(yōu)勢總結(jié)：火山引擎在生成速度、效率、穩(wěn)定性領(lǐng)域兼具綜合優(yōu)勢，在需要實時交互（客服/助手）、長文本生成（創(chuàng)作/代碼）等硬核業(yè)務場景中，可首選火山方舟，TBT 33.90ms + TTFT 0.46s雙管齊下=絲滑流暢。

而另一家權(quán)威機構(gòu)中國軟件評測中心人工智能部的評測也佐證了這一趨勢：

其指出，各平臺正確率區(qū)分小，性能的資源效率差異較大，其中，深度思考時間以及吞吐速率的表現(xiàn)大相徑庭?；鹕揭?、納米AI搜索等平臺在既保證了準確率的情況下，吞吐速率也較快。無問芯穹、百度智能云、訊飛開放等平臺雖正確率較高，但吞吐速率較低，用戶體驗受限。以無問芯穹為例（硅基流動平臺無響應），吞吐速率僅為9字/秒，盡管能夠得到較為準確的答案，但是在使用體驗上很是卡頓，甚至會出現(xiàn)截斷的情況；POE平臺以33.78字/秒的吞吐速率領(lǐng)先，但正確率僅50%。

綜合以上來看，火山引擎目前確實是Deepseek最強“六邊形戰(zhàn)士”輔助。不過，AI戰(zhàn)場瞬息萬變，從Deepseek的橫空出世、彎道超車就能看出來，沒有哪家廠商擁有永恒不變的優(yōu)勢地位，同志仍需努力！當然，AI大模型工場也會持續(xù)關(guān)注行業(yè)動向做出更新，為需要的企業(yè)、開發(fā)者發(fā)回“一線電報”。

尾聲：

最后，DeepSeek R1的云平臺分化現(xiàn)象，本質(zhì)是AI基礎(chǔ)設施能力的一次公開檢驗，既映射著各廠商在算力基建、工程化能力和生態(tài)整合上的實力差距，也暴露出國產(chǎn)AI產(chǎn)業(yè)鏈條中芯片適配、模型優(yōu)化等關(guān)鍵環(huán)節(jié)的攻堅難點。未來，云廠商需在算力國產(chǎn)化、數(shù)據(jù)工程化、生態(tài)開放化等方面構(gòu)筑護城河。

而對用戶而言，“橘生淮南”的差異恰是精細化選擇的機遇——唯有深入理解技術(shù)棧與業(yè)務場景的耦合關(guān)系，方能真正釋放大模型的變革潛力。

不過，值得欣慰的是，當前行業(yè)領(lǐng)跑者已開啟能力普惠化進程，將技術(shù)優(yōu)勢轉(zhuǎn)化為用戶體驗紅利。以火山引擎為例，其目前正在做拉新活動，暢享DeepSeek R1 和 V3，支持3萬RPM和500萬TPM不限速，分享即可領(lǐng)tokens！如果想快速上手deepseek、獲得絲滑流暢體驗，即刻邀請好友免費領(lǐng)大模型！成功邀請1位新用戶，最高雙方可得145元代金券，可抵扣3625萬tokens，多邀多得不封頂。

對于亟需平衡成本與效能的開發(fā)者，這類“先試后買”的體驗機會，恰好是理解不同平臺技術(shù)底座、并在自家業(yè)務上試點的絕佳契機?？靵硌埬闵磉叺拈_發(fā)者吧！地址：https://www.volcengine.com/activity/deepseek

附文中測評Python腳本，感興趣的朋友可以自己跑跑，也可以搬走自行調(diào)整配置文件和模板快速適配不同評估需求：

git 地址：

https://gitee.com/ai-large-model-factory/evals.git

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#火山引擎