- +1
DeepSeek埋頭“小更新”,又打了模圈一個措手不及

作者|參商
編輯|星奈
媒體|AI大模型工場
29號,深度求索趕在端午假期到來前正式完成了DeepSeek R1模型的小版本升級,消息一出模圈嘩然。自從2月份紅遍國內(nèi)外后DeepSeek一直是以模型供應商的身份活躍在大模型圈的“幕后”版塊,鮮少有在一線露面的機會,更多的是各家采購商只言片語的提及,沒想到再聽見發(fā)聲,已是憋出來個升級的時候:

現(xiàn)在DeepSeek R1已經(jīng)升級為最新的DeepSeek-R1-0528,用戶可通過官方網(wǎng)站、APP 或小程序進入對話界面后,開啟“深度思考”功能即可體驗最新版本。API 也已同步更新,調(diào)用方式不變。
01
超強能力者再創(chuàng)國產(chǎn)模型評分新高
作為一個深度思考模型,本次升級自然是繞不開深度思考能力的強化。具體而言,DeepSeek-R1-0528仍然使用的是去年12月發(fā)布的DeepSeek V3 Base模型作為基座模型進行訓練,但在后訓練過程中投入了更多算力,以此達到了顯著提升模型思維深度與推理能力的效果。
根據(jù)官方披露,更新后的R1在數(shù)學、編程與通用邏輯等多個基準測評中取得了當前國內(nèi)所有模型中首屈一指的優(yōu)異成績,并且在整體表現(xiàn)上已接近其他國際頂尖模型,如 o3 與 Gemini-2.5-Pro:

可以看到相較于舊版本R1,新版R1在復雜推理任務中的表現(xiàn)有非常顯著的提升,真正追平國際頂尖水平。具體在 AIME 2025測試中,新版模型準確率由舊版的 70% 提升至 87.5%。根據(jù)官方解釋,這是得益于模型在推理過程中的思維深度增強:在 AIME 2025 測試集上,舊版模型平均每題使用 12K tokens,而新版模型平均每題使用 23K tokens,表明其在解題過程中進行了更為詳盡和深入的思考。

同時,深度求索還基于DeepSeek-R1-0528的思維鏈,后訓練了Qwen3-8B Base,得到了 DeepSeek-R1-0528-Qwen3-8B。而該8B模型在數(shù)學測試 AIME 2024 中僅次于DeepSeek-R1-0528,超越 Qwen3-8B(+10.0%),與 Qwen3-235B 相當。再次證明了全新R1的強勁能力。
02
實測:肉眼可見的生成內(nèi)容提升
至于具體體驗如何,我們一起來看看快速上手測試的結果。下圖是我讓全新DeepSeek R1進行自我介紹的聊天過程:

可以看到現(xiàn)在的R1相比先前版本有了更流暢更清晰的回答過程,不論是思考鏈還是正式生成內(nèi)容,甚至有非常貼心的對比和總結,都用了一些特殊符號標注出來。
這些充分的交互功能在過去的R1版本是所不曾體現(xiàn),當時大家還在調(diào)侃DeepSeek過于活人感,有一股機器人魔性的瘋癲美,但現(xiàn)在看來,全新R1的工具化進程明顯,更有個人通用助手的味道,這在當下強調(diào)agent通用處理能力的形勢下具有一定意義。
當然除了針對深度思考生成結果本身提升來說,這次也同步升級了許多其他的特點,比如針對翻譯內(nèi)容的優(yōu)化:

可以看見翻譯得非常準確,而且非常有人味,當我們要求翻譯Love loves to love love ,遵循信達雅時:

R1能夠自動匹配到林語堂先生的語錄,并且能夠幫我們?nèi)Ρ扰c直譯的差別,可謂是文科強者,這在先前版本的R1那個理工腦子是不存在的。
同樣的全新R1編程能力也不俗,像這里我們要求其為我們生成一個網(wǎng)頁:
prompt:你能為我創(chuàng)建一個基于情緒的食譜生成器嗎?它應該詢問用戶的情緒,然后根據(jù)他們擁有的食材推薦食譜。它應該有明亮自然的主題,搭配纖細且美觀的字體,并且應該是動畫的和互動的。不要使用紫色暗色調(diào)主題,主題就由你的創(chuàng)造力來決定。

可以看到質(zhì)量尚可,當然R1并不是編程agent,生成的內(nèi)容無法自帶后端,但是這個前端編程能力已經(jīng)在所實際體驗過的深度思考agent里屬于頭部水平了。
同時,在舊版R1的基礎上,更新后的 R1 模型針對議論文、小說、散文等文體進行了進一步優(yōu)化,能夠輸出篇幅更長、結構內(nèi)容更完整的長篇作品,同時呈現(xiàn)出更加貼近人類偏好的寫作風格,像這里我要求R1以端午和六一為背景寫一篇抒情散文詩,首先散文詩這個格式的文章本來就不多見,其次我還特別要求以近代著名文學家端木蕻良的文風來創(chuàng)作:

上下滑動查看完整內(nèi)容
可以看見生成內(nèi)容文學氣質(zhì)直接拉爆了,標題這個“端午與六一的斷章”就起得非常有意境,并且內(nèi)容辭藻在保證華麗的基礎上,多多添了白描的手法,保證了整體內(nèi)容散形不散的文種特點。
除了這些比較明顯的更新外,新版 DeepSeek R1 針對“幻覺”問題進行了優(yōu)化。與舊版相比,更新后的模型在改寫潤色、總結摘要、閱讀理解等場景中,幻覺率降低了 45~50% 左右,能夠有效地提供更為準確、可靠的結果。同時DeepSeek-R1-0528 支持工具調(diào)用(不支持在 thinking 中進行工具調(diào)用)。雖然目前水平與 o3-High 以及 Claude 4 Sonnet 仍有差距,但Tau-Bench 測評成績?yōu)?airline 53.5% / retail 63.9%,已經(jīng)做到了OpenAI o1-high 相當。
03
DeepSeek給模圈一個措手不及,模圈給DeepSeek一個強制愛
DeepSeek這一次的更新,API 已同步更新,接口與調(diào)用方式保持不變。新版 R1 API 仍支持查看模型思考過程,同時還增加了 Function Calling 和 JsonOutput 的支持。同時對新版 R1 API 中 max_tokens 參數(shù)的含義做了調(diào)整:現(xiàn)在 max_tokens用于限制模型單次輸出的總長度(包括思考過程),默認為 32K,最大為 64K。如果用戶對更長的上下文長度有需求,可以通過其他第三方平臺調(diào)用上下文長度為 128K 的開源版本 R1-0528 模型。
和之前的操作一樣,這次的模型也同步開源。DeepSeek-R1-0528 與之前的 DeepSeek-R1 使用同樣的 base 模型,僅改進了后訓練方法。私有化部署時只需要更新 checkpoint 和 tokenizer_config.json(tool calls 相關變動)。模型參數(shù)為 685B(其中 14B 為 MTP 層),開源版本上下文長度為 128K(網(wǎng)頁端、App 和 API 提供 64K 上下文)。與舊版本的 DeepSeek-R1 保持一致,此次我們的開源倉庫(包括模型權重)仍然統(tǒng)一采用 MIT License,并允許用戶利用模型輸出、通過模型蒸餾等方式訓練其他模型。
就在DeepSeek發(fā)布全新R1的第二天,火山引擎和騰訊就前后腳更新了最新版:


很明顯各大廠商并沒有被這場突襲搞蒙圈,反倒是給了DeepSeek一個強制愛,可見現(xiàn)階段各家大廠對于行業(yè)最新的前沿技術跟進非常用心。DeepSeek-R1-0528的思維鏈對于學術界推理模型的研究和工業(yè)界針對小模型的開發(fā)都將具有重要意義?,F(xiàn)階段已經(jīng)進入大模型存續(xù)階段,誰有絲毫懈怠就會被落下身位。半年已過,DeepSeek全新R1也正式拉開了下半年的模圈大戰(zhàn),期待未來行業(yè)的發(fā)展,特別是以后R2的來襲。
本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




