梁文鋒論文登上《自然》封面

2025-09-22 13:33

來源：澎湃新聞·澎湃號·湃客

據(jù)科技日報消息，9月17日，DeepSeek-AI團隊梁文鋒及其同事在《自然》雜志上發(fā)表了開源人工智能（AI）模型DeepSeek-R1所采用的大規(guī)模推理模型訓練方法。

另據(jù)第一財經(jīng)報道，與今年1月發(fā)布的DeepSeek-R1的初版論文相比，本次論文披露了更多模型訓練的細節(jié)，并正面回應(yīng)了模型發(fā)布之初的蒸餾質(zhì)疑。

DeepSeek-R1也是全球首個經(jīng)過同行評審的主流大語言模型。Nature評價道：目前幾乎所有主流的大模型都還沒有經(jīng)過獨立同行評審，這一空白“終于被DeepSeek打破”。

梁文鋒

DeepSeek-R1包含一個在人類監(jiān)督下的深入訓練階段，以優(yōu)化推理過程。梁文鋒團隊報告稱，該模型使用了強化學習而非人類示例來開發(fā)推理步驟，減少了訓練成本和復雜性。

DeepSeek-R1在被展示優(yōu)質(zhì)的問題解決案例后，會獲得一個模板來產(chǎn)生推理過程，即這一模型通過解決問題獲得獎勵，從而強化學習效果。團隊總結(jié)說，未來研究可以聚焦優(yōu)化獎勵過程，以確保推理和任務(wù)結(jié)果更可靠。

據(jù)公開資料，梁文鋒出生于1985年，廣東湛江人，畢業(yè)于浙江大學，擁有信息與電子工程學系學士和碩士學位，杭州幻方科技有限公司、DeepSeek創(chuàng)始人。2024年12月，梁文鋒和團隊開發(fā)的大模型“DeepSeek-V3”發(fā)布。2025年4月，梁文鋒入選美國《時代》周刊“2025年全球最具影響力100人”榜單。

來源：長安街知事，綜合自科技日報、第一財經(jīng)。

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#梁文鋒