日本护士毛茸茸高潮,亚洲精品自偷自拍无码,久久精品国产一区二区三区,日韩人妻无码免费视频一二区

澎湃Logo
下載客戶端

登錄

  • +1

訓(xùn)練成本大降超九成!阿里開源下一代基礎(chǔ)模型架構(gòu),引入混合注意力機(jī)制

澎湃新聞?dòng)浾?胡含嫣
2025-09-12 13:15
來源:澎湃新聞
? 10%公司 >
字號

阿里開源全新架構(gòu)Qwen3-Next,80B參數(shù)新模型只需激活3B即可實(shí)現(xiàn)旗艦性能。

9月12日,阿里通義發(fā)布下一代基礎(chǔ)模型架構(gòu)Qwen3-Next和基于新架構(gòu)的模型Qwen3-Next-80B-A3B,包含兩個(gè)版本:更擅長理解和執(zhí)行指令的指令(Insctruct)模型,以及更擅長多步推理和深度思考的推理(Thinking)模型。

據(jù)介紹,相比Qwen3的MoE(混合專家)模型結(jié)構(gòu),Qwen3-Next進(jìn)行了以下核心改進(jìn):混合注意力機(jī)制、高稀疏度MoE結(jié)構(gòu)、一系列訓(xùn)練穩(wěn)定友好的優(yōu)化,以及提升推理效率的多token預(yù)測機(jī)制(簡稱MTP,Multiple-Token Prediction)。

在核心技術(shù)方面,新模型采用全球首創(chuàng)混合架構(gòu),75%用Gated DeltaNet(線性注意力),25%用原創(chuàng)Gated Attention(門控注意力),總參數(shù)80B只需激活3B,就可以在性能上媲美Qwen3旗艦版235B模型,算力利用率約為3.7%,幫助用戶“極致省錢”。

在訓(xùn)練成本方面,Qwen3-Next模型較今年4月發(fā)布的密集模型Qwen3-32B大降超90%,長文本推理吞吐量提升10倍以上。新模型在Qwen3預(yù)訓(xùn)練數(shù)據(jù)的子集15T tokens上進(jìn)行預(yù)訓(xùn)練,僅需Qwen3-32B所用GPU計(jì)算資源的9.3%,便能訓(xùn)練出性能更好的Qwen3-Next-Base基座模型,大幅提升了訓(xùn)練效率。

阿里通義團(tuán)隊(duì)指出,高稀疏MoE架構(gòu)是Qwen3-Next面向下一代模型的最新探索。當(dāng)前,MoE是主流大模型都采用的架構(gòu),通過激活大參數(shù)中的小部分專家完成推理任務(wù)。此前,Qwen3系列的MoE專家激活比約為1比16,而Qwen3-Next通過更精密的高稀疏MoE架構(gòu)設(shè)計(jì),實(shí)現(xiàn)了1比50的極致激活比,創(chuàng)下業(yè)界新高。

在性能表現(xiàn)方面,Qwen3-Next指令模型的性能表現(xiàn)與參數(shù)規(guī)模更大的Qwen3-235B-A22B-Instruct-2507持平,思維模型表現(xiàn)優(yōu)于谷歌閉源模型Gemini-2.5-Flash-Thinking。

Qwen3-Next-80B-A3B-Instruct指令模型性能評測圖。來源:阿里通義

目前,新模型已在魔搭社區(qū)和HuggingFace開源,開發(fā)者也可通過Qwen Chat免費(fèi)體驗(yàn),或直接調(diào)用阿里云百煉平臺提供的API服務(wù)。

關(guān)于Qwen3-Next模型值得注意的創(chuàng)新點(diǎn),Pine AI聯(lián)合創(chuàng)始人、首席科學(xué)家李博杰對澎湃新聞?dòng)浾弑硎?,Qwen3-Next采用了混合注意力機(jī)制和高稀疏MoE架構(gòu),從而大幅提升效率;除了這兩大創(chuàng)新點(diǎn)以外,Qwen3-Next還在預(yù)訓(xùn)練時(shí)采用了多Token預(yù)測技術(shù)MTP(Mutiple-Token Prediction),模型推理速度大幅提升。

李博杰表示,雖然以上三種技術(shù)創(chuàng)新在學(xué)界已有研究,但阿里證明了其在工業(yè)界的實(shí)用性,同時(shí)還保持了開源:“Qwen3-Next第一次證明了這些技術(shù)能夠放在一起共同運(yùn)作,并且能夠在實(shí)際的業(yè)務(wù)場景中展現(xiàn)出很好的能力表現(xiàn)。從評測結(jié)果和模型架構(gòu)來看,Qwen3-Next已經(jīng)達(dá)到了谷歌Geimini 2.5 flash的水平?!?/p>

近期,阿里通義動(dòng)作頻頻,包括推出超萬億參數(shù)的Qwen3-Max-Preview、文生圖及編輯模型Qwen-Image-edit、語音識別模型Qwen3-ASR-Flash等。全球AI開源社區(qū)HuggingFace的最新數(shù)據(jù)顯示,通義千問Qwen衍生模型數(shù)已超17萬,穩(wěn)坐全球第一開源模型。

9月1日,國際權(quán)威市場調(diào)研機(jī)構(gòu)沙利文(Frost&Sullivan)發(fā)布了最新的《中國GenAI市場洞察:企業(yè)級大模型調(diào)用全景研究,2025》,報(bào)告顯示,中國企業(yè)級大模型調(diào)用呈爆發(fā)式增長,2025年上半年日均調(diào)用量較2024年底實(shí)現(xiàn)363%的增長,目前超10萬億Tokens。其中,阿里通義占比17.7%位列第一,是中國企業(yè)選擇最多的大模型。

    責(zé)任編輯:孫扶
    圖片編輯:沈軻
    校對:張艷
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋
            色婷婷aV一区二区三区麻豆综合| 成人片黄网站色大片免费观看| 91情侣在线精品国产| 天天干人人摸| 国产无码黄色高清网站| 日本成在线观看| 99精品国产在热久久无码| 午夜成人黄色影院| 亚洲午夜无码极品久久| 乱亲女h秽乱长久久久| 亚1州区2区3区产品乱码| 9191精品国产| 黄色裸片正版内射aBB| 超级精品碰碰视频| 国产成人精品高清在线电影| 精品人妻东京热日产乱码| 超碰97资源站| 中文字幕无码午夜场| 蜜臀AⅤ国产精品久久久国产老师 亚洲成av人片天堂网无码】 | 亚洲欧洲一区二区| 激情成人综合网| 亚洲高清无码一区二区三区免费视频| 亚洲一区二区三区国产| 国产伦一区二区三区视频| 婷婷狠狠色18禁久久yy| 77777亚洲午夜久久多喷| 东京热人妻丝袜无码AV一二三区观| 国产精品色一区二区三区| 日本人体337p| 亚洲AV无码一区二区三区在线播放| 久久免费不卡AV| 欧美地区在线免费观看| 成AV人片一区二区三区久久 | 奇米四色在线视频| 中文人妻无码一区二区三区在线| 免费强奸三级片九九| 波多野结衣被强奸视频免费观看| 精品国产午夜福利理论片| 淫荡国产av| 成人电影亚洲无码在线观看| 久久精品区99|