- +1
全國(guó)已有14個(gè)國(guó)家超算中心,何為超算互聯(lián)網(wǎng)建設(shè)的關(guān)鍵?
·全局?jǐn)?shù)據(jù)互聯(lián)與長(zhǎng)距離高速傳輸是超算互聯(lián)網(wǎng)需要攻克的兩大關(guān)鍵技術(shù)。存力與算力在超算互聯(lián)建設(shè)中同樣重要,大批量數(shù)據(jù)用算力計(jì)算一般只需幾分鐘,但計(jì)算前的上載數(shù)據(jù)要花一個(gè)小時(shí),國(guó)產(chǎn)超算平臺(tái)支持復(fù)雜計(jì)算全流程中數(shù)據(jù)流轉(zhuǎn)的能力亟待改善。

國(guó)家超級(jí)計(jì)算長(zhǎng)沙中心總工程師唐卓。
今年6月,浙江“烏鎮(zhèn)之光”超算中心正式納入國(guó)家超算中心序列,成為全國(guó)第14個(gè)國(guó)家超算中心?!拔覀儑?guó)家現(xiàn)在正在緊鑼密鼓地建設(shè)超算互聯(lián)網(wǎng)?!?月24日,在十九屆全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)期間(CCF HPC China 2023),國(guó)家超級(jí)計(jì)算長(zhǎng)沙中心總工程師、國(guó)家高層次人才計(jì)劃入選者唐卓向澎湃科技(www.loaarchitects.com.cn)詳解構(gòu)建超算互聯(lián)網(wǎng)亟需解決的關(guān)鍵技術(shù)、存力建設(shè)的重要性,以及傳統(tǒng)超算如何融合人工智能計(jì)算和大數(shù)據(jù)計(jì)算等。
唐卓長(zhǎng)期從事高性能計(jì)算和云計(jì)算的教學(xué)與科研工作。對(duì)于當(dāng)前青年科研人員的內(nèi)卷,他建議要有明確的研究方向并長(zhǎng)期沉淀和堅(jiān)持,清晰認(rèn)知自身的學(xué)習(xí)能力和科研創(chuàng)新能力,在兩者兼具的情況下往前沖,很難不成功。
超算互聯(lián)網(wǎng)兩大關(guān)鍵技術(shù):全局?jǐn)?shù)據(jù)互聯(lián)與長(zhǎng)距離高速傳輸
算力是當(dāng)代生產(chǎn)力,超級(jí)計(jì)算也被稱(chēng)為高性能計(jì)算。為盤(pán)活算力資源,單超算中心向超算互聯(lián)網(wǎng)演進(jìn),超算互聯(lián)網(wǎng)的目的是讓用戶能夠隨時(shí)隨地獲取數(shù)據(jù)資源和算力資源。從物理形態(tài)上來(lái)講,它通過(guò)高速互聯(lián)技術(shù)將超算中心連接起來(lái),統(tǒng)一對(duì)外提供數(shù)據(jù)和算力服務(wù)。
“我們國(guó)家現(xiàn)在正在緊鑼密鼓地建設(shè)超算互聯(lián)網(wǎng)?!碧谱勘硎荆壳八憔W(wǎng)調(diào)度有兩大關(guān)鍵技術(shù)要突破,一是數(shù)據(jù)和任務(wù)的跨域調(diào)度和跨中心調(diào)度,二是長(zhǎng)距離數(shù)據(jù)傳輸?shù)牡蜁r(shí)延和高帶寬。
對(duì)于前者,算力是CPU(中央處理器)、GPU(圖形處理器)、FPGA(現(xiàn)場(chǎng)可編程門(mén)陣列)等算力設(shè)備,實(shí)體的算力設(shè)備無(wú)法調(diào)度,所謂的算力調(diào)度,就是分配數(shù)據(jù)和任務(wù)到合適的地方進(jìn)行計(jì)算分析。算力調(diào)度就像軍隊(duì)指揮官,將一個(gè)大任務(wù)分解成多個(gè)小任務(wù)。以“天河”新一代超級(jí)計(jì)算機(jī)為例,其具有一萬(wàn)多塊加速器、上千萬(wàn)核心。上千萬(wàn)核心相當(dāng)于上千萬(wàn)士兵,指揮官要讓這上千萬(wàn)士兵步調(diào)一致地分工計(jì)算并返回結(jié)果,形成最終的計(jì)算結(jié)果。但上千萬(wàn)士兵的能力并不都相同,所以要考慮每個(gè)士兵的負(fù)載情況,把合適的任務(wù)分配給合適的士兵。為了讓分散在各地的數(shù)據(jù)被正確處理,這就需要超算互聯(lián)網(wǎng)數(shù)據(jù)基礎(chǔ)設(shè)施的一體化建設(shè),打破多超算中心的數(shù)據(jù)孤島,通過(guò)全局?jǐn)?shù)據(jù)管理的新技術(shù)手段,實(shí)現(xiàn)數(shù)據(jù)全域互聯(lián)、全域可見(jiàn)、統(tǒng)一調(diào)度,任意位置數(shù)據(jù)即取即用。
對(duì)于后者,帶寬是單位時(shí)間能通過(guò)鏈路的數(shù)據(jù)量,延遲是在傳輸介質(zhì)中傳輸所用的時(shí)間。中國(guó)工程院院士、清華大學(xué)計(jì)算機(jī)系教授鄭緯民曾提到,在網(wǎng)絡(luò)正常情況下,從北京的清華大學(xué)傳輸4T數(shù)據(jù)到江蘇的國(guó)家超級(jí)計(jì)算無(wú)錫中心太湖之光超級(jí)計(jì)算機(jī),需要5天。把數(shù)據(jù)刻成盤(pán)寄快遞,第二天下午就能到無(wú)錫。為了解決這個(gè)問(wèn)題,唐卓表示,目前光傳送網(wǎng)(OTN)以及運(yùn)營(yíng)商的云專(zhuān)網(wǎng)等適用于長(zhǎng)距離、低時(shí)延的算力網(wǎng)構(gòu)建。
存力與算力在超算互聯(lián)建設(shè)中同樣重要
國(guó)產(chǎn)超算處于國(guó)際第一梯隊(duì),是我國(guó)的一張名片,但仍面臨數(shù)據(jù)治理困難、應(yīng)用移植成本高等挑戰(zhàn)。數(shù)據(jù)作為超算互聯(lián)的核心生產(chǎn)要素,其重要性已成為業(yè)界共識(shí),高效的數(shù)據(jù)流動(dòng)是算力流動(dòng)的基礎(chǔ)。唐卓表示,因此業(yè)界在關(guān)注算力的同時(shí)也需要考慮數(shù)據(jù)存力,未來(lái)超算的建設(shè)應(yīng)圍繞科研數(shù)據(jù)應(yīng)用的全流程進(jìn)行構(gòu)造。
國(guó)產(chǎn)超算平臺(tái)支持復(fù)雜計(jì)算全流程中數(shù)據(jù)流轉(zhuǎn)的能力亟待改善。唐卓說(shuō),大批量數(shù)據(jù)用算力計(jì)算一般只需幾分鐘,但計(jì)算前的上載數(shù)據(jù)要花一個(gè)小時(shí)。在計(jì)算過(guò)程中,不可避免地要在計(jì)算節(jié)點(diǎn)之間不停交換數(shù)據(jù),搬運(yùn)這些數(shù)據(jù)的時(shí)間開(kāi)銷(xiāo)也非常大。“我們?cè)谂袛喑愕男蕰r(shí)有一個(gè)重要指標(biāo):計(jì)算通信開(kāi)銷(xiāo)比,我們不希望數(shù)據(jù)交換占據(jù)的時(shí)間過(guò)長(zhǎng),解決這個(gè)問(wèn)題的方法是,在做密集型計(jì)算之前,把數(shù)據(jù)清洗、數(shù)據(jù)融合、數(shù)據(jù)上載等一部分必要計(jì)算直接下沉到專(zhuān)業(yè)存儲(chǔ)上去完成,這也是超算逐漸從計(jì)算密集型走向數(shù)據(jù)密集型的一個(gè)映證?!?/p>
唐卓表示,以前的存儲(chǔ)設(shè)備僅僅存儲(chǔ)數(shù)據(jù),而現(xiàn)在遠(yuǎn)不止于此,要讓存儲(chǔ)設(shè)備具有一定的近數(shù)據(jù)計(jì)算能力和數(shù)據(jù)業(yè)務(wù)處理邏輯,提升整體效率。除此之外,存儲(chǔ)還需要按照訪問(wèn)頻次預(yù)先識(shí)別數(shù)據(jù)的熱冷程度,把熱數(shù)據(jù)放到性能較好的存儲(chǔ)介質(zhì)上,把冷數(shù)據(jù)放到性價(jià)比更高的存儲(chǔ)介質(zhì)上,實(shí)現(xiàn)數(shù)據(jù)的分區(qū)存放、按需流動(dòng)?!斑@些都是存力的作用,通過(guò)存力建設(shè)讓主處理器只負(fù)責(zé)計(jì)算,減少數(shù)據(jù)搬運(yùn)開(kāi)銷(xiāo)和數(shù)據(jù)I/O(輸入/輸出)開(kāi)銷(xiāo)。”
隨著人工智能的發(fā)展,傳統(tǒng)超算如何適應(yīng)人工智能計(jì)算和大數(shù)據(jù)計(jì)算?唐卓表示,存力不僅要解決數(shù)據(jù)I/O問(wèn)題,還要解決多數(shù)據(jù)中心的數(shù)據(jù)調(diào)度。只有更好地理解數(shù)據(jù)特征和應(yīng)用特征,才能在融合計(jì)算過(guò)程中做出預(yù)判,把數(shù)據(jù)和任務(wù)分配到最合適的位置上進(jìn)行計(jì)算,使得節(jié)點(diǎn)之間的數(shù)據(jù)交換量更小。
唐卓表示,一個(gè)千億參數(shù)的大模型在一臺(tái)甚至多臺(tái)超算上進(jìn)行訓(xùn)練時(shí),要把模型分成多份并行訓(xùn)練,訓(xùn)練結(jié)果實(shí)時(shí)同步交換,這增加了節(jié)點(diǎn)間的通信開(kāi)銷(xiāo)。為了降低通信開(kāi)銷(xiāo),一個(gè)方法是先各自訓(xùn)練,再交換一批次訓(xùn)練結(jié)果,但這會(huì)導(dǎo)致溝通稀疏、收斂性較差?!澳壳皣?guó)內(nèi)大模型主要在超算和智算上訓(xùn)練,超算用于人工智能計(jì)算還有很大提升空間?!碧谱勘硎荆趥鹘y(tǒng)超算方面加大存力建設(shè)、數(shù)據(jù)調(diào)度和任務(wù)科學(xué)調(diào)度的投入,實(shí)現(xiàn)算力與存力協(xié)同、分工優(yōu)化,讓超算與智算相互滲透融合,同時(shí)讓智能計(jì)算和超算形成算網(wǎng)、數(shù)網(wǎng)的互聯(lián),互通有無(wú)。
明確研究方向并長(zhǎng)期沉淀
唐卓目前任職國(guó)家超級(jí)計(jì)算長(zhǎng)沙中心總工程師,正在從事省域算力網(wǎng)的模式構(gòu)建研究和原型系統(tǒng)研究,他也在湖南大學(xué)信息科學(xué)與工程學(xué)院主持工作,深刻認(rèn)識(shí)到當(dāng)前“超算和AI領(lǐng)域真正需要的是掌握核心底層技術(shù)能力的人才”,他希望學(xué)生具備對(duì)計(jì)算架構(gòu)、存儲(chǔ)架構(gòu)、體系結(jié)構(gòu)以及底層系統(tǒng)研發(fā)的能力,而不僅僅是編程能力。
唐卓介紹,湖南大學(xué)信息科學(xué)與工程學(xué)院正在制定、修改、優(yōu)化本科生和研究生的培養(yǎng)計(jì)劃和教學(xué)大綱,以計(jì)算機(jī)系統(tǒng)的視角培養(yǎng)人才。計(jì)算機(jī)科學(xué)方向的本科生在入學(xué)時(shí)抓好處理器設(shè)計(jì)、指令集、操作系統(tǒng)、編譯原理、高級(jí)程序語(yǔ)言設(shè)計(jì)5門(mén)核心課程,“讓學(xué)生畢業(yè)時(shí)能夠充分理解高級(jí)程序語(yǔ)言是怎么被編譯成機(jī)器代碼的,機(jī)器代碼是如何在操作系統(tǒng)層面被調(diào)度到處理器核心上工作的,機(jī)器代碼在處理器核心上執(zhí)行時(shí)是怎么編譯,每一條指令在 CPU上是怎么執(zhí)行并變成一個(gè)電路級(jí)行為的,這就到了最底層的芯片的設(shè)計(jì),最終讓學(xué)生非常清晰地理解整個(gè)計(jì)算機(jī)體系結(jié)構(gòu)?!毖芯可A段實(shí)行并行計(jì)算、高性能計(jì)算培養(yǎng),在開(kāi)發(fā)板上設(shè)計(jì)處理器架構(gòu)、操作系統(tǒng)、編譯系統(tǒng),通過(guò)學(xué)生個(gè)人賬號(hào)登錄超級(jí)計(jì)算機(jī),深入學(xué)習(xí)和理解超算程序的編寫(xiě),編譯和調(diào)度。
唐卓也看到,“當(dāng)前青年科研人員處于內(nèi)卷狀態(tài),科研院所和頭部企業(yè)更加突出?!彼ㄗh要有明確的研究方向并長(zhǎng)期沉淀和堅(jiān)持,“很多博士畢業(yè)后到了高校,今年做這個(gè)方向明年又換另一個(gè)方向,跟著潮流變換,這不是一個(gè)好現(xiàn)象?!痹诔戕D(zhuǎn)向智算過(guò)程中要根據(jù)數(shù)據(jù)特征和應(yīng)用特征對(duì)數(shù)據(jù)再分配和調(diào)度整合,唐卓表示,這在十多年前已被發(fā)現(xiàn),“我們一直在做這個(gè)事情,一直沒(méi)變,所以才能夠慢慢積累起來(lái)。當(dāng)你覺(jué)得最辛苦、最沮喪、最困難的時(shí)候,如果你堅(jiān)持下來(lái)了,你的突破點(diǎn)、轉(zhuǎn)折點(diǎn)就快到了?!?/p>
其次,青年科研人員要清晰認(rèn)知自身的學(xué)習(xí)能力和科研創(chuàng)新能力。如果具備了明確研究方向和清晰認(rèn)知,“那就沖吧,我覺(jué)得這很難不成功?!?/p>





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




