- +1
陳穎聰|求真智能“視界”
近年來,生成式人工智能在AI技術應用中持續(xù)成為焦點,其中文生視頻大模型Sora憑借60秒連貫視頻生成能力,在全球范圍內掀起了新一輪技術熱潮。香港科技大學(廣州)人工智能學域助理教授陳穎聰正聚焦這一領域的前沿研究,他的核心方向是突破文本生成3D模型的技術瓶頸。

▲陳穎聰
“技術之所以備受關注,源于它在游戲開發(fā)、影視制作、工業(yè)設計等領域的變革性潛力。傳統(tǒng)3D建模需要30~200小時的復雜流程,而生成式AI有望將其壓縮至數(shù)小時甚至更短?!标惙f聰介紹,數(shù)字3D資產不僅能實現(xiàn)高度可視化,還能構建與現(xiàn)實世界深度交互的復雜場景,這種能力將隨著技術的演進而持續(xù)增強。
如今,結合生成式視覺模型的成果與業(yè)界開展跨領域研究,陳穎聰已與思謀科技、華為諾亞方舟實驗室、趣丸科技等公司開展合作,持續(xù)在工業(yè)智能、智能駕駛、智能創(chuàng)作等應用領域尋求突破。值得關注的是,他的研究也正從靜態(tài)生成向動態(tài)交互演進——關注視覺生成模型在具身智能上的應用,用生成模型構建高度擬真的虛擬世界訓練具身智能體,有望培育出適應復雜現(xiàn)實場景的機器人。正如Sora展現(xiàn)出的物理規(guī)律模擬能力,生成模型與具身智能的結合,或將重新定義人工智能理解并改造物理世界的方式。
跨界融合探真知
陳穎聰?shù)膶W術成長軌跡呈現(xiàn)出典型的學科交融探索特征。他的科研生涯始于通信工程專業(yè)學習階段,大三時在中山大學賴劍煌教授的數(shù)字圖像處理課程中他初次接觸計算機視覺領域。這段經歷頗具轉折意義——當時深度學習尚未興起,傳統(tǒng)計算機視覺研究方法面臨諸多局限,但正是這種技術挑戰(zhàn)激發(fā)了他的研究興趣。
有一個關鍵點是,賴劍煌教授在人臉識別領域的研究恰好與陳穎聰?shù)膫€人需求相契合?!拔蚁M梢詫W以致用,通過研究人臉識別去解決自己臉盲的問題?!标惙f聰笑說??蒲行枨笈c個人興趣共振的機緣成為他持續(xù)深耕的重要動力。
在學術進階的關鍵節(jié)點上,陳穎聰特別提到了博士生導師賈佳亞教授對他研究思維的深刻影響。在香港中文大學攻讀博士學位期間,賈教授提出的“真問題導向”研究范式與他之前的固有理念形成鮮明對比。賈教授以自身從圖像復原轉向深度學習的研究轉型,示范了如何突破領域慣性思維,這種身教勝于言傳的指導方式使陳穎聰深刻領悟到學術研究的本質在于解決真實世界的關鍵問題,而非單純追求發(fā)表指標或所謂的熱點。
這種理念的轉變在陳穎聰后續(xù)的科研實踐中得到充分體現(xiàn)。在麻省理工學院從事博士后研究期間,他將計算機視覺領域的經驗創(chuàng)造性應用于無線感知與醫(yī)療健康的交叉研究,成功取得了基于Wi-Fi信號的遠程血氧監(jiān)測和帕金森病無擾診斷等突破性成果。這些跨領域探索不僅驗證了“真問題導向”研究范式的有效性,更讓他體驗到前沿科研應有的創(chuàng)新維度。
“這段經歷顛覆了我先前對科研的認識:優(yōu)秀的研究工作不僅可以深入探究單一領域的方法機理,還可以從現(xiàn)實問題出發(fā),有機融合多個領域的知識,形成新的理論與方法,進而為原有領域帶來全新的思維范式?!标惙f聰說。這段經歷亦讓他明確了未來的研究方向。
加入香港科技大學(廣州),陳穎聰正是看中學校交叉學科的發(fā)展定位與個人研究理念的高度契合。“在AI技術快速迭代的當下,保持對‘真問題’的敏銳洞察和跨學科整合能力,或許是突破研究瓶頸的關鍵所在。”陳穎聰坦言。
學海無涯守本心
在香港科技大學(廣州),陳穎聰找到了理想的研究土壤,學校不僅提倡跨學科研究,更通過寬容的管理模式為高風險的研究提供了保障。這賦予他更多空間去嘗試那些“無人區(qū)”的探索。然而隨著研究深入,他意識到:需要解決的問題實在太多,可能一輩子都做不完。這種認知促使他重新審視自己的學術追求,最終回歸研究初心——聚焦解決真實問題?!吧硖幰曈X生成模型這一熱門領域,許多現(xiàn)有研究可能很快就會被突破或形成共識。但我相信,在這個大領域內終將找到自己的貢獻點,而這個定位會隨著研究進程自然顯現(xiàn)?!标惙f聰說。

▲由Kiss3DGen生成的場景
在科研上,陳穎聰目前主要深耕兩個領域:基礎研究和產業(yè)應用?;A研究方面,他致力于提升生成式視覺模型的質量、速度、可控性等核心指標;產業(yè)應用方面,則充分發(fā)揮跨領域研究經驗,從大灣區(qū)實際產業(yè)需求中提煉關鍵問題。這種雙軌并進的研究模式,既保持了學術深度,又確保了研究價值。
校企合作項目是陳穎聰研究的重要組成部分。以三維生成模型項目為例,他與趣丸科技的合作頗具代表性。這個項目源于企業(yè)數(shù)字化轉型需求,盡管面臨激烈的市場競爭,但雙方組成的聯(lián)合研究團隊仍取得了顯著進展。合作推出的Kiss3DGen模型,創(chuàng)新性地利用現(xiàn)有2D圖像生成模型的知識與框架,將多視圖圖像和對應法線貼圖拼接成三維聚合圖,把傳統(tǒng)3D生成問題轉化為2D圖像生成任務。即使在有限的訓練數(shù)據(jù)條件下,Kiss3DGen仍能生成高質量的3D資產,減少對大規(guī)模數(shù)據(jù)的依賴,同時在靈活性和性能方面表現(xiàn)出色。目前,Kiss3DGen單獨使用效果已優(yōu)于現(xiàn)有開源方法,而且在與現(xiàn)有方法結合后,性能可進一步增強。
陳穎聰介紹,三維生成模型的意義類似于文字生成圖像技術,作為基礎模型可大幅降低建模門檻。在游戲開發(fā)、建筑設計等領域,它能將原本需要數(shù)周的建模過程縮短至一兩個小時,實現(xiàn)降本增效。更重要的是,它讓非專業(yè)人員也能參與建模,加速創(chuàng)新迭代。此外,團隊還探索了AI與消費市場的結合,嘗試開拓三維模型打印等增量市場。
產學研深度合作模式給陳穎聰帶來深刻啟示。他發(fā)現(xiàn),科研已從單打獨斗轉向需要學界與產業(yè)界協(xié)同推進。學界能快速收斂技術路線,產業(yè)界則提供數(shù)據(jù)、算力等資源支持。更令他欣喜的是,參與項目的學生的研究思維發(fā)生了明顯轉變——從單純關注技術實現(xiàn),轉為思考研究成果的系統(tǒng)價值和社會影響。
在香港科技大學(廣州),陳穎聰切身體會到“以學生為中心”理念的真正落地。學校領導通過定期組織青年教師聚餐等非正式交流,為學術民主創(chuàng)造了開放環(huán)境。這種管理模式不僅體現(xiàn)在制度設計上,更滲透到日?;又?,使陳穎聰逐漸形成了“成長教練”的教育理念——注重通過培養(yǎng)學生全面發(fā)展來推動科研進步,而非單純追求學術產出。
在具體實踐中,陳穎聰有意注重培養(yǎng)學生識別“真問題”的能力。面對AI領域普遍存在的論文競賽現(xiàn)象,他營造純粹科研氛圍,引導學生回歸研究本質。這種理念亦體現(xiàn)在他對團隊的獨特管理方式中:博士生和碩士生自發(fā)形成研究小組,通過“傳幫帶”機制實現(xiàn)知識傳承;團隊成員能主動協(xié)調資源分配,這種協(xié)作精神在競爭激烈的AI領域尤為珍貴。團隊采用分層協(xié)作模式,陳穎聰負責把握跨領域方向,學生則深耕細分領域并定期分享見解,形成知識流動的良性循環(huán)。
面對AI技術的飛速發(fā)展,陳穎聰保持著清醒認知。他目前聚焦生成模型與具身智能的結合研究,這一選擇源于對行業(yè)痛點的深刻理解?!把菔疽曨l再酷炫,如果不能適應真實環(huán)境的微小變化,就永遠無法進入應用?!彼赋霈F(xiàn)有具身智能系統(tǒng)的泛化性瓶頸。通過生成模型模擬多樣化場景數(shù)據(jù),他正試圖突破這一限制,讓機器人真正具備普適性。為此,他計劃加大與產業(yè)界的交流,確保研究方向始終對準真實需求。
在應對技術迭代帶來的挑戰(zhàn)時,陳穎聰有前瞻性思考——當某個領域剛開始爆發(fā)時,就預判哪些問題具有長期價值;在技術收斂階段,則主動尋找尚未標準化的創(chuàng)新空間?!拔覀円龅牟皇亲汾s潮流,而是創(chuàng)造潮流。”他始終強調保持非功利性好奇心的重要性,希望幫助學生建立應對快速變化的定力。
展望未來,陳穎聰認為AI研究將呈現(xiàn)基礎模型標準化趨勢,這既帶來成果轉化的便利,也加劇了學術界追趕工業(yè)界的壓力?!爱斀箲]于大模型帶來的同質化競爭時,根植于科研本真的實踐其實在提醒我們——思想的多樣性永遠是人類應對未知的最寶貴資產。在技術狂潮中錨定價值坐標,回歸科研本質的定力,恰是應對不確定性的最大確定性?!标惙f聰認為,可持續(xù)的創(chuàng)新,永遠始于對“求真”的深度關照。
本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




