- +1
大模型領(lǐng)域中國學者的原創(chuàng)貢獻:在深度學習大門上按了18次門鈴
·“2018年3位圖靈獎獲得者尤舒亞·本吉奧、杰弗里·辛頓和楊立昆打開了深度學習的大門,而開啟這扇大門的第一聲門鈴,是辛頓和微軟的中國學者鄧力按下的?!?/u>
·“何愷明把神經(jīng)網(wǎng)絡(luò)做深了,谷歌把神經(jīng)網(wǎng)絡(luò)的入口拉大了,又深又大,才成為今天的大模型?!?/u>

7月6日,香港中文大學教授湯曉鷗在2023世界人工智能大會開幕式上發(fā)表演講。
7月6日,2023世界人工智能大會在上海開幕。香港中文大學教授湯曉鷗在開幕式上發(fā)表演講。他的演講主題《你好,上海》來自原創(chuàng)電影《你好,李煥英》,他說,中國電影人通過原創(chuàng)的電影內(nèi)容創(chuàng)造了54億票房奇跡,而“中國的科技原創(chuàng)者也開始看到了曙光”?!拔医裉煜牒唵位仡櫼幌?,在大模型領(lǐng)域,中國學者到底做了哪些原創(chuàng)的貢獻?”
湯曉鷗介紹了他的3位學生王曉剛、何愷明、林達華的工作和成就。比如,王曉剛帶領(lǐng)開發(fā)的DeepID系列首次讓機器的人臉識別超過了人的眼睛,何愷明有關(guān)殘差網(wǎng)絡(luò)(ResNet)的論文解決了深度網(wǎng)絡(luò)的梯度傳遞問題,林達華的計算機視覺開源算法體系OpenMMLab成為國際上最具影響力的視覺算法開源體系。
“曉剛當年的對手是谷歌”
湯曉鷗從幾個歷史事件開始回顧,他表示,2018年3位圖靈獎獲得者尤舒亞·本吉奧(Yoshua Bengio)、杰弗里·辛頓(Geoffrey Hinton)和楊立昆(Yann LeCun)打開了深度學習的大門,而開啟這扇大門的第一聲門鈴,是辛頓和微軟的中國學者鄧力按下的,他們2011年取得了在深度學習語音識別上跨時代的突破。
“那么,2011年到2013年深度學習領(lǐng)域剛剛起步的時候,我們做了什么?”湯曉鷗介紹了他的學生,商湯聯(lián)合創(chuàng)始人、執(zhí)行董事及首席科學家王曉剛博士,“2011年到2013年的國際計算機視覺與模式識別會議(CVPR)和國際計算機視覺大會(ICCV)這兩個計算機視覺最重要的會議上,全球共有29篇文章關(guān)于深度學習,其中有14篇出自我們的實驗室。我們有18項工作在全世界第一次將深度學習用到視覺問題上,包括人臉識別、人臉檢測、人臉重建、物體檢測、人體姿態(tài)、圖像超分、三維形狀識別等計算機視覺最核心的問題。在深度學習的大門上,我們按了18次門鈴?!?/p>
湯曉鷗介紹了他的學生王曉剛博士的學術(shù)成果。
湯曉鷗還表示,王曉剛帶領(lǐng)的DeepID-Net團隊開發(fā)的DeepID系列,首次讓機器的人臉識別超過了人的眼睛。此后,王曉剛還取得了中國學者第一個ImageNet大規(guī)模視覺識別挑戰(zhàn)賽的世界冠軍,“在ImageNet競賽上,曉剛當年的對手是谷歌?!?/p>
湯曉鷗還提到,自動駕駛研究論文《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導向的自動駕駛)斬獲本屆CVPR最佳論文獎,該論文首次提出感知決策一體化的自動駕駛通用大模型UniAD。而該篇論文的牽頭作者,是王曉剛帶出來的博士李弘揚。
中國學者對GPT系列貢獻巨大
湯曉鷗介紹的第二個學生是何愷明,本科就讀于清華大學,2003年廣東高考狀元,在香港中文大學多媒體實驗室取得博士學位?!昂螑鹈髟谖业膶嶒炇易x碩士期間發(fā)表了第一篇文章,取得了2009年的CVPR最佳論文。這是CVPR整個25年歷史上亞洲的第一篇最佳論文?!?/p>
“他的第一項工作是,在微軟亞洲研究院發(fā)布的有關(guān)殘差網(wǎng)絡(luò)(ResNet)的論文。”湯曉鷗表示,在2015年之前,深度學習最多只能訓練20層,而CNN(卷積神經(jīng)網(wǎng)絡(luò))模型ResNet在網(wǎng)絡(luò)的每一層引入了一個直連通道,從而解決了深度網(wǎng)絡(luò)的梯度傳遞問題,獲得了2016年CVPR的最佳論文獎,是計算機視覺歷史上被引用最多的論文。
“在ResNet之后就可以有效地訓練超過百層的深度神經(jīng)網(wǎng)絡(luò),把網(wǎng)絡(luò)打得非常深?!睖珪扎t說,“在大模型時代,以Transformer(谷歌開發(fā)的一種深度學習模型,OpenAI在此基礎(chǔ)上開發(fā)了GPT)為核心的大模型,包括GPT系列,也普遍采用了ResNet結(jié)構(gòu),以支撐上百層的Transformer的堆疊。何愷明把神經(jīng)網(wǎng)絡(luò)做深了,谷歌把神經(jīng)網(wǎng)絡(luò)的入口拉大了,又深又大,才成為今天的大模型?!?/p>
湯曉鷗表示,何愷明還有一項工作——Mask R-CNN算法,是就職于Facebook時開發(fā)的,是一個真正高性能的物體檢測算法框架,獲得了ICCV 2017年最佳論文?!皭鹈鲬?yīng)該是世界上唯一一個在畢業(yè)不到10年內(nèi)3次以第一作者身份獲得CVPR和ICCV最佳論文的人?!睖珪扎t表示,Mask R-CNN首次把基于掩碼的自編碼思想用于視覺領(lǐng)域的非監(jiān)督學習,開啟了計算機視覺領(lǐng)域自監(jiān)督學習的大門,并被推廣到3D領(lǐng)域、音頻領(lǐng)域,甚至是AI for science(人工智能用于科研)領(lǐng)域。
開發(fā)書生大模型系列
“第三個學生叫林達華,碩士就讀于香港中文大學,他在2010年在MIT(麻省理工學院)讀博士期間獲得NIPS(神經(jīng)信息處理系統(tǒng)大會)最佳學生論文,這是機器學習的最高獎?!睖珪扎t以一項頂級成就開啟林達華的介紹,“他的第一項工作,是計算機視覺開源算法體系OpenMMLab。2018年從一個小團隊開始,在沒有推廣投入的條件下,以口口相傳的形式成為國際上最具影響力的視覺算法開源體系。在GitHub上累積了8萬多個星標,目前用戶遍及全球140多個國家和地區(qū),60%用戶來自海外?!?/p>
湯曉鷗表示,林達華的另一項工作是參與了書生大模型體系的開發(fā)。湯曉鷗說,上海人工智能實驗室、商湯科技聯(lián)合香港中文大學、復(fù)旦大學及上海交通大學開發(fā)的千億級參數(shù)大語言模型“書生·浦語”,作為國內(nèi)首個千億參數(shù)語境長度8k的多語種大語言模型,具體評測細節(jié)將于7月6日發(fā)布。
此外,林達華參與的LandMark大模型也將于當天正式發(fā)布。據(jù)湯曉鷗介紹,該模型是全球首個城市級NeRF(Neural Radiance Fields,神經(jīng)輻射場 )實景三維大模型,有2000億參數(shù),可覆蓋100平方公里,2021年12月林達華團隊首次提出了City NeRF技術(shù),早于谷歌把NeRF技術(shù)從物體級拓展到城市級。






- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




