大模型領(lǐng)域中國學者的原創(chuàng)貢獻：在深度學習大門上按了18次門鈴

澎湃新聞記者吳天一

2023-07-06 16:50

來源：澎湃新聞

? 未來2% >

·“2018年3位圖靈獎獲得者尤舒亞·本吉奧、杰弗里·辛頓和楊立昆打開了深度學習的大門，而開啟這扇大門的第一聲門鈴，是辛頓和微軟的中國學者鄧力按下的?！?/u>

·“何愷明把神經(jīng)網(wǎng)絡(luò)做深了，谷歌把神經(jīng)網(wǎng)絡(luò)的入口拉大了，又深又大，才成為今天的大模型?！?/u>

7月6日，香港中文大學教授湯曉鷗在2023世界人工智能大會開幕式上發(fā)表演講。

7月6日，2023世界人工智能大會在上海開幕。香港中文大學教授湯曉鷗在開幕式上發(fā)表演講。他的演講主題《你好，上海》來自原創(chuàng)電影《你好，李煥英》，他說，中國電影人通過原創(chuàng)的電影內(nèi)容創(chuàng)造了54億票房奇跡，而“中國的科技原創(chuàng)者也開始看到了曙光”?！拔医裉煜牒唵位仡櫼幌?，在大模型領(lǐng)域，中國學者到底做了哪些原創(chuàng)的貢獻？”

湯曉鷗介紹了他的3位學生王曉剛、何愷明、林達華的工作和成就。比如，王曉剛帶領(lǐng)開發(fā)的DeepID系列首次讓機器的人臉識別超過了人的眼睛，何愷明有關(guān)殘差網(wǎng)絡(luò)（ResNet）的論文解決了深度網(wǎng)絡(luò)的梯度傳遞問題，林達華的計算機視覺開源算法體系OpenMMLab成為國際上最具影響力的視覺算法開源體系。

“曉剛當年的對手是谷歌”

湯曉鷗從幾個歷史事件開始回顧，他表示，2018年3位圖靈獎獲得者尤舒亞·本吉奧（Yoshua Bengio）、杰弗里·辛頓（Geoffrey Hinton）和楊立昆（Yann LeCun）打開了深度學習的大門，而開啟這扇大門的第一聲門鈴，是辛頓和微軟的中國學者鄧力按下的，他們2011年取得了在深度學習語音識別上跨時代的突破。

“那么，2011年到2013年深度學習領(lǐng)域剛剛起步的時候，我們做了什么？”湯曉鷗介紹了他的學生，商湯聯(lián)合創(chuàng)始人、執(zhí)行董事及首席科學家王曉剛博士，“2011年到2013年的國際計算機視覺與模式識別會議（CVPR）和國際計算機視覺大會（ICCV）這兩個計算機視覺最重要的會議上，全球共有29篇文章關(guān)于深度學習，其中有14篇出自我們的實驗室。我們有18項工作在全世界第一次將深度學習用到視覺問題上，包括人臉識別、人臉檢測、人臉重建、物體檢測、人體姿態(tài)、圖像超分、三維形狀識別等計算機視覺最核心的問題。在深度學習的大門上，我們按了18次門鈴?！?/p>

湯曉鷗介紹了他的學生王曉剛博士的學術(shù)成果。

湯曉鷗還表示，王曉剛帶領(lǐng)的DeepID-Net團隊開發(fā)的DeepID系列，首次讓機器的人臉識別超過了人的眼睛。此后，王曉剛還取得了中國學者第一個ImageNet大規(guī)模視覺識別挑戰(zhàn)賽的世界冠軍，“在ImageNet競賽上，曉剛當年的對手是谷歌?！?/p>

湯曉鷗還提到，自動駕駛研究論文《Planning-oriented Autonomous Driving》（以路徑規(guī)劃為導向的自動駕駛）斬獲本屆CVPR最佳論文獎，該論文首次提出感知決策一體化的自動駕駛通用大模型UniAD。而該篇論文的牽頭作者，是王曉剛帶出來的博士李弘揚。

中國學者對GPT系列貢獻巨大

湯曉鷗介紹的第二個學生是何愷明，本科就讀于清華大學，2003年廣東高考狀元，在香港中文大學多媒體實驗室取得博士學位?！昂螑鹈髟谖业膶嶒炇易x碩士期間發(fā)表了第一篇文章，取得了2009年的CVPR最佳論文。這是CVPR整個25年歷史上亞洲的第一篇最佳論文?！?/p>

“他的第一項工作是，在微軟亞洲研究院發(fā)布的有關(guān)殘差網(wǎng)絡(luò)（ResNet）的論文。”湯曉鷗表示，在2015年之前，深度學習最多只能訓練20層，而CNN（卷積神經(jīng)網(wǎng)絡(luò)）模型ResNet在網(wǎng)絡(luò)的每一層引入了一個直連通道，從而解決了深度網(wǎng)絡(luò)的梯度傳遞問題，獲得了2016年CVPR的最佳論文獎，是計算機視覺歷史上被引用最多的論文。

“在ResNet之后就可以有效地訓練超過百層的深度神經(jīng)網(wǎng)絡(luò)，把網(wǎng)絡(luò)打得非常深?！睖珪扎t說，“在大模型時代，以Transformer（谷歌開發(fā)的一種深度學習模型，OpenAI在此基礎(chǔ)上開發(fā)了GPT）為核心的大模型，包括GPT系列，也普遍采用了ResNet結(jié)構(gòu)，以支撐上百層的Transformer的堆疊。何愷明把神經(jīng)網(wǎng)絡(luò)做深了，谷歌把神經(jīng)網(wǎng)絡(luò)的入口拉大了，又深又大，才成為今天的大模型?！?/p>

湯曉鷗表示，何愷明還有一項工作——Mask R-CNN算法，是就職于Facebook時開發(fā)的，是一個真正高性能的物體檢測算法框架，獲得了ICCV 2017年最佳論文?！皭鹈鲬?yīng)該是世界上唯一一個在畢業(yè)不到10年內(nèi)3次以第一作者身份獲得CVPR和ICCV最佳論文的人?！睖珪扎t表示，Mask R-CNN首次把基于掩碼的自編碼思想用于視覺領(lǐng)域的非監(jiān)督學習，開啟了計算機視覺領(lǐng)域自監(jiān)督學習的大門，并被推廣到3D領(lǐng)域、音頻領(lǐng)域，甚至是AI for science（人工智能用于科研）領(lǐng)域。

開發(fā)書生大模型系列

“第三個學生叫林達華，碩士就讀于香港中文大學，他在2010年在MIT（麻省理工學院）讀博士期間獲得NIPS（神經(jīng)信息處理系統(tǒng)大會）最佳學生論文，這是機器學習的最高獎?！睖珪扎t以一項頂級成就開啟林達華的介紹，“他的第一項工作，是計算機視覺開源算法體系OpenMMLab。2018年從一個小團隊開始，在沒有推廣投入的條件下，以口口相傳的形式成為國際上最具影響力的視覺算法開源體系。在GitHub上累積了8萬多個星標，目前用戶遍及全球140多個國家和地區(qū)，60%用戶來自海外?！?/p>

湯曉鷗表示，林達華的另一項工作是參與了書生大模型體系的開發(fā)。湯曉鷗說，上海人工智能實驗室、商湯科技聯(lián)合香港中文大學、復(fù)旦大學及上海交通大學開發(fā)的千億級參數(shù)大語言模型“書生·浦語”，作為國內(nèi)首個千億參數(shù)語境長度8k的多語種大語言模型，具體評測細節(jié)將于7月6日發(fā)布。

此外，林達華參與的LandMark大模型也將于當天正式發(fā)布。據(jù)湯曉鷗介紹，該模型是全球首個城市級NeRF（Neural Radiance Fields，神經(jīng)輻射場）實景三維大模型，有2000億參數(shù)，可覆蓋100平方公里，2021年12月林達華團隊首次提出了City NeRF技術(shù)，早于谷歌把NeRF技術(shù)從物體級拓展到城市級。