大模型领域中国学者的原创贡献：在深度学习大门上按了18次门铃

您当前的位置：首页-AI-详情

大模型领域中国学者的原创贡献：在深度学习大门上按了18次门铃

2023-07-06 16:59:12来源：澎湃新闻

·“2018年3位图灵奖获得者尤舒亚·本吉奥、杰弗里·辛顿和杨立昆打开了深度学习的大门，而开启这扇大门的第一声门铃，是辛顿和微软的中国学者邓力按下的。”

·“何恺明把神经网络做深了，谷歌把神经网络的入口拉大了，又深又大，才成为今天的大模型。”

(资料图)

7月6日，商汤科技创始人汤晓鸥在2023世界人工智能大会开幕式上发表演讲。7月6日，2023世界人工智能大会在上海开幕。人工智能科学家、香港中文大学教授、商汤科技创始人汤晓鸥在开幕式上发表演讲。他的演讲主题《你好，上海》来自原创电影《你好，李焕英》，他说，中国电影人通过原创的电影内容创造了54亿票房奇迹，而“中国的科技原创者也开始看到了曙光”。“我今天想简单回顾一下，在大模型领域，中国学者到底做了哪些原创的贡献？”汤晓鸥介绍了他的3位学生王晓刚、何恺明、林达华的工作和成就。比如，王晓刚带领开发的DeepID系列首次让机器的人脸识别超过了人的眼睛，何恺明有关残差网络（ResNet）的论文解决了深度网络的梯度传递问题，林达华的计算机视觉开源算法体系OpenMMLab成为国际上最具影响力的视觉算法开源体系。

“晓刚当年的对手是谷歌”

汤晓鸥从几个历史事件开始回顾，他表示，2018年3位图灵奖获得者尤舒亚·本吉奥（Yoshua Bengio）、杰弗里·辛顿（Geoffrey Hinton）和杨立昆（Yann LeCun）打开了深度学习的大门，而开启这扇大门的第一声门铃，是辛顿和微软的中国学者邓力按下的，他们2011年取得了在深度学习语音识别上跨时代的突破。

“那么，2011年到2013年深度学习领域刚刚起步的时候，我们做了什么？”汤晓鸥介绍了他的学生，商汤联合创始人、执行董事及首席科学家王晓刚博士，“2011年到2013年的国际计算机视觉与模式识别会议（CVPR）和国际计算机视觉大会（ICCV）这两个计算机视觉最重要的会议上，全球共有29篇文章关于深度学习，其中有14篇出自我们的实验室。我们有18项工作在全世界第一次将深度学习用到视觉问题上，包括人脸识别、人脸检测、人脸重建、物体检测、人体姿态、图像超分、三维形状识别等计算机视觉最核心的问题。在深度学习的大门上，我们按了18次门铃。”

汤晓鸥介绍了他的学生王晓刚博士的学术成果。汤晓鸥还表示，王晓刚带领的DeepID-Net团队开发的DeepID系列，首次让机器的人脸识别超过了人的眼睛。此后，王晓刚还取得了中国学者第一个ImageNet大规模视觉识别挑战赛的世界冠军，“在ImageNet竞赛上，晓刚当年的对手是谷歌。”

此外，王晓刚带领的商汤联合团队在今年还获得了CVPR最佳论文，推出首个感知决策一体化自动驾驶通用大模型。两篇论文登上最佳论文候选名单（Award Candidate），其中自动驾驶研究论文《Planning-oriented Autonomous Driving》（以路径规划为导向的自动驾驶）斩获本届CVPR最佳论文奖。

GPT系列采用中国学者研发的结构

汤晓鸥介绍的第二个学生是何恺明，本科就读于清华大学，2003年广东高考状元，在香港中文大学多媒体实验室取得博士学位。“何恺明在我的实验室读硕士期间发表了第一篇文章，取得了2009年的CVPR最佳论文。这是CVPR整个25年历史上亚洲的第一篇最佳论文。”

“他的第一项工作是，在微软亚洲研究院发布的有关残差网络（ResNet）的论文。”汤晓鸥表示，在2015年之前，深度学习最多只能训练20层，而CNN（卷积神经网络）模型ResNet在网络的每一层引入了一个直连通道，从而解决了深度网络的梯度传递问题，获得了2016年CVPR的最佳论文奖，是计算机视觉历史上被引用最多的论文。

“在ResNet之后就可以有效地训练超过百层的深度神经网络，把网络打得非常深。”汤晓鸥说，“在大模型时代，以Transformer（谷歌开发的一种深度学习模型，OpenAI在此基础上开发了GPT）为核心的大模型，包括GPT系列，也普遍采用了ResNet结构，以支撑上百层的Transformer的堆叠。何恺明把神经网络做深了，谷歌把神经网络的入口拉大了，又深又大，才成为今天的大模型。”

汤晓鸥表示，何恺明还有一项工作——Mask R-CNN算法，是就职于Facebook时开发的，是一个真正高性能的物体检测算法框架，获得了ICCV 2017年最佳论文。“恺明应该是世界上唯一一个在毕业不到10年内3次以第一作者身份获得CVPR和ICCV最佳论文的人。”汤晓鸥表示，Mask R-CNN首次把基于掩码的自编码思想用于视觉领域的非监督学习，开启了计算机视觉领域自监督学习的大门，并被推广到3D领域、音频领域，甚至是AI for science（人工智能用于科研）领域。

开发书生大模型系列

“第三个学生叫林达华，硕士就读于香港中文大学，他在2010年在MIT（麻省理工学院）读博士期间获得NIPS（神经信息处理系统大会）最佳学生论文，这是机器学习的最高奖。”汤晓鸥以一项顶级成就开启林达华的介绍，“他的第一项工作，是计算机视觉开源算法体系OpenMMLab。2018年从一个小团队开始，在没有推广投入的条件下，以口口相传的形式成为国际上最具影响力的视觉算法开源体系。在GitHub上累积了8万多个星标，目前用户遍及全球140多个国家和地区，60%用户来自海外。”

汤晓鸥表示，林达华的另一项工作是参与了书生大模型体系的开发。汤晓鸥说，上海人工智能实验室、商汤科技联合香港中文大学、复旦大学及上海交通大学开发的千亿级参数大语言模型“书生·浦语”，作为国内首个千亿参数语境长度8k的多语种大语言模型，具体评测细节将于7月6日发布。

此外，林达华参与的LandMark大模型也将于当天正式发布。据汤晓鸥介绍，该模型是全球首个城市级NeRF（Neural Radiance Fields，神经辐射场）实景三维大模型，有2000亿参数，可覆盖100平方公里，2021年12月林达华团队首次提出了City NeRF技术，早于谷歌把NeRF技术从物体级拓展到城市级。

(本文来自澎湃新闻，更多原创资讯请下载“澎湃新闻”APP)

标签：

互联网

aiXcoder斩获世界人工智能大会BPAA算法大赛总冠军

深房中协：上半年二手房交易量同比增长七成

全球观点：战术上高配中国股票！全球最大资管机构贝莱德发声：货币政策有空间！

云计算

“文旅赋能亚运”活动启幕飞猪上线亚运主题页