您当前的位置: 首页-AI-详情

大模型领域中国学者的原创贡献:在深度学习大门上按了18次门铃

2023-07-06 16:59:12来源:澎湃新闻

·“2018年3位图灵奖获得者尤舒亚·本吉奥、杰弗里·辛顿和杨立昆打开了深度学习的大门,而开启这扇大门的第一声门铃,是辛顿和微软的中国学者邓力按下的。”

·“何恺明把神经网络做深了,谷歌把神经网络的入口拉大了,又深又大,才成为今天的大模型。”


(资料图)

7月6日,商汤科技创始人汤晓鸥在2023世界人工智能大会开幕式上发表演讲。7月6日,2023世界人工智能大会在上海开幕。人工智能科学家、香港中文大学教授、商汤科技创始人汤晓鸥在开幕式上发表演讲。他的演讲主题《你好,上海》来自原创电影《你好,李焕英》,他说,中国电影人通过原创的电影内容创造了54亿票房奇迹,而“中国的科技原创者也开始看到了曙光”。“我今天想简单回顾一下,在大模型领域,中国学者到底做了哪些原创的贡献?”汤晓鸥介绍了他的3位学生王晓刚、何恺明、林达华的工作和成就。比如,王晓刚带领开发的DeepID系列首次让机器的人脸识别超过了人的眼睛,何恺明有关残差网络(ResNet)的论文解决了深度网络的梯度传递问题,林达华的计算机视觉开源算法体系OpenMMLab成为国际上最具影响力的视觉算法开源体系。

“晓刚当年的对手是谷歌”

汤晓鸥从几个历史事件开始回顾,他表示,2018年3位图灵奖获得者尤舒亚·本吉奥(Yoshua Bengio)、杰弗里·辛顿(Geoffrey Hinton)和杨立昆(Yann LeCun)打开了深度学习的大门,而开启这扇大门的第一声门铃,是辛顿和微软的中国学者邓力按下的,他们2011年取得了在深度学习语音识别上跨时代的突破。

“那么,2011年到2013年深度学习领域刚刚起步的时候,我们做了什么?”汤晓鸥介绍了他的学生,商汤联合创始人、执行董事及首席科学家王晓刚博士,“2011年到2013年的国际计算机视觉与模式识别会议(CVPR)和国际计算机视觉大会(ICCV)这两个计算机视觉最重要的会议上,全球共有29篇文章关于深度学习,其中有14篇出自我们的实验室。我们有18项工作在全世界第一次将深度学习用到视觉问题上,包括人脸识别、人脸检测、人脸重建、物体检测、人体姿态、图像超分、三维形状识别等计算机视觉最核心的问题。在深度学习的大门上,我们按了18次门铃。”

汤晓鸥介绍了他的学生王晓刚博士的学术成果。汤晓鸥还表示,王晓刚带领的DeepID-Net团队开发的DeepID系列,首次让机器的人脸识别超过了人的眼睛。此后,王晓刚还取得了中国学者第一个ImageNet大规模视觉识别挑战赛的世界冠军,“在ImageNet竞赛上,晓刚当年的对手是谷歌。”

此外,王晓刚带领的商汤联合团队在今年还获得了CVPR最佳论文,推出首个感知决策一体化自动驾驶通用大模型。两篇论文登上最佳论文候选名单(Award Candidate),其中自动驾驶研究论文《Planning-oriented Autonomous Driving》(以路径规划为导向的自动驾驶)斩获本届CVPR最佳论文奖。

GPT系列采用中国学者研发的结构

汤晓鸥介绍的第二个学生是何恺明,本科就读于清华大学,2003年广东高考状元,在香港中文大学多媒体实验室取得博士学位。“何恺明在我的实验室读硕士期间发表了第一篇文章,取得了2009年的CVPR最佳论文。这是CVPR整个25年历史上亚洲的第一篇最佳论文。”

“他的第一项工作是,在微软亚洲研究院发布的有关残差网络(ResNet)的论文。”汤晓鸥表示,在2015年之前,深度学习最多只能训练20层,而CNN(卷积神经网络)模型ResNet在网络的每一层引入了一个直连通道,从而解决了深度网络的梯度传递问题,获得了2016年CVPR的最佳论文奖,是计算机视觉历史上被引用最多的论文。

“在ResNet之后就可以有效地训练超过百层的深度神经网络,把网络打得非常深。”汤晓鸥说,“在大模型时代,以Transformer(谷歌开发的一种深度学习模型,OpenAI在此基础上开发了GPT)为核心的大模型,包括GPT系列,也普遍采用了ResNet结构,以支撑上百层的Transformer的堆叠。何恺明把神经网络做深了,谷歌把神经网络的入口拉大了,又深又大,才成为今天的大模型。”

汤晓鸥表示,何恺明还有一项工作——Mask R-CNN算法,是就职于Facebook时开发的,是一个真正高性能的物体检测算法框架,获得了ICCV 2017年最佳论文。“恺明应该是世界上唯一一个在毕业不到10年内3次以第一作者身份获得CVPR和ICCV最佳论文的人。”汤晓鸥表示,Mask R-CNN首次把基于掩码的自编码思想用于视觉领域的非监督学习,开启了计算机视觉领域自监督学习的大门,并被推广到3D领域、音频领域,甚至是AI for science(人工智能用于科研)领域。

开发书生大模型系列

“第三个学生叫林达华,硕士就读于香港中文大学,他在2010年在MIT(麻省理工学院)读博士期间获得NIPS(神经信息处理系统大会)最佳学生论文,这是机器学习的最高奖。”汤晓鸥以一项顶级成就开启林达华的介绍,“他的第一项工作,是计算机视觉开源算法体系OpenMMLab。2018年从一个小团队开始,在没有推广投入的条件下,以口口相传的形式成为国际上最具影响力的视觉算法开源体系。在GitHub上累积了8万多个星标,目前用户遍及全球140多个国家和地区,60%用户来自海外。”

汤晓鸥表示,林达华的另一项工作是参与了书生大模型体系的开发。汤晓鸥说,上海人工智能实验室、商汤科技联合香港中文大学、复旦大学及上海交通大学开发的千亿级参数大语言模型“书生·浦语”,作为国内首个千亿参数语境长度8k的多语种大语言模型,具体评测细节将于7月6日发布。

此外,林达华参与的LandMark大模型也将于当天正式发布。据汤晓鸥介绍,该模型是全球首个城市级NeRF(Neural Radiance Fields,神经辐射场)实景三维大模型,有2000亿参数,可覆盖100平方公里,2021年12月林达华团队首次提出了City NeRF技术,早于谷歌把NeRF技术从物体级拓展到城市级。

(本文来自澎湃新闻,更多原创资讯请下载“澎湃新闻”APP)

标签:

上一篇:用好红色法治资源 涵养湖湘法治文化
下一篇:最后一页