教授创业之二|汤晓鸥:人脸识别技术的“开拓者”和“探路者”
汤晓鸥
现任香港中文大学信息工程系教授、工程学院杰出学人、IEEE Fellow(电气与电子工程师协会会士),兼任中科院深圳先进技术研究院副院长,IJCV(计算机视觉国际期刊)首位华人主编。
其主要研究领域为计算机视觉(CV)、模式识别和视频处理,已在这些领域发表论文200余篇,是全球人脸识别技术的“开拓者”和“探路者”,是商汤科技创始人、董事长。
11 月 22 日晚间,据港交所文件显示,商汤科技(SenseTime Group Inc)已通过上市聆讯。根据公开资料统计,从 2015 年至今,商汤科技已融资 12 轮,共计 52 亿美元。最后一轮融资于2021年6月完成,融资后估值达到120亿美元。
个人经历回顾:
1990年获中科大学士学位
1991年获罗彻斯特大学硕士学位
1996年获麻省理工学院(MIT)博士学位
2001年建立香港中文大学多媒体实验室
2005-2008年,兼任微软亚洲研究院(MSRA)视觉计算组的负责人。
2009年,依托深圳先进技术研究院搭建联合实验室,被电机及电子工程师学会(IEEE)推选为会士。同年,汤晓鸥教授与他的博士研究生何恺明,以及微软亚洲研究院的孙剑博士,凭论文《基于暗原色的单一图像去雾技术》获得顶尖国际会议IEEE计算机视觉与模式识别大会(CVPR)该年度的“最佳论文奖”。这是该会议创办25年后,首次有亚洲学者获得这项最高的荣誉。
2011-2013年间,实验室在计算机视觉领域两大顶级会议ICCV(International Conference on Computer Vision,即国际计算机视觉大会)和CVPR上发表了14篇深度学习论文,占据这两个会议上深度学习论文总数(29篇)的近一半。
潜心科研,立足前沿
2005年开始,汤晓鸥教授同时兼任微软亚洲研究院(MSRA)视觉计算组负责人。他的工作需要他经常往返北京与香港两地,对于才刚2岁的爱子汤之铭自然会缺少照顾。由于跟儿子在一起的时间太少,他想把每一分钟都记录下来,于是他给儿子拍摄了大量照片。当图片积累到成千上万张时,他发现如何在海量照片里准确找到某个令他念念不忘的瞬间成了“老大难”的问题。
作为技术大佬的他想到了向他投身多年的研究领域寻求解决方案——采用计算机视觉领域的技术手段来分类管理相册。于是他跟视觉计算组的同事开始研究名为Photo Tagging的课题,采用CV技术手段来给相册进行分类整理。在CV技术远还没有成熟的当时,汤晓鸥教授由这一个简单的愿望出发,开启了中国人脸识别技术走向实际应用、走向商业化落地的一个新时代。
在成立港中文多媒体实验室之后的十年间,汤晓鸥教授还担任包括计算机视觉最顶尖的国际会议ICCV和CVPR等多个重要的国际会议的主席。现任影响因子最高的IEEE杂志IEEE Transactions on Pattern Analysis and Machine Intelligence(PAMI)和整个计算机科学领域影响因子最高的International Journal of Computer Vision(IJCV)编委(Associate Editor),也是IJCV首位华人主编。
高压下的关键决胜
2014年初,Facebook在全球首先推出了DeepFace算法,识别精确度达到了97.35%,已经十分接近人眼识别能力(97.53%),这引起了全世界的关注。面对如此压力和挑战,汤晓鸥教授曾经对外界说:“Facebook的算法是基于其拥有的750万人数据库,而我们当时仅有20万人数据库,双方力量差距很大,我们的条件处于劣势。”
即使在硬件和数据库条件处在如此大差异的情况下,汤晓鸥教授依旧扛住了压力,选择不断精进算法。在不到两个月之后,其团队于2014年3月份发布了GaussianFace人脸识别算法,在LFW数据库上测试所得的识别准确率一举达到了98.52%,成为全球首个突破人眼识别能力的算法。
在当时,LFW(Labled Faces in the Wild)数据库识别率的前三名全部由汤晓鸥实验室的三个人脸识别算法占据,Facebook的DeepFace算法只能排在第四。正是因为如此,汤晓鸥教授在香港中文大学创办的多媒体实验室在2016年与麻省理工、斯坦福等著名大学的实验室一道,入选世界十大人工智能先锋实验室,成为亚洲区唯一入选的团队,福布斯称他为“中国人脸识别技术背后的面孔。”
从实验室到商汤科技
2014年10月,商汤科技正式成立。过去曾与汤晓鸥教授共事过的教授和对其慕名已久的博士、博士后学生听闻此消息纷纷选择加入;曾与汤晓鸥在微软研究院共事的杨帆也选择加入商汤科技,还带去了一大批清华的学生,商汤科技很快就建立起了一个以汤晓鸥教授为核心的联合创始人团队。根据提交港交所的招股说明书显示,商汤科技的技术研发团队由40位教授、250多名博士和博士后,以及3593名科学家和工程师组成,研发人员占比公司员工超2/3。对汤晓鸥教授来说,成立商汤科技不仅意味着自己走出了象牙塔,更意味着从前停留在纸上谈兵的技术走出了实验室,从此他能够做更加有意义、有价值的事情。
商汤科技成立不久,汤晓鸥就凭借他的人脸识别技术先后拿下了小米、华为、美图秀秀以及FaceU、Snow等客户。此后,商汤科技一路高歌猛进,在资本市场上表现亮眼,与依图科技、云从科技、旷视科技一道并称“AI四小龙”。
据统计,自成立以来,商汤科技一共经历了12轮融资,商汤的投资人中除了有首轮投资人IDG资本,还有银湖、鼎晖、晨兴、光际、淡马锡、Tiger、Star VC等头部机构,以及阿里巴巴、苏宁、高通、万达集团等战略合作伙伴,Pre-IPO之前最后一笔融资是软银投资的10亿美金,累计总融资金额达52亿美元(约合人民币336.58亿元),商汤科技已成为全球估值最高的人工智能公司。2021年,弗若斯特沙利文出具的报告显示,商汤科技已然成为中国最大的计算机视觉软件公司、亚洲最大的人工智能软件公司。
2021年8月28日,正值港中文多媒体实验室创办20年,作为超级AI独角兽的商汤科技,向香港联交所提交招股书,正式冲刺IPO上市。随着商汤科技正式启动IPO上市,也意味着这家从实验室走出来的高科技公司,在经历了7年的发展与融资之后,到了接受公开市场检验的时刻。
AI赋能,专注研发
汤晓鸥在创建商汤科技之初,目标就不局限于创立一家人脸识别公司,而是致力于打造深度学习平台,在人工智能领域全面发展。他认为,由于谷歌、Facebook等巨头的开源平台使得人工智能、深度学习的门槛变得很低,但以开源平台为基础也会受到很多限制。因此商汤科技决定搭建“硬件计算平台”。公司成立一年后,商汤科技建设的深度学习超算平台DeepLink—200块GPU的连接成为当时全国最大的GPU集群。2015 年,商汤科技成功开发的深度学习框架 SenseParrots已经拥有谷歌Tensorflow在当时都无法支持的功能。
目前商汤科技的超算平台最多可承载超14000片GPU,是亚洲规模最大的AI超算平台,它依托深度学习训练框架SenseParrots,可以支持千卡并行训练、千亿级参数模型、百亿训练样板、亿级类别分类任务。
汤晓鸥认为,AI从来不能被称之为一个单独的产业,能被产业化的只有“AI+”——这也就是说,AI是对传统产业的赋能,帮助传统产业提高生产效率,而不是重新定义乃至颠覆。在此基础上,商汤独创了“1(基础研究)+1(产品结合)+X(行业伙伴)”模式:以原创技术为基础,借助核心平台化能力多元赋能多个行业,例如:智慧城市、智能手机、互动娱乐及广告、汽车、金融、零售、教育、地产等。
总 结
从麻省理工学院到香港中文大学,从多媒体实验室到商汤科技,汤晓鸥一直致力于计算机视觉识别技术的研究,并取得了巨大成就,成功的主要原因可总结为以下三点:
学术前沿速递
学说观点
AIGC交流社区
未央网
毕宣
王凯
- 1
- 2
- 3