zxqian的个人博客分享 http://blog.sciencenet.cn/u/zxqian

博文

AI业界在干什么?——访英伟达AI基础设施部门中国区负责人

已有 2332 次阅读 2021-3-15 07:57 |系统分类:观点评述


三月的周末,阳光明媚。隐者联盟今天特别邀请了NVIDIA公司AI基础设施部中国区的负责人李思一先生,请这位业界经验丰富的部门主管,来聊聊英伟达在AI方面的工作。有感于产学两界犹如仙佛两道,希望通过下面的采访,增进学术界的同行和学生们对英伟达这个业界翘楚的了解。

 

(下文Q代表采访人钱振兴,L代表李思一,文末有他的简介。)

 

Q那我们就开始,聊到哪儿算哪儿。英伟达自己定义是一个什么样的公司?

L:最早它是一个做GPU的芯片公司,后来定位成做Computer Graph公司,取代芯片公司的概念,成为一个方案公司,软硬件都有的公司。原因是我们公司做软件的占一大半,做硬件、做芯片的其实是少数人。现在我们给自己的定位是一家领先的AI公司,提供芯片、云计算解决方案,以及完整的AI生态链。

 

Q:那你们公司现在大概多少人?

L:现在全球大概13000人以上,中国大约两三千人,上海是硅谷总部以外最大的研发中心,大约1300人,目前还在比较快地扩张。可能在印度有很多人,但主要不是做研发的。

 

Q:你现在负责的这个部门,主要做哪些事情呢?

L:我这个部门叫AI基础设施部门,就是AI Infrastructure,它主要做两个事情。一个是搭建AI云平台,现在的学习算法有一些共性,比如需要收集很多数据,对数据标注,有监督地训练,这就需要一个GPU的云平台去计算,然后要去对模型做一些validation。然后根据模型的缺陷,重新去收集数据、选择数据,重新打标签、重新训练,然后不断地迭代,我们这个AI云平台就可以加速整体迭代过程。另外,我们部门还负责自动驾驶核心算法的研究,主要是研发基于deep learning的算法。

 

Q:你这个部门目前多少人?

L:我们这个部门的主要研发人员还是在美国,整个部门全球加起来大约300多人,上海有二十多个人,都是硕士、博士,主要做算法的研发,还有大量的任务是数据工程,工程师还需要做数据挑选等工作。

 

Q:那你们数据标注是什么人做呢?

L:我们在印度有一千多人专门做标注,这就是数据工厂。

 

Q:你们工作中用的设备的配置,大概是什么样的标准?

L:我们公司的计算集群不说全球最好的,肯定也是顶尖的。我们做自动驾驶的GPU集群,是市面上最高端的,比如DGX安培里面就有八块GPU,它们之间的交互由我们的通信芯片保持高带宽,大概要一两百万,这样的节点大概有上千个,一两百人共享使用,平均下来每个人的计算资源也有几百万,这个应该是高校研究人员不具备的。

 

Q:那你们部门是针对项目做,还是预研?

L:我们瞄准的是量产项目,这个跟英伟达的定位有关,它是一个AI公司,希望能为各种AI公司赋能,加速AI产业的发展,把自己定位成一个偏AI基础设施的公司,这是一方面。另一方面,加速产业发展就要跟产业结合起来,所以英伟达选择了两个非常重要的方向。一个是自动驾驶,它可以说是AI中最有想象空间的市场,所以我们全球有一两千人工作在自动驾驶方向上。第二大方向是医疗,这是个更有愿景的项目:提高人类的寿命,解决疾病给人类带来的疾苦,是一个充满了人类关怀的方向。我们这个部门,它是比较属于general的综合部门,各种场景都支持的基础性平台,但目前主要针对自动驾驶。

 

Q:相当于你们把AI算法已经定义成基础设施了?

L:对,芯片和云端,在集群使用的硬件方面,我们最近收购了一个公司,是做数据中心里面的通信芯片,接下来应该还会收购CPU,加上GPU和通信芯片,那云端用于AI计算的所有芯片,我们就齐全了。

 

Q:那你们的算法是要硬件化吗?会不会跟寒武纪一样?

L:我们也有硬件化这样的概念,寒武纪主要是做AI算法的硬件化,我们会把常用的操作硬件化一下,比如我们有一些DLA加速引擎,使计算更快一些。

 

Q:那你们在软硬结合方面做了哪些事?

L:目前大家都用主流的框架,比如你们高校或者研究所,常用的PytorchTensorflow等,大部分公司都直接用现成的库训练网络,少数公司可能会做一些封装。我们有个团队叫TensorRT,顾名思义是Tensor Realtime,做算法加速的。比方说我们用Inception网络,有些卷积的组合操作可能加速性能不好,那TensorRT就会根据我们的需求去做GPU加速的优化,他们就做这个粒度的,不做具体算法,而是优化GPU,使它更好用,这个也是对外发布的,大家都可以用。再比如CUDA,比如CUDNN也是优化卷积网络的,这些优化的计算库,可以使算法工程师的设计跑起来更快。这就是为什么英伟达的显卡很好用的原因,这也就是英伟达构建的生态。

 

Q:那你们做智能驾驶,有没有合作的公司?

L:我们有一个合作的量产公司,就是奔驰。奔驰将在2024年,全球所有量产车都会用我们的自动驾驶决方案,包括芯片、硬件以及相关算法,还有相关应用,全都由英伟达来提供,所以我们这个部门瞄准的是个量产的项目,不是仅仅做前沿研究。

 

Q:那你们做智能驾驶,跟Musk的智能驾驶有什么区别呢?

L:特斯拉跟我们不一样,他们是为自己的设备做开发,而英伟达的战略是要做通用性的东西,类似于Android这样的系统,任何汽车制造商安装这套系统,它就可以生产智能驾驶汽车,还可以在上面做各种开发与应用。

 

Q:有一些自动驾驶已经开始用了。

L:是的,目前做的最好的是特斯拉,其他自动驾驶或多或少有特定条件的限制,还无法满足普适要求。

 

Q:其实就是泛化能力不行。

L:是的。我们跟戴姆勒合作的智能驾驶,未来一定是最好的。英伟达具备了所有条件,从芯片到软硬件,再到整体解决方案,是其它公司所不具备的。

 

Q:你们每年招很多人,都与AI算法相关吗?

L我们部门大约有一半是做算法的,另一半是做云的。今年我们可能会招200人,上海预计会达到1400多人。有校招,也有社招。现在校招基本都是线上宣讲,很少去学校了,社招主要是各大招聘平台收简历。招聘人数取决于项目,今年项目扩张快,自然要多招一些人。我们一般招关于计算机视觉的deep learning人员,如视觉中的目标检测等方向,但每个部门不一样,大体上CV都行。

 

Q:从员工能力上看,有哪些能量化的指标?

L:当然,有顶会顶刊如CVPRICCV等会议的一作论文,自然相当有说服力。同等情况下也会看教育背景,在某种程度上,学校帮我们做了一个筛选,特别是对于应届生。社招对教育背景会比较宽一点,更看他的长板。在业界,除了算法研究,还是要去把算法落地,那不能仅仅看算法能力,还要看是否兼容。比如,我们现在的工作,是在一个大的backbone上,分出很多header,来实现不同功能,这样对算法的选择就有限制了,所以不仅仅考察刷KPI的能力,还要看是否能兼容这个backbone,这样做的好处是,在做推理做inference的时候效率会更高一些。

 

Q:我们也想了解你们在做研发的过程中,会不会去看各大研究院所发表的论文?

L:会的,研发人员也需要阅读这些新论文,才能更好地开展任务设计。公司有专门的research部门,比如有些好成果也是英伟达的Scientist做的,比如刘明宇等学者。我们部门本身,也有部分人做research,我们定期都有分享会,介绍国际最新研究进展和成果。要保持对业界的敏锐度,才能把好想法带进来。当然,我们也有很多研究成果变成了专利。

 

Q:你们做AI研发的过程中,有没有跟多媒体安全有关的?

L:在自动驾驶里面,有一块是跟AI安全相关的,就是数据安全。采集数据的过程中,我们的车上会安装8个或更多的摄像头及传感器,比如光达、雷达、GPS等,这些数据的采集是关系到安全的,因为它会精确定位到国家的地理信息,可以生成高精度地图,这方面国家是严格管控的。只有专门的机构才能采集这些数据,由他们管控后给我们使用,国内有这种牌照的单位很少。我们公司不能拥有这些数据,都是在第三方公司使用他们数据中心的数据来做训练。我们会告诉对方用什么配置的车去采集数据,他们采集数据,我们在他们那边使用。

 

Q:那你们考虑怎么实现泄密管控、追踪溯源呢?

L:自动驾驶里面有一个重大的需求,就是追踪溯源。实际上,数字水印倒是可以用来做溯源,防止数据泄露,定位泄露的人员和设备。自动驾驶今后走向实用,还是要能定位是哪辆车泄露了数据,并实现追踪溯源。不过,在做CV学习的过程中,加水印可能会影响识别结果,这个问题还是要好好考虑一下。另外模型水印也是个不错的想法,用来保护公司资产,这一块我们也会考虑起来。

 

Q:你们形成一个自动驾驶产品,怎样保证它的安全性,防止对行人的伤害?

L:自动驾驶的要求是比较高的,汽车行业有很多安全规范,比如ISO的各种标准,各种软件都要符合它的要求,我们有专门的部门做这方面的事情。

 

Q:高校科研院所都在做AI研究,你们怎么看?

L:现在做底层创新越来越难了,我们看到在应用创新上有很多工作。当然,首先还是希望我们国家有底层创新,做出像LeCun那样的工作。微创新当然也有用途,比如我们用一些论文里的方法,能形成小应用,那也不错。不过,还是希望有底层创新出来,那其实还是一个基础问题。

Q:所以也就有强基计划等各种措施。

L:没错,可能还是需要时间。

 

Q:你们从AI业界的角度看,对高校学生培养有哪些期望?

L:我们其实还是希望学生有扎实的基本功,很多人对机器学习能讲出很多东西,也做过一些东西,但是当深入问一些底层问题的时候,就能看出他的基本功怎样,尤其是数学功底,如线性代数、概率论等,这些与神经网络的基础直接相关。另外,在编程方面也要有很好的功底,Python, C++, OpenCV等等,动态规划、设计模式等也挺重要,另外熟悉操作系统、计算机网络那就更好了。从我个人的角度看,扎实的计算机基础,对开展英伟达的工作是相当重要的。

 




https://wap.sciencenet.cn/blog-3469472-1276775.html

上一篇:理工学人漫谈儒学
收藏 IP: 202.120.235.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-30 01:54

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部