原标题:英伟达 GTC 大会发布「核弹级」GPU,将为 AI 发展带来哪些助力?
关键字:NVIDIA(英伟达),图形处理器(GPU),OpenAI,ChatGPT
最佳回答:王子君
回答字数:3548字
谢邀。
我比较关注老黄的Omniverse,工业元宇宙。
说得高大上点叫“数字孪生”,说人话就是建模。
但这个建模是具有一定实时性和真实性的。
我是几年前跑工业互联网时接触到这个概念的。
技术老哥给我这个文科小白做科普,巴拉巴拉讲了一堆边缘计算后(传感器那堆玩意),很神往地说:
咱这行的终极目标就是彻底实现数字孪生。
我:什么是数字孪生?
老哥:就是给尽可能多的东西建模。
我:那有鸟用?
老哥给我讲了个我现在还记得的比喻:
现实里你要练拔刀术,只能一遍遍挥刀;
我现在给你个虚拟空间,这里的物理规则和现实世界一样。但你进去后可以练各种刀,砍各种材质,没有现实的物料损耗,你可以练几百万次;
最大的限制是算力,算力就是这个虚拟世界的时间。算力够强,你可能一个下午相当于别人练了十年;
然后你可以保留在这个空间获得的一切知识,回到现实。
最后,你把整个逻辑套到工业体系里,想象一下。
我当时就宕机了。
我们当时搞的是服装工业互联网,只能做到最基础的人机料数字化,能用数字孪生的机会很少。
有些同行努力蹭概念,给服装建模。但他们没有能力构建出有物理规则的虚拟空间,也无法给服装模型加上面辅料的材质特征。这样的“死”数据根本没法导入生产。
据老哥介绍,国内官方数字孪生做得最好的,应该是航空航天部门。
他们的建模是可以拿来做测试的。模拟各种大气和地表,获得基于实物仿真的飞行数据,减少实测成本,提高改进效率。
民间比较好的,是三一、海尔、富士康三家。
他们不仅能做到基于仿真元器件数据的产品设计,还能多少做到基于仿真设备、产线、车间的虚拟产线调整、虚拟生产、虚拟调测。
新产品导入车间,怎样调整产线才能最优?
可以先在数字孪生系统里跑,跑出最优结果后再放到现实环境里执行。
极大降低试错成本。
因此老黄这次讲的Omniverse,很勾我。
首先他发了升级的Omniverse工作站、服务器和云:
企业上手的难度会进一步降低。
其次,很多巨头已经帮老黄跑通了数字孪生的应用场景。
例如老客户亚马逊用Omniverse训练自家的运货机器人:
不过最亮眼的还是汽车产业的加入。
通用和沃尔沃拿来做仿真预设计:
西门子拿来训练组装机械臂:
奔驰拿来训练自动驾驶:
宝马拿来训练运输机器人:
莲花用来预建虚拟工厂(跑通后再实际建厂):
宝马在匈牙利的新厂就是这么建的:
注意这里的建模不是单纯示意。你可以建个虚拟产线,跑虚拟生产,根据演算结果来调整你的设计:
汽车产业3万亿美刀,民用工业之花。这个行业如果开始大规模上Omniverse的车,数字孪生就是件很严肃的事了。
最后,AI的加入。
数字孪生很重要,但是一想到建模、打通多种工作流、可视化运算、数据库等问题,总觉得这事很遥远。
所以尽管Omniverse在19年就发布了,但那时候大家还是观望,因为都觉得这些分散的碎片化数据很难汇总。
但现在有了落地的AI,且进步速度惊人。
因此我觉得老黄的这张图不能再认为只是画饼:
何况Omniverse已经开始接入到微软体系里:
如果这些巨头真下决心进入数字孪生领域(工业企业的钱比diy佬香多了),那数字孪生就不是概念了。
总之,数字孪生不是神迹,其成本离多数企业依然很遥远,其效率改进还需要积累。
但是:这确实是正儿八经的工业4.0。
泰勒把手工作坊提升到标准化,丰田和摩托罗拉把标准化做深做细。但依然有大量数据和知识停留在管理人员和老师傅的脑子里、嘴里、笔头里。
这些数据是散落的,且难以被迭代,更难以形成系统性的全局优化。
数字孪生可以把更多数据提出来,放到虚拟空间里,并基于相对真实的物理环境,进行远快于现实的运算。
这是能在制造上形成代差的新模式,算力从此正式成为生产原材料之一。
讲真,AI时代下,英伟达已经是水电煤级别的基建企业了,这个地位不指望撼动。
但如果老黄也同时成了数字孪生领域的不可或缺,那麻了,全球大量中高端制造也要被他割一刀。
我想这也是为什么在这次78分钟的发布会里,Omniverse能占到17分钟的原因。
闲聊公号:王子君的碎碎念。
联系作者
回答作者:王子君
上午边工作,边看完了GTC大会演讲,时长78分钟,内容比较多。
开始讲了提了计算光刻和软件加速库(cuLitho),可助力2nm芯片的量产制造。
计算光刻是用软件仿真,去模拟光刻过程中的光学、化学等变化,可指导生产过程的优化,理论探索更先进的工艺。这对我来说是个新知识,蛮有意思。
之后的演讲重点都是与「生成式AI」相关的软硬件产品。
老黄最先提到的是DGX(AI超级计算机),还引述了他曾亲手将全球首款DGX交给了OpenAI。
然后,老黄就介绍了题目中说到的「核弹级」GPU,拥有8个H100 GPU模组的DGX H100,可提供32 PFLOPS(=32000T FLOPS)算力(FP8)。
上述DGX H100是用于「AI训练」。老黄在演讲中,还发布了4款用于「AI推理」的新产品,例如搭载2块H100 GPU,拥有94GB HBM3显存的H100 NVL,适用于GPT大模型的部署。
我不想复述产品的具体细节,过于冗杂。而且这些产品并非消费级,我缺乏足够的专业能力,去评价产品亮点和价值。所以,我想分享一点不见得专业的个人感悟。
GPT模型的更新迭代,其展现了惊人能力,让AI技术再次进入了一个前途可期的关键点。而支撑起GPT模型的能力突破的,不仅仅是AI算法和数据,更是硬件提供的强大AI算力。
2012年,用于图像分类的AlexNet问世。该模型包含8个卷积层,使用GTX580 GPU进行训练。由于单个GPU的显存只有3GB,为此作者不得不将AlexNet拆分在2块GPU上训练,因而AlexNet具有了以下对称的拓扑结构。
如今十年过去,GPU发展日新月异,其进步毫不逊色于AI技术的革新。造就AlexNet的GTX580 GPU,与今日用于GPT大模型训练的H100 GPU,已经完全不可同日而语。
以上是一个十年间隔的对比,充分反映了硬件发展,为AI技术发展带来的巨大助力。
我有理由相信,在当前阶段,硬件进步依然在为AI技术带来帮助,推动技术的突破。
这一块则是国内的主要弱项,而且本次GTC大会发布的多数硬件产品,受制于出口禁令,应该与国内无缘。或许后续会有“阉割版(例如降频,降带宽)”用于特供国内市场。
反观这次GTC的演讲主题:「切勿错过 AI 的决定性时刻」。在当下GPT大模型路线获得认可,发展如火如荼之际,硬件上的短板总会拉一些后腿。这让我有些忧虑和伤感。
暂时想不到好办法,但软硬件的技术发展总要坚持下去,不可能放弃。或许就像AlexNet那样,尽可能用人的智慧,「部分」克服硬件条件的不足。