芙蓉公主的骑士团今年 8 月的 SIGGRAPH 大会上,黄仁勋在演讲中给了个演示,给 AI 输入一张工厂规划的 2D CAD 平面图
今年 8 月的 SIGGRAPH 大会上,黄仁勋在演讲中给了个演示,给 AI 输入一张工厂规划的 2DCAD 平面图这张平面图就只是个 PDF 文档,然后跟生成式 AI(GenerativeAI)讲几句话、提几句需求,AI 就能输出一个完整的 3D 虚拟工厂或者用现在流行的话来说,叫工厂数字孪生包括工厂仓库地面材料、厂房布局等,基于 OpenUSD3D 格式的模型。
这个以前需要投入相当人力物力和时间的工作,现在 AI 能在很短的时间里完成。当然具体的实现细节还是待调整的,但这个演示让我们看到了,生成式 AI 在行业应用中的潜在价值,是突破了 ChatGPT、StableDiffusion 这些爆款的;当然还有就是这个新晋入主市值万亿俱乐部的英伟达,在现如今的 AI 市场有多么风生水起。
我们今年接触的不少 AI 芯片企业,乃至 IP 供应商普遍都在说,数据中心的 AI 训练市场已经被英伟达雄踞了,这部分市场很难再被撼动:比如驱动 ChatGPT、newBing 这类云服务的算力基础;以及各类大模型的训练,就是英伟达 A100,H100 之类的芯片。
但对整个行业来讲,生成式 AI 这个东风可不能都被英伟达都给借走了:云市场抢不过你,那咱还不能搞搞边缘推理市场吗?所以今年从上至下不同层级的企业都在宣传边缘,乃至端侧的生成式 AI。
从广义的「边缘」概念来看,不光是边缘数据中心、企业网关这些边缘,端侧市场上 Intel 已经宣传了大半年的 AIPC,联发科则在年底收官前发布了能跑生成式 AI 的手机 APSoC,甚至还有一些搞嵌入式芯片的企业也在谈生成式 AI。
但实际上即便是边缘市场,英伟达也是有自己的杀手锏的,抛开各类 Jetson 芯片、IGX 平台这些更偏行业和企业应用的边缘不谈,英伟达在 PC 端的 GeForce 显卡不就是现在个人用户做 AI 研究,以及 AI 技术爱好者使用最广泛的平台么?
其实自疫情结束后,PC 市场开始呈现出颓势之际,PC 行业的主要市场参与者就开始了 AIPC 的宣传。现在看来,生成式 AI 大概的确会成为接下来这一波让 PC 市场再度上扬的大热门。市场上谈 AIPC 最大声的,现阶段显然就是 Intel 及各 OEM 企业了。但实际在包括 CUDA 生态在内的 NvidiaAI 全栈构建 AI 生态最久,大概也最有资格说 AIPC 的,应该就是英伟达本达了。
今年 9 月,英伟达发布了开源的 TensorRT-LLM,这是个专用于 LLM 大语言模型推理的工具,特点是能够加速 LLM 的推理性能不过当时主打的仍然是为 H100 推理加速。10 月份 TensorRT-LLMforWindows 版本发布,主要是实现了裸金属 Windows 平台的单卡 GPU 推理,重点是特别明确了对 GeForceRTX40 系显卡的支持,使 PC生成式 AI 速度提高4倍。与此同时,TensorRT加速也已应用于热门应用 StableDiffusionWebU 中,将生成式 AIDiffusion 模型的速度提升 2 倍。这就显然有着意AIPC的意思了,大概可以说是正式打响英伟达在AIPC战役的开端,即便英伟达从来不是最近才开始在 PC 上做 AI 的。
我们来展开看看在 AIPC 这个概念上,尤其生成式 AI 加速,英伟达都有哪些东西。顺便聊聊 AIPC 是不是真的有价值。
想在端侧 AI 市场分一杯羹的市场玩家还是很多的,比如 Intel 要在新一代面向 PC 的 MeteorLake 处理器中加入专门的 NPU 加速单元,AMDRyzen 处理器现在还有专门的 RyzenAI 品牌概念宣传,联发科的天玑 9300 手机芯片内部的 AI 单元特别集成了所谓的「生成式 AI 加速引擎」... 响应的 OEM 厂商就更多了,微软也期望能在这一局里做 AI/ML 的标准制定者。
显然,在去年底今年初以 ChatGPT 为代表的生成式 AI 再度引爆 AI 市场以后,主要的市场参与者对端侧 AI 是抱着巨大的期望的。其实强调端侧或者本地 AI 推理的原因很好理解:第一是如文首所述,这么好的技术和热点可不能英伟达一家独美,大家都要分蛋糕;第二是本地 AI 推理有着云无法比拟的一些优势。
这些优势应该已经老生常谈了,无非就是云和边缘两侧各自的优缺点,这些优势再搬到 AI 上来:包括数据安全与隐私,延迟需求,以及无法确保实时的云连接等。不过实际上对 AI 而言,像 ChatGPT、Midjourney 这类面向大众的云 AI,相比于本地部署 AI 模型还有个巨大的弱势,即不能根据个体需求做定制。
如果把视野放宽到消费市场以外,AI 走向边缘也因此成为必然:起码企业一定需要边缘 AI 来提升生产力,这也是我们预判明年生成式 AI 发展的模式走向。对个人用户来说,无论是做科学研究,还是用于具体的生产力,端侧本地的 AI 也有可定制和更为自由灵活的优势,比如说用 StableDiffusion 这类复合式模型画小姐姐的需求,在 Midjourney 上有被拒绝服务的可能(不是)...
作为云上 AI 的王者,英伟达在端侧,尤其具体到 PC 端又有什么样的储备呢?绝大部分同学应该都知道,英伟达从 Turing 架构开始给 GeForceRTXGPU 加入了 TensorCore,也就是可加速 AI 运算的专用硬件单元。与此同时,2021 年的秋季 GTC 上,黄仁勋在主题演讲中就多次强调了 Transformer 的价值,以及 LLM 的潜力。
Dall-E,ChatGPT 在全球范围内的爆发实际上是在 Hopper 和 AdaLovelace 加入 Transformer 引擎以后。当然 LLM 和 StableDiffusion 这类大模型的火热还是趋势使然,只不过英伟达能在热点引爆以前就着力于硬件部署,然后在今年的 GTC 上英伟达很自然地播放了一段此前黄仁勋将 DGX 交给 OpenAI 的名场面。很快英伟达的市值就飙升万亿了。这前瞻水平的确不可谓不高...
这里我们再稍微谈一谈 Transformer 和生成式 AI 究竟是什么关系。Transformer 在结构上采用一种所谓的自注意力(self-attention)机制,捕捉全局相关性、在一个队列内不同 element 的关系。Transformer 最早主要适用于 NLP(naturallanguageprocessing,自然语言处理),因为其自注意力机制能够让队列中每个 element 与其他所有 element 相关联,模型就能基于 element 关联上下文,来权衡其重要性。
另外,原本 CNN 卷积神经网络和 Transformer 的工作领域是有差别的,前者被认为更适合做图像分类、对象识别之类的工作。但后来谷歌发了个 paper,说把图像切割成小片,每一片当成一个单字、token,则也能以较高精度来学习如何识别对象,达成不错的并行度和灵活性,令 Transformer 也适用于大规模图像识别、CV 工作。Diffusion 模型就有基于 Transformer 的尝试。
所以总的来说,英伟达在 AIPC 硬件层面的准备工作是比其他竞争对手快了几个身位的虽然这一点似乎主要还是依托于英伟达在数据中心 AIHPC 领域的先期成功当然在生态上就涵盖了已经十多年历史的、让 GPU 能够做各类通用计算的 CUDA,及其后 AI 作为一部分的布局了。
在 AI 训练和推理的问题上,大量市场研究数据都表明推理的市场一定是更大的施耐德电气的数据是,从用电量的角度来看,全球范围内 AI 训练和推理功耗,两者现在的比例大约是 2:8;未来还会更进一步偏向推理侧。所以很显然英伟达是不会放过推理市场的。
我们每次和 ChatGPT 说上一句话,ChatGPT 就要进行一次 AI 推理(inference);每次 StableDiffusion 出图个小姐姐,也就在本地进行了一次 AI 推理。这两者的算力量级还是不一样的。今年的春季 GTC 上,英伟达有特别面向 LLM 推理发布过一款 H100NVL,着眼的是需求较大算力需求的推理。
所以最早有「AIPC」实现基础的就是英伟达,毕竟其生态和软件栈的布局,以及社区发明的各类玩法算是相当早了。Intel 从今年初开始推 AIPC 的概念,事实上是比英伟达晚了不少的。我们之前一直说 Intel 的软件工程师今年加班应该会很多,虽然 Intel 很大程度借助了开源社区的力量,但是把全栈搭得像模像样,让 StableDiffusion 及各类 LLM 模型跑在自家 CPU 和 GPU 上,的确还是下了不少功夫的:无论是年初能跑起来,还是下半年的优化工作。
其实 TensorRT 这个工具本身的引入也有些年头了,遥想 2019 年和更早的年份,这个中间件的版本迭代还是 GTC 历年更新的热点。
英伟达将其定义为,令生成式 AI 应用投入生产的主干(backbone)。简单来说也就是能够为 LLM 推理加速、优化的工具。英伟达的宣传资料中提到 TensorRT-LLMv0.6.0「带来至高达 5 倍的推力性能提升,并支持更多热门的 LLM」。
英伟达官网介绍中还特别提到 TensorRT-LLM 有利用 FastTransformer这是英伟达针对 Transformer 模型开发的优化库。从这些组成部分来看,TensorRT-LLM 也算得上是集合多年经验的成果。用英伟达在 Q3 财报电话会议上的话来说,就是「我们投入安装基础(installedbase)20 多年了;任何时间你看到英伟达 GPU,它都跑我们的栈」,当然也包括 GeForce。
在 PC 本地跑生成式 AI 也会因此变得更实用,包括 Llama 这类比较流行的 LLM 模型,有兴趣的同学可以尝试在本地部署。具体是做 LLM 研究,还是用来聊天、写文案、写代码、查资料,或者和别的技术再做结合,那就是 PC 端用户及开发者要思考的问题了。
这部分最后再谈一点:在 PC 端的 AI 软件栈尚未真正统一的情况下,微软的 AIAPI 也是很值得观察的,比如 DirectML。DirectML 算是 DirectX12 的组成部分,是微软以操作系统供应商的身份给出的机器学习 API,现在对大部分芯片厂的 GPU 都提供 AI 加速支持,通用性更好。像 StableDiffusionWebUI 也有 DirectML 版,只不过效率上可能会略差于芯片厂给的专用 API。
这次英伟达也和微软一起特别为跑在 DirectMLAPI 上的 Llama 模型做了优化,英伟达可能主要是做了 GPU 驱动层面的优化。这也算是 AIPC 生态构建的多面出击吧。
其实边缘、端侧 AI 也未必得限定在生成式 AI 上。虽然「AIPC」这个概念主要是今年才被提出的,但 PC 平台应用 AI 技术却应该是自英伟达 Turing 架构(RTX20 系显卡)引入就开始的,要不然 TensorCore 出了这么多年,用来干啥呢?
PC 游戏中的 AI 深度学习超级采样技术 DLSS,就属于典型的 AI 在游戏领域的应用:很多像素都不是靠 GPU 图形单元渲染出来的,而是靠 AI 生成的DLSS3 都开始生成帧了,3.5 都开搞光线重建了,这些都是 AI 在做的。
还有像是最近更新的 RTXVSR 视频超分辨率,将低分辨率的流播画面通过 AI 超分为高分辨率,新版本据说还能在原始分辨率播放内容时,消除画面伪影和压缩失真...... 加上英伟达还有视频会议眼神注视、画面超分等 AI 技术与特性,此类技术都应该算是 AIPC 的组成部分,即便它们并不算是生成式 AI。
而生成式 AI 的到来则必将加速 AIPC 对于 AI 技术的深入应用。有关生成式 AI 在 PC 平台的应用问题,预计随着生成式 AI、大模型自身的发展,我们在明后年就能找到答案,大概率会有对应的杀手级应用出现,就看开发者们天马行空的创意了。
ChatGPT 引爆市场以来,大众讨论最多的一个问题似乎是生成式 AI 要抢占人类的工作和地位了,我们是不是要失业了?在机械重复性工作的确可能面临时代淘汰的危机下,这个时代愿意拥抱生成式 AI 的,也大有人在。而他们是真正将生成式 AI 作为生产力工具,引导自身和时代未来发展的一批人。
比如最近首位获得雨果奖的华人艺术家赵恩哲就以自己的手绘设计为基础,借助 GeForceRTX 显卡,用 StableDiffusion 创作了主题为《虚空之舟》的作品。赵恩哲说:「从游戏电影行业产品的角度,用 AI 与算力降本增效来赋能开发,这是值得肯定的。我个人喜欢手绘未来感的战舰,更希望将这些战舰与我心中的世界变成一部大片,一部游戏,原来靠我一个人的生产力是不太可能实现的。」
「现在有了 AI 辅助创作工具,可以基于我的想象力,给到我各种技术实现的可能性,原来要实现现在的结果至少需要很多工作者,几个月的努力,现在却在几秒钟内呈现在我的面前。」这个例子应该是颇具代表性的,艺术家将 AI 与算力变成自身想象力扩展的工具。
回到 AIPC 的话题。其实从高维度的系统层面来看,虽说现阶段 PC 行业几个主要市场竞争者的芯片跑生成式 AI 的上层软件栈差别非常大,但最终都是为知名的大模型服务。就系统层面来评判各家跑 AI 的效率是可行的,比如说在所有层级都达成芯片企业部署的最高优化水平时,用 StableDiffusion 生成图,看各家芯片和软件需要多久。
明年我们应该能看到这样的比较,对几家主要竞争者而言都会是考验。先预测一波,就英伟达在这个领域的多年积累,即便不说芯片架构水平,软件栈和生态的实力应该都足够 GeForceRTXGPU 在这类竞争中拔得头筹。对于生成式 AI 所需的大模型而言,算力仍然是必须的资源,而生态是高效利用资源的保障。
在 PC 行业的新一轮革命中,拥抱生成式 AI 的 AIPC 在当下才真正具备了竞争力。
公司地址:北京市朝阳区酒仙桥路4号751 D·Park正东集团院内 C8座105室 极客公园
|