英伟达(Nvidia)正在不断推进GenAI

在 5 年来的首次现场 GTC 会议上,Nvidia 推出了 Blackwell GPU 架构,该架构比其前身提供了多项重要改进,特别是在芯片的性能和能效方面。它还宣布了一系列广泛的工具和合作伙伴关系,以使所有类型的企业更轻松地将生成式人工智能应用程序投入生产。该公司强调其不断增长的雄心,通过发布 AI Enterprise 5.0 和其中包含的新 NIM(Nvidia 推理微服务)来成为一家软件和服务公司。

Nvidia(纳斯达克股票代码:NVDA)以及越来越多的技术合作伙伴、客户和投资者在 Nvidia 五年来首次现场 GTC 会议之前一直思考的问题是,如果你出名了,你会做些什么?

公司给出的答案是两种截然不同的东西。 首先,它推出了底层架构的下一代重塑,使其 GPU 芯片成为 GenAI 革命中极其重要的一部分。 其次,它宣布了一系列广泛的工具和合作伙伴关系,使各种类型的企业将生成式人工智能应用程序投入生产的过程变得更加容易。

在此过程中,Nvidia 还强调成为一家软件和服务公司的雄心,发布了 AI Enterprise 5.0 和包含新 NIM(Nvidia 推理微服务)。 该公司还成功扩大了应用范围,以及致力于为其提供关键 GenAI 计算解决方案的行业,包括医疗保健、重工业、汽车、机器人、制造、电信 (6G)、天气预报等 。

在芯片方面,GTC 的重大新闻是 Blackwell GPU 架构,该架构以非裔美国数学家 David Blackwell 的名字命名。 这是该公司自两年前推出 Hopper 架构以来在芯片设计方面的首次重大进展。 Blackwell 对其前身进行了多项重要改进,特别是在芯片的性能和功效方面。 具体来说,Nvidia 表示,Blackwell 提供的 20 PetaFLOPS 人工智能性能在人工智能训练工作负载上快了 4 倍,在人工智能推理工作负载上快了 30 倍,最值得注意的是,其能效比其前身提高了 25 倍。

从物理上看,2080 亿个晶体管 Blackwell 设计由两个处理元件组成,每个处理元件的大小均达到 4nm 制造设备允许的大小,通过名为 NV-HBI 的超高速链路连接,数据传输速度为 10 TB/秒。 该芯片还支持高达 192 GB 的 HBM3e 内存。

在芯片内部,Blackwell 取得的一项重要进步是第二代变压器引擎。 这允许实时监控主张量处理单元内的每个微张量,从而支持与该公司的 TensorRT LLM 和 NeMo Megatron AI 框架结合使用的 4 位浮点 AI 计算。 实际上,通过将这些计算从前几代的 8 位减少到最少,他们可以通过这一单一更改将 Blackwell 上支持的计算性能和模型大小提高一倍。 有些人可能会认为这是苹果与橙子的比较,但它可以处理更大的模型这一事实证明了其好处。

尽管单个 Blackwell GPU 的功能可能很强大,但在专家混合 (MoE) AI“超级模型”的新时代(可以包含超过 10 万亿个参数并处理超过 32,000 个输入标记),迫切需要连接大量的 GPU 在一起。 这就是该公司新的 NVLink 5.0 技术的用武之地,因为它允许最多 576 个 GPU 以高达 1.8 TB/秒的速度连接在一起。

与上一代产品一样,Nvidia 还整合了一款“超级芯片”,将其最新的 GPU 与基于 Arm 的 CPU 设计相结合。 最新的超级芯片版本称为 Grace Blackwell 200(或简称 GB200),它包括两个 Blackwell GPU 和一个 Grace CPU。 这些 GB200 以各种配置封装在一起,并将成为该公司新型 NVL72 机架服务器设计以及下一代 DGX SuperPod 的核心。 访问多个 Blackwell GPU 的另一种方法是通过 HGX B200 服务器主板,该主板将 8 个 Blackwell GPU(称为 B200)集成到单个卡上,用于较小的服务器设计。

连接对于所有这些系统都至关重要,因此该公司还推出了一系列新的交换机,包括基于 InfiniBand 的 Quantum-X800 交换机和基于以太网的 Spectrum-X800。 两者都利用该公司的 BlueField 技术来加快将数据通过数据中心输入 GPU 进行处理的过程。

每个主要的云提供商和服务器制造商都宣布很快就会推出基于 Blackwell 设计的服务或系统,因为所有主要 IT 公司都在利用 Nvidia 的技术。 同样,众多令人印象深刻的软件供应商也宣布他们将在其应用程序的下一代版本中支持 Blackwell 和这些最新设计。

说到软件,Nvidia 的重大软件新闻是引入了名为 NIM 的微服务,它是 AI Enterprise 5.0 版本的一部分。 这些微服务是在该公司的 CUDA 软件平台之上运行的 Web 原生容器,专门设计用于简化创建和开发可利用 CUDA 和 Nvidia 硬件的 GenAI 应用程序的过程。

虽然可能不如最新的硬件设计那么令人激动,但从长远来看,这更重要,原因有几个。

首先,它使公司能够更快、更高效地从 GenAI 实验和 POC(概念验证)转向现实生产。 由于缺乏足够的数据科学家和 GenAI 编程专家,许多渴望部署 GenAI 的公司都受到了技术挑战的限制。 因此,很高兴看到 Nvidia 帮助简化了这一过程。

其次,这些新的微服务可以为 Nvidia 创建全新的收入来源和业务战略,因为它们可以按每个 GPU/每小时(以及其他变体)进行许可。 这被证明是英伟达一种重要、持久且更加多元化的创收手段,因此尽管现在还处于早期阶段,但仍值得关注。

从务实的角度来看,许多微服务都专注于重要的功能,旨在使 Nvidia 硬件加速的 GenAI 应用程序更具吸引力。 例如,Nvidia 有多项 NIM 服务,称为 CUDA-X,专注于将现有企业数据集成到应用程序中的过程。 对于许多组织来说,数据格式化和摄取过程一直存在问题,因此 Nvidia 与许多专注于数据管理工具的软件公司构建的解决方案非常重要。 与此相关的是,NeMO Retriever 微服务包含将 RAG(检索增强生成)等重要的新细化技术集成到定制应用程序中的功能,以便它们可以更好地使用企业数据。

除了这些单独的微服务之外,Nvidia 还谈到了 AI Foundry 的想法,它可以帮助客户将他们需要的各种微服务容器拼凑在一起,帮助他们将它们与客户的特定数据集配对,并帮助他们构建一个 定制 GenAI 应用程序。 这非常重要,因为大多数组织都需要帮助来做到这一点。 Nvidia 可以利用在构建自己的模型时积累的经验来帮助应用程序的创建过程。 事实上他们还可以在这个过程中赚钱。

正如英伟达首席执行官黄仁勋的主题演讲所说的那样,大量的信息进一步扩展了其中一些公告,特别是跨行业的更实际的应用。 但Nvidia 非常认真地对待自己作为 GenAI 行业的角色,并且远非满足于现状,而是尽可能快地推动自己向前发展。

新的硬件进步代表了保持 GenAI 疯狂创新步伐尽可能快地向前发展的重要新步骤。 Blackwell平台也是GenAI时代第一个设计和构建的GPU平台,一些设计调整清楚地反映了超大型法学硕士的具体需求。 更重要的是,新的软件应用程序和微服务希望将公司定位为更广泛、更重要的 GenAI 行业长期推动者。 此外,正如活动中发布的大量合作伙伴公告所表明的那样,科技行业的很大一部分人显然将 Nvidia 视为他们将在未来一段时间内关注和合作的公司。

Scroll to Top