OR 新媒|oror.vip跨平台阅读首选
2024-06-03 20:36
科技

黄仁勋最新演讲:加速计算是计算行业的未来

英伟达正处于计算机图形学、模拟和人工智能的交汇点上;而人工智能和加速计算的交汇将重新定义未来。
黄仁勋提前布局“B20”,英伟达与华盛顿的战略周旋
黄仁勋


在中国台湾地区的台北国际电脑展(COMPUTEX)开幕前夕,黄仁勋身着标志性的一身黑皮衣亮相台湾大学体育场,带来一场重磅演讲,主题为“开启产业革命的全新时代”。他表示,英伟达计划每年推出新版本的旗舰人工智能芯片,公司目标是在当前这场“新工业革命”中释放价值100万亿美元的机会。同时,他还透露了公司的后续产品计划。

黄仁勋表示,英伟达正处于计算机图形学、模拟和人工智能的交汇点上,而人工智能和加速计算的交汇将重新定义未来。

“加速计算是计算行业的未来,”黄仁勋说,“凭借英伟达在AI和加速计算领域的创新,我们正在创造更多可能,推动新一轮技术进步。”

以下是黄仁勋发表的演讲全文(经过编辑删减):

尊敬的各位来宾,我非常荣幸能再次站在这里。首先,我要感谢台湾大学为我们提供这个体育馆作为举办活动的场所。上一次我来到这里,是我从台湾大学获得学位的时候。今天,我们即将探讨的内容很多,所以我必须加快步伐,以快速而清晰的方式传达信息。我们有很多话题要聊,我有许多激动人心的故事要与大家分享。

我很高兴能够来到中国台湾,这里有我们很多合作伙伴。事实上,这里不仅是英伟达发展历程中不可或缺的一部分,更是我们与合作伙伴共同将创新推向全球的关键节点。我们与许多合作伙伴共同构建了全球范围内的人工智能基础设施。今天,我想与大家探讨几个关键议题:

1)我们共同的工作正在取得哪些进展,以及这些进展的意义何在?

2)生成式人工智能到底是什么?它将如何影响我们的行业,乃至每一个行业?

3)一个关于我们如何前进的蓝图,我们将如何抓住这个令人难以置信的机遇?

接下来会发生什么?生成式人工智能及其带来的深远影响,我们的战略蓝图,这些都是我们即将探讨的令人振奋的主题。我们正站在计算机行业重启的起点上,一个由你们铸就、由你们创造的新时代即将开启。现在,你们已经为下一段重要旅程做好了准备。

1、加速计算已成为行业共识

在开始深入讨论之前,我想先强调一点:英伟达位于计算机图形学、模拟和人工智能的交汇点上,这构成了我们公司的灵魂。今天,我将向大家展示的所有内容,都是基于模拟的。这些不仅仅是视觉效果,它们背后是数学、科学和计算机科学的精髓,以及令人叹为观止的计算机架构。

全球数据中心的电力消耗正在急剧上升,同时计算成本也在不断攀升。我们正面临着计算膨胀的严峻挑战,这种情况显然无法长期维持。数据将继续以指数级增长,而CPU的性能扩展却难以像以往那样快速。然而,有一种更为高效的方法正在浮现。

近二十年来,我们一直致力于加速计算的研究。CUDA技术增强了CPU的功能,将那些特殊处理器能更高效完成的任务卸载并加速。事实上,由于CPU性能扩展的放缓甚至停滞,加速计算的优势愈发显著。我预测,每个处理密集型的应用都将实现加速,且不久的将来,每个数据中心都将实现全面加速。

现在,选择加速计算是明智之举,这已成为行业共识。想象一下,一个应用程序需要100个时间单位来完成。无论是100秒还是100小时,我们往往无法承受运行数天甚至数月的人工智能应用。

在这100个时间单位中,有1个时间单位涉及需要顺序执行的代码,此时单线程CPU的重要性不言而喻。操作系统的控制逻辑是不可或缺的,必须严格按照指令序列执行。然而,还有许多算法,如计算机图形学、图像处理、物理模拟、组合优化、图处理和数据库处理,特别是深度学习中广泛使用的线性代数,它们非常适合通过并行处理进行加速。为了实现这一目标,我们发明了一种创新架构,将GPU与CPU完美结合。

专用的处理器能够将原本耗时的任务加速至令人难以置信的速度。由于这两个处理器能并行工作,它们各自独立且自主运行。这意味着,原本需要100个时间单位才能完成的任务,现在可能仅需1个时间单位即可完成。尽管这种加速效果听起来令人难以置信,但今天,我将通过一系列实例来验证这一说法。

这种性能提升所带来的好处是惊人的,加速100倍,而功率仅增加约3倍,成本仅上升约50%。我们在PC行业早已实践了这种策略。在PC上添加一个价值500美元的GeForce GPU,就能使其性能大幅提升,同时整体价值也增加至1000美元。在数据中心,我们也采用了同样的方法。一个价值十亿美元的数据中心,在添加了价值5亿美元的GPU后,瞬间转变为一个强大的人工智能工厂。今天,这种变革正在全球范围内发生。

节省的成本同样令人震惊。每投入1美元,你就能获得高达60倍的性能提升。加速100倍,而功率仅增加3倍,成本仅上升1.5倍。节省的费用是实实在在的!

显然,许多公司在云端处理数据上花费了数亿美元。当数据得到加速处理时,节省数亿美元就变得合情合理。为什么会这样呢?原因很简单,我们在通用计算方面经历了长时间的效率瓶颈。

现在,我们终于认识到了这一点,并决定加速。通过采用专用处理器,我们可以重新获得大量之前被忽视的性能提升,从而节省大量金钱和能源。这就是为什么我说,你购买得越多,节省得也越多。

现在,我已经向你们展示了这些数字。虽然它们并非精确到小数点后几位,但这准确地反映了事实。这可以称之为“CEO数学”。CEO数学虽不追求极致的精确,但其背后的逻辑是正确的——你购买的加速计算能力越多,节省的成本也就越多。

加速计算带来的结果确实非凡,但其实现过程并不容易。为什么它能节省这么多钱,但人们却没有更早地采用这种技术呢?原因就在于它的实施难度太大。

没有现成的软件可以简单地通过加速编译器运行,然后应用程序就能瞬间提速100倍。这既不符合逻辑也不现实。如果这么容易,那么CPU厂商早就这样做了。

事实上,要实现加速,软件必须进行全面重写。这是整个过程中最具挑战性的部分。软件需要被重新设计、重新编码,以便将原本在CPU上运行的算法转化为可以在加速器上并行运行的格式。

这项计算机科学研究虽然困难,但我们在过去的20年里已经取得了显著的进展。例如,我们推出了广受欢迎的cuDNN深度学习库,它专门处理神经网络加速。我们还为人工智能物理模拟提供了一个库,适用于流体动力学等需要遵守物理定律的应用。另外,我们还有一个名为Aerial的新库,它利用CUDA加速5G无线电技术,使我们能够像软件定义互联网网络一样,用软件定义和加速电信网络。

这些加速能力不仅提升了性能,还帮助我们将整个电信行业转化为一种与云计算类似的计算平台。此外,Coolitho计算光刻平台也是一个很好的例子,它极大地提升了芯片制造过程中计算最密集的部分——掩模制作的效率。台积电等公司已经开始使用Coolitho进行生产,不仅显著节省了能源,而且大幅降低了成本。他们的目标是通过加速技术栈,为算法的更进一步发展和制造更深更窄的晶体管所需的庞大计算能力做好准备。

2、AI开启新时代计算变革

CUDA已经达到了一个人们所称的临界点,但现实情况比这要好。CUDA已经实现一个良性的发展循环。回顾历史和各种计算架构、平台的发展,我们可以发现这样的循环并不常见。以微处理器CPU为例,它已经存在了60年,但其加速计算的方式在这漫长的岁月里并未发生根本性改变。

要创建一个新的计算平台往往面临着“先有鸡还是先有蛋”的困境。没有开发者的支持,平台很难吸引用户;而没有用户的广泛采用,又难以形成庞大的安装基础来吸引开发者。这个困境在过去20年中一直困扰着多个计算平台的发展。

然而,通过持续不断地推出特定领域的库和加速库,我们成功打破了这一困境。如今,我们已在全球拥有500万开发者,他们利用CUDA技术服务于从医疗保健、金融服务到计算机行业、汽车行业等几乎每一个主要行业和科学领域。

随着客户群的不断扩大,OEM和云服务提供商也开始对我们的系统产生兴趣,这进一步推动了更多系统进入市场。这种良性循环为我们创造了巨大的机遇,使我们能够扩大规模,增加研发投入,从而推动更多应用的加速发展。

每一次应用的加速都意味着计算成本的显著降低。正如我之前展示的,100倍的加速可以带来高达97.96%,即接近98%的成本节省。随着我们将计算加速从100倍提升至200倍,再飞跃至1000倍,计算的边际成本持续下降,展现出了令人瞩目的经济效益。

当然,我们相信,通过显著降低计算成本,市场、开发者、科学家和发明家将不断发掘出消耗更多计算资源的新算法。直至某个时刻,一种深刻的变革将悄然发生。当计算的边际成本变得如此低廉时,全新的计算机使用方式将应运而生。

事实上,这种变革正在我们眼前上演。过去十年间,我们利用特定算法将计算的边际成本降低了惊人的100万倍。如今,利用互联网上的所有数据来训练大语言模型已成为一种合乎逻辑且理所当然的选择,不再受到任何质疑。

这个想法——打造一台能够处理海量数据以自我编程的计算机——正是人工智能崛起的基石。人工智能的崛起之所以成为可能,完全是因为我们坚信,如果我们让计算变得越来越便宜,总会有人找到巨大的用途。如今,CUDA的成功已经证明了这一良性循环的可行性。

随着安装基础的持续扩大和计算成本的持续降低,越来越多的开发者得以发挥他们的创新潜能,提出更多的想法和解决方案。这种创新力推动了市场需求的激增。现在我们正站在一个重大转折点上。然而,在我进一步展示之前,我想强调的是,如果不是CUDA和现代人工智能技术——尤其是生成式人工智能的突破,以下我所要展示的内容将无法实现。

这就是“地球2号”项目——一个雄心勃勃的设想,旨在创建地球的数字孪生体。我们将模拟整个地球的运行,以预测其未来变化。通过这样的模拟,我们可以更好地预防灾难,更深入地理解气候变化的影响,从而让我们能够更好地适应这些变化,甚至现在就开始改变我们的行为和习惯。

“地球2号”项目可能是世界上最具挑战性、最雄心勃勃的项目之一。我们每年都在这个领域取得显著的进步,而今年的成果尤为突出。现在,请允许我为大家展示这些令人振奋的进展。

在不远的将来,我们将拥有持续的天气预报能力,覆盖地球上的每一平方公里。你将始终了解气候将如何变化,这种预测将不断运行,因为我们训练了人工智能,而人工智能所需的能量又极为有限。这将是一个令人难以置信的成就。

3、ChatGPT揭示了生成式AI的无限潜能

更为重要的智慧在于我们退后一步,深入理解了深度学习的本质。它的基础是什么?它的长期影响是什么?它的潜力是什么?我们意识到,这项技术拥有巨大的潜力,能够继续扩展几十年前发明和发现的算法,结合更多的数据、更大的网络和至关重要的计算资源,深度学习突然间能够实现人类算法无法企及的任务。

现在,想象一下,如果我们进一步扩大架构,拥有更大的网络、更多的数据和计算资源,将会发生什么?因此,我们致力于重新发明一切。自2012年以来,我们改变了GPU的架构,增加了张量核心,发明了NV-Link,推出了cuDNN、TensorRT、Nickel,还收购了Mellanox,推出了Triton推理服务器。

这些技术集成在一台全新的计算机上,它超越了当时所有人的想象。没有人预料到,没有人提出这样的需求,甚至没有人理解它的全部潜力。事实上,我自己也不确定是否会有人会想买它。

但在GTC大会上,我们正式发布了这项技术。旧金山一家名叫OpenAI的初创公司迅速注意到了我们的成果,并请求我们提供一台设备。我亲自为OpenAI送去了世界上首台人工智能超级计算机DGX。

2016年,我们持续扩大研发规模。从单一的人工智能超级计算机,单一的人工智能应用,扩大到在2017年推出了更为庞大且强大的超级计算机。随着技术的不断进步,世界见证了Transformer的崛起。这一模型的出现,使我们能够处理海量的数据,并识别和学习在长时间跨度内连续的模式。

如今,我们有能力训练这些大语言模型,以实现自然语言理解方面的重大突破。但我们并未止步于此,我们继续前行,构建了更大的模型。到了2022年11月,在极为强大的人工智能超级计算机上,我们使用数万颗英伟达GPU进行训练。

仅仅5天后,OpenAI宣布ChatGPT已拥有100万用户。这一惊人的增长速度,在短短两个月内攀升至1亿用户,创造了应用历史上最快的增长记录。其原因十分简单——ChatGPT的使用体验便捷而神奇。

用户能够与计算机进行自然、流畅的互动,仿佛与真人交流一般。无需繁琐的指令或明确的描述,ChatGPT便能理解用户的意图和需求。

直至ChatGPT的问世,它才真正向世界揭示了生成式人工智能的无限潜能。长久以来,人工智能的焦点主要集中在感知领域,如自然语言理解、计算机视觉和语音识别,这些技术致力于模拟人类的感知能力。但ChatGPT带来了质的飞跃,它不仅仅局限于感知,而是首次展现了生成式人工智能的力量。

它会逐个生成Token,这些Token可以是单词、图像、图表、表格,甚至是歌曲、文字、语音和视频。Token可以代表任何具有明确意义的事物,无论是化学物质、蛋白质、基因,还是之前我们提到的天气模式。

这种生成式人工智能的崛起意味着,我们可以学习并模拟物理现象,让人工智能模型理解并生成物理世界的各种现象。我们不再局限于缩小范围进行过滤,而是通过生成的方式探索无限可能。

如今,我们几乎可以为任何有价值的事物生成Token,无论是汽车的转向盘控制、机械臂的关节运动,还是我们目前能够学习的任何知识。因此,我们所处的已不仅仅是一个人工智能时代,而是一个生成式人工智能引领的新纪元。

更重要的是,这台最初作为超级计算机出现的设备,如今已经演化为一个高效运转的人工智能数据中心。它不断地产出,不仅生成Token,更是一个创造价值的人工智能工厂。这个人工智能工厂正在生成、创造和生产具有巨大市场潜力的新商品。

正如19世纪末尼古拉·特斯拉(Nikola Tesla)发明了交流发电机,为我们带来了源源不断的电子,英伟达的人工智能生成器也正在源源不断地产生具有无限可能性的Token。这两者都有巨大的市场机会,有望在每个行业掀起变革。这确实是一场新的工业革命!

我们现在迎来了一个全新的工厂,能够为各行各业生产出前所未有的、极具价值的新商品。这一方法不仅极具可扩展性,而且完全可重复。请注意,目前,每天都在不断涌现出各种各样的人工智能模型,尤其是生成式人工智能模型。如今,每个行业都竞相参与其中,这是前所未有的盛况。

价值3万亿美元的IT行业,即将催生出能够直接服务于100万亿美元产业的创新成果。它不再仅仅是信息存储或数据处理的工具,而是每个行业生成智能的引擎。这将成为一种新型的制造业,但它并非传统的计算机制造业,而是利用计算机进行制造的全新模式。这样的变革以前从未发生过,这确实是一件令人瞩目的非凡之事。

4、NVIDIA NIM有望颠覆计算机行业

对于我们所在的行业而言,这场变革的影响同样深远。正如我之前所言,这是过去六十年来的首次,计算的每一层都正在发生变革。从CPU的通用计算到GPU的加速计算,每一次变革都标志着技术的飞跃。

过去,计算机需要遵循指令执行操作,而现在,它们更多地是处理LLM(大语言模型)和人工智能模型。过去的计算模型主要基于检索,几乎每次你使用手机时,它都会为你检索预先存储的文本、图像或视频,并根据推荐系统重新组合这些内容呈现给你。

但在未来,你的计算机会尽可能多地生成内容,只检索必要的信息,因为生成数据在获取信息时消耗的能量更少。而且,生成的数据具有更高的上下文相关性,能更准确地反映你的需求。当你需要答案时,不再需要明确指示计算机“给我获取那个信息”或“给我那个文件”,只需简单地说:“给我一个答案。”

此外,计算机不再仅仅是我们使用的工具,它开始生成技能。它执行任务,而不再是一个生产软件的行业,这在90年代初是一个颠覆性的观念。记得吗?微软提出的软件打包理念彻底改变了PC行业。没有打包软件,我们的PC将失去大部分功能。这一创新推动了整个行业的发展。

现在我们有了新工厂、新计算机,而在这个基础上运行的是一种新型软件——我们称之为Nim(NVIDIA Inference Microservices)。在这个新工厂中运行的Nim是一个预训练模型,它是一个人工智能。

这个人工智能本身相当复杂,但运行人工智能的计算堆栈更是复杂得令人难以置信。当你使用ChatGPT这样的模型时,其背后是庞大的软件堆栈。这个堆栈复杂而庞大,因为模型拥有数十亿到数万亿个参数,且不仅在一台计算机上运行,而是在多台计算机上协同工作。

为了最大化效率,系统需要将工作负载分配给多个GPU,进行各种并行处理,如张量并行、管道并行、数据并行和专家并行。这样的分配是为了确保工作能尽快完成,因为在一个工厂中,吞吐量直接关系到收入、服务质量和可服务的客户数量。如今,我们身处一个数据中心吞吐量利用率至关重要的时代。

用户只需下载Nim,并在支持CUDA的计算机上运行,即可轻松部署和管理人工智能服务。如今,CUDA已无处不在,它支持各大云服务提供商,几乎所有计算机制造商都提供CUDA支持,甚至在数亿台PC中也能找到它的身影。

当你下载Nim时,即刻拥有一个人工智能助手,它能如与ChatGPT对话般流畅交流。现在,所有的软件都已精简并整合在一个容器中,原先繁琐的400个依赖项全部集中优化。我们对Nim进行了严格的测试,每个预训练模型都在我们的云端基础设施上得到了全面测试,包括Pascal、Ampere乃至最新的Hopper等不同版本的GPU。这些版本种类繁多,几乎覆盖了所有需求。

Nim的发明无疑是一项壮举,它是我最引以为傲的成就之一。如今,我们有能力构建大语言模型和各种预训练模型,这些模型涵盖了语言、视觉、图像等多个领域,还有针对特定行业如医疗保健和数字生物学的定制版本。

5、英伟达在数字人技术领域已取得显著进展

当我们谈论与大型人工智能服务的交互时,目前我们已经可以通过文本和语音提示来实现。但展望未来,我们更希望以更人性化的方式——即数字人,来进行互动。英伟达在数字人技术领域已经取得了显著的进展。

数字人不仅具有成为出色交互式代理的潜力,它们还更加吸引人,并可能展现出更高的同理心。然而,要跨越这个令人难以置信的鸿沟,使数字人看起来和感觉更加自然,我们仍需付出巨大的努力。这不仅是我们的愿景,更是我们不懈追求的目标。

ACE(Avatar Cloud Engine,英伟达数字人技术)不仅能在云端高效运行,同时也兼容PC环境。我们前瞻性地将Tensor Core GPU集成到所有RTX系列中,这标志着人工智能GPU的时代已经到来,我们为此做好了充分准备。

背后的逻辑十分清晰:要构建一个新的计算平台,必须先奠定坚实的基础。有了坚实的基础,应用程序自然会随之涌现。如果缺乏这样的基础,那么应用程序便无从谈起。所以,只有当我们构建了它,应用程序的繁荣才有可能实现。

因此,我们在每一款RTX GPU中都集成了Tensor Core处理单元,目前全球已有1亿台GeForce RTX AI PC投入使用,而且这个数字还在不断增长,预计将达到2亿台。在最近的Computex展会上,我们更是推出了四款全新的人工智能笔记本电脑。

这些设备都具备运行人工智能的能力。未来的笔记本电脑和PC将成为人工智能的载体,它们将在后台默默地为你提供帮助和支持。同时,这些PC还将运行由人工智能增强的应用程序,无论你是进行照片编辑、写作还是使用其他工具,都将享受到人工智能带来的便利和增强效果。

此外,你的PC还将能够托管带有人工智能的数字人类应用程序,让人工智能以更多样化的方式呈现并在PC上得到应用。显然,PC将成为至关重要的人工智能平台。那么,接下来我们将如何发展呢?

之前我谈到了我们数据中心的扩展,每次扩展都伴随着新的变革。当我们从DGX扩展到大型人工智能超级计算机时,我们实现了Transformer在巨大数据集上的高效训练。这标志着一个重大的转变:一开始,数据需要人类的监督,通过人类标记来训练人工智能。然而,人类能够标记的数据量是有限的。现在,随着Transformer的发展,无监督学习成为可能。

如今,Transformer能够自行探索海量的数据、视频和图像,从中学习并发现隐藏的模式和关系。为了推动人工智能向更高层次发展,下一代人工智能需要根植于物理定律的理解,但大多数人工智能系统缺乏对物理世界的深刻认识。为了生成逼真的图像、视频、3D图形,以及模拟复杂的物理现象,我们急需开发基于物理的人工智能,这要求它能够理解并应用物理定律。

在实现这一目标的过程中,有两个主要方法。首先,通过从视频中学习,人工智能可以逐步积累对物理世界的认知。其次,利用合成数据,我们可以为人工智能系统提供丰富且可控的学习环境。此外,模拟数据和计算机之间的互相学习也是一种有效的策略。这种方法类似于AlphaGo的自我对弈模式,让两个相同能力的实体长时间相互学习,从而不断提升智能水平。因此,我们可以预见,这种类型的人工智能将在未来逐渐崭露头角。

6、Blackwell全面投产,八年间算力增长1000倍

当人工智能数据通过合成方式生成,并结合强化学习技术时,数据生成的速率将得到显著提升。随着数据生成的增长,对计算能力的需求也将相应增加。我们即将迈入一个新时代,在这个时代中,人工智能将能够学习物理定律,理解并基于物理世界的数据进行决策和行动。因此,我们预计人工智能模型将继续扩大,对GPU性能的要求也将越来越高。

为满足这一需求,Blackwell应运而生。这款GPU专为支持新一代人工智能设计,拥有几项关键技术。这种芯片尺寸之大在业界首屈一指。我们采用了两片尽可能大的芯片,通过每秒10太字节的高速链接,结合世界上最先进的SerDes(高性能接口或连接技术)将它们紧密连接在一起。进一步地,我们将两片这样的芯片放置在一个计算机节点上,并通过Grace CPU进行高效协调。

Grace CPU的用途广泛,不仅适用于训练场景,还在推理和生成过程中发挥关键作用,如快速检查点和重启。此外,它还能存储上下文,让人工智能系统拥有记忆,并能理解用户对话的上下文,这对于增强交互的连续性和流畅性至关重要。

我们推出的第二代Transformer引擎进一步提升了人工智能的计算效率。这款引擎能够根据计算层的精度和范围需求,动态调整至较低的精度,从而在保持性能的同时降低能耗。同时,Blackwell GPU还具备安全人工智能功能,确保用户能够要求服务提供商保护其免受盗窃或篡改。

对于大型超级计算机来说,可靠性尤为关键。拥有10,000个GPU的超级计算机的平均故障间隔时间可能以小时为单位,但当GPU数量增加至100,000个时,平均故障间隔时间将缩短至以分钟为单位。因此,为了确保超级计算机能够长时间稳定运行,以训练那些可能需要数个月时间的复杂模型,我们必须通过技术创新来提高可靠性。而可靠性的提升不仅能够增加系统的正常运行时间,还能有效降低成本。

最后,我们还在Blackwell GPU中集成了先进的解压缩引擎。在数据处理方面,解压缩速度至关重要。通过集成这一引擎,我们可以从存储中拉取数据的速度比现有技术快20倍,从而极大地提升了数据处理效率。

Blackwell GPU的上述功能特性使其成为一款令人瞩目的产品。在之前的GTC大会上,我曾向大家展示了处于原型状态的Blackwell。而现在,我们很高兴地宣布,这款产品已经投入生产。

那么,Blackwell究竟是什么呢?它的性能之强大,简直令人难以置信。请仔细观察这些数据。在短短八年内,我们的计算能力、浮点运算以及人工智能浮点运算能力增长了1000倍。这速度,几乎超越了摩尔定律在最佳时期的增长。

Blackwell计算能力的增长简直惊人。而更值得一提的是,每当我们的计算能力提高时,成本却在不断下降。让我给你们展示一下。我们通过提升计算能力,用于训练GPT-4模型(2万亿参数和8万亿Token)的能量下降了350倍。

想象一下,如果使用Pascal进行同样的训练,它将消耗高达1000吉瓦时的能量。这意味着需要一个吉瓦数据中心来支持,但世界上并不存在这样的数据中心。即便存在,它也需要连续运行一个月的时间。而如果是一个100兆瓦的数据中心,那么训练时间将长达一年。

显然,没有人愿意或能够创造这样的数据中心。这就是为什么八年前,像ChatGPT这样的大语言模型对我们来说还是遥不可及的梦想。但如今,我们通过提升性能并降低能耗实现了这一目标。

我们利用Blackwell将原本需要高达1000吉瓦时的能量降低到仅需3吉瓦时,这一成就无疑是令人震惊的突破。想象一下,使用1000个GPU,它们所消耗的能量竟然只相当于一杯咖啡的热量。而10,000个GPU,更是只需短短10天左右的时间就能完成同等任务。八年间取得的这些进步,简直令人难以置信。

Blackwell不仅适用于推理,其在Token生成性能上的提升更是令人瞩目。在Pascal时代,每个Token消耗的能量高达17,000焦耳,这大约相当于两个灯泡运行两天的能量。而生成一个GPT-4的Token,几乎需要两个200瓦特的灯泡持续运行两天。考虑到生成一个单词大约需要3个Token,这确实是一个巨大的能量消耗。

然而,现在的情况已经截然不同。Blackwell使得生成每个Token只需消耗0.4焦耳的能量,以惊人的速度和极低的能耗进行Token生成。这无疑是一个巨大的飞跃。但即使如此,我们仍不满足。为了更大的突破,我们必须建造更强大的机器。

这就是我们的DGX系统,Blackwell芯片将被嵌入其中。这款系统采用空气冷却技术,内部配备了8个这样的GPU。看看这些GPU上的散热片,它们的尺寸之大令人惊叹。整个系统功耗约为15千瓦,完全通过空气冷却实现。这个版本兼容X86,并已应用于我们已发货的服务器中。

然而,如果你更倾向于液体冷却技术,我们还有一个全新的系统——MGX。它基于这款主板设计,我们称之为“模块化”系统。MGX系统的核心在于两块Blackwell芯片,每个节点都集成了四个Blackwell芯片。它采用了液体冷却技术,确保了高效稳定的运行。

整个系统中,这样的节点共有九个,共计72个GPU,构成了一个庞大的计算集群。这些GPU通过全新的NV链接技术紧密相连,形成了一个无缝的计算网络。NV链接交换机堪称技术奇迹。它是目前世界上最先进的交换机,数据传输速率令人咋舌。这些交换机使得每个Blackwell芯片高效连接,形成了一个巨大的72 GPU集群。

这一集群的优势何在?首先,在GPU域中,它现在表现得就像一个单一的、超大规模的GPU。这个“超级GPU”拥有72个GPU的核心能力,相较于上一代的8个GPU,性能提升了9倍。同时,带宽增加了18倍,AI FLOPS(每秒浮点运算次数)更是提升了45倍,而功率仅增加了10倍。也就是说,一个这样的系统能提供100千瓦的强劲动力,而上一代仅为10千瓦。

当然,你还可以将更多的这些系统连接在一起,形成更庞大的计算网络。但真正的奇迹在于这个NV链接芯片,随着大语言模型的日益庞大,其重要性也日益凸显。因为这些大语言模型已经不适合单独放在一个GPU或节点上运行,它们需要整个GPU机架的协同工作。就像我刚才提到的那个新DGX系统,它能够容纳参数达到数十万亿的大语言模型。

7、英伟达将推出Blackwell的下一代平台Rubin

Blackwell,作为NVIDIA平台的第一代产品,自推出以来便备受瞩目。如今,全球范围内都迎来了生成式人工智能的时代,这是一个全新的工业革命的开端,每个角落都在意识到人工智能工厂的重要性。我们深感荣幸,获得了来自各行各业的广泛支持,包括每一家OEM(原始设备制造商)、电脑制造商、CSP(云服务提供商)、GPU云、主权云以及电信公司等。

Blackwell的成功、广泛的采用以及行业对其的热情都达到了前所未有的高度,这让我们深感欣慰,并在此向大家表示衷心的感谢。然而,我们的脚步不会因此而停歇。在这个飞速发展的时代,我们将继续努力提升产品性能,降低培训和推理的成本,同时不断扩展人工智能的能力,使每一家企业都能从中受益。我们坚信,随着性能的提升,成本将进一步降低。而Hopper平台,无疑可能是历史上最成功的数据中心处理器。

英伟达始终坚持每年一次的更新节奏。我们的核心理念非常明确:1)构建覆盖整个数据中心规模的解决方案;2)将这些解决方案分解为各个部件,以每年一次的频率向全球客户推出;3)我们不遗余力地将所有技术推向极限,无论是台积电的工艺技术、封装技术、内存技术,还是光学技术等,我们都追求极致的性能表现。

在完成硬件的极限挑战后,我们将全力以赴确保所有软件都能在这个完整的平台上顺畅运行。在计算机技术中,软件惯性至关重要。当我们的计算机平台能够向后兼容,且架构上与已有软件完美契合时,产品的上市速度将显著提升。因此,当Blackwell平台问世时,我们能够充分利用已构建的软件生态基础,实现惊人的市场响应速度。明年,我们将迎来Blackwell Ultra。

正如我们曾推出的H100和H200系列一样,Blackwell Ultra也将引领新一代产品的热潮,带来前所未有的创新体验。同时,我们将继续挑战技术的极限,推出下一代频谱交换机,这是行业内的首次尝试。这一重大突破已经成功实现,尽管我现在对于公开这个决定还心存些许犹豫。

在英伟达内部,我们习惯于使用代码名并保持一定的保密性。很多时候,连公司内部的大多数员工都不甚了解这些秘密。然而,我们的下一代平台已被命名为Rubin。关于Rubin,我不会在此过多赘述。我深知大家的好奇心,但请允许我保持一些神秘感。你们或许已经迫不及待想要拍照留念,或是仔细研究那些小字部分,那就请随意吧。

我们不仅有Rubin平台,一年后还将推出Rubin Ultra平台。在此展示的所有芯片都处于全面开发阶段,确保每一个细节都经过精心打磨。我们的更新节奏依然是一年一次,始终追求技术的极致,同时确保所有产品都保持100%的架构兼容性。

8、机器人技术不再遥不可及

接下来,让我们谈谈人工智能与机器人相结合的未来。

物理人工智能正引领人工智能领域的新浪潮,它们深谙物理定律,并能自如地融入我们的日常生活。为此,物理人工智能不仅需要构建一个精准的世界模型,以理解如何解读和感知周围世界,更需具备卓越的认知能力,以深刻理解我们的需求并高效执行任务。

展望未来,机器人技术将不再是一个遥不可及的概念,而是日益融入我们的日常生活。当提及机器人技术时,人们往往会联想到人形机器人,但实际上,它的应用远不止于此。机械化将成为常态,工厂将全面实现自动化,机器人将协同工作,制造出一系列机械化产品。它们之间的互动将更加密切,共同创造出一个高度自动化的生产环境。

为了实现这一目标,我们需要克服一系列技术挑战。接下来,我将通过视频展示这些前沿技术。

这不仅仅是对未来的展望,它正逐步成为现实。

我们将通过多种方式服务市场。首先,我们致力于为不同类型的机器人系统打造平台:机器人工厂与仓库专用平台、物体操纵机器人平台、移动机器人平台,以及人形机器人平台。这些机器人平台与我们其他众多业务一样,依托于计算机加速库和预训练模型。

我们运用计算机加速库、预训练模型,并在Omniverse中进行全方位的测试、训练和集成。正如视频所示,Omniverse是机器人学习如何更好地适应现实世界的地方。当然,机器人仓库的生态系统极为复杂,需要众多公司、工具和技术来共同构建现代化的仓库。如今,仓库正逐步迈向全面机械化,终有一天将实现完全自动化。

在这样一个生态系统中,我们为软件行业、边缘人工智能行业和公司提供了SDK和API接口,同时也为PLC和机器人系统设计了专用系统,以满足国防部等特定领域的需求。这些系统通过集成商整合,最终为客户打造高效、智能的仓库。举个例子,Ken Mac正在为Giant Giant集团构建一座机器人仓库。

接下来,让我们聚焦工厂领域。工厂的生态系统截然不同。以富士康为例,他们正在建设世界上一些最先进的工厂。这些工厂的生态系统同样涵盖了边缘计算机、机器人软件,用于设计工厂布局、优化工作流程、编程机器人,以及用于协调数字工厂和人工智能工厂的PLC计算机。我们同样为这些生态系统中的每一个环节提供了SDK接口。

这样的变革正在全球范围内上演。富士康和Delta正为其工厂构建数字孪生设施,实现现实与数字的完美融合,而Omniverse在其中扮演了至关重要的角色。同样值得一提的是,和硕与Wistron也在紧随潮流,为各自的机器人工厂建立数字孪生设施。

机器人技术和物理人工智能的时代已经到来,它们正在各地被广泛应用,这并非科幻,而是现实,令人倍感振奋。展望未来,工厂内的机器人将成为主流,它们将制造所有的产品,其中两个高产量机器人产品尤为引人注目。首先是自动驾驶汽车或具备高度自主能力的汽车,英伟达再次凭借其全面的技术堆栈在这一领域发挥了核心作用。明年,我们计划与梅赛德斯-奔驰车队携手,随后在2026年与捷豹路虎(JLR)车队合作。我们提供完整的解决方案堆栈,但客户可根据需求选择其中的任何部分或层级,因为整个驱动堆栈都是开放和灵活的。

接下来,另一个可能由机器人工厂高产量制造的产品是人形机器人。近年来,在认知能力和世界理解能力方面取得了巨大突破,这一领域的发展前景令人期待。我对人形机器人特别兴奋,因为它们最有可能适应我们为人类所构建的世界。

与其他类型的机器人相比,训练人形机器人需要大量的数据。由于我们拥有相似的体型,通过演示和视频能力提供的大量训练数据将极具价值。因此,我们预计这一领域将取得显著的进步。

机器人时代已经来临,这是人工智能的下一波浪潮。中国台湾制造的计算机种类繁多,既有配备键盘的传统机型,也有小巧轻便、便于携带的移动设备,以及为云端数据中心提供强大算力的专业设备。但展望未来,我们将见证一个更为激动人心的时刻——制造会走路、四处滚动的计算机,即智能机器人。

这些智能机器人与我们所熟知的计算机在技术上有着惊人的相似性,它们都是基于先进的硬件和软件技术构建的。因此,我们有理由相信,这将是一段真正非凡的旅程!

■ 
                                                                                         
相关内容
+
读者评论
MORE +

热门排行榜
OR
+
黄仁勋提前布局“B20”,英伟达与华盛顿的战略周旋
2024-06-03 20:36
科技

黄仁勋最新演讲:加速计算是计算行业的未来

英伟达正处于计算机图形学、模拟和人工智能的交汇点上;而人工智能和加速计算的交汇将重新定义未来。
黄仁勋


在中国台湾地区的台北国际电脑展(COMPUTEX)开幕前夕,黄仁勋身着标志性的一身黑皮衣亮相台湾大学体育场,带来一场重磅演讲,主题为“开启产业革命的全新时代”。他表示,英伟达计划每年推出新版本的旗舰人工智能芯片,公司目标是在当前这场“新工业革命”中释放价值100万亿美元的机会。同时,他还透露了公司的后续产品计划。

黄仁勋表示,英伟达正处于计算机图形学、模拟和人工智能的交汇点上,而人工智能和加速计算的交汇将重新定义未来。

“加速计算是计算行业的未来,”黄仁勋说,“凭借英伟达在AI和加速计算领域的创新,我们正在创造更多可能,推动新一轮技术进步。”

以下是黄仁勋发表的演讲全文(经过编辑删减):

尊敬的各位来宾,我非常荣幸能再次站在这里。首先,我要感谢台湾大学为我们提供这个体育馆作为举办活动的场所。上一次我来到这里,是我从台湾大学获得学位的时候。今天,我们即将探讨的内容很多,所以我必须加快步伐,以快速而清晰的方式传达信息。我们有很多话题要聊,我有许多激动人心的故事要与大家分享。

我很高兴能够来到中国台湾,这里有我们很多合作伙伴。事实上,这里不仅是英伟达发展历程中不可或缺的一部分,更是我们与合作伙伴共同将创新推向全球的关键节点。我们与许多合作伙伴共同构建了全球范围内的人工智能基础设施。今天,我想与大家探讨几个关键议题:

1)我们共同的工作正在取得哪些进展,以及这些进展的意义何在?

2)生成式人工智能到底是什么?它将如何影响我们的行业,乃至每一个行业?

3)一个关于我们如何前进的蓝图,我们将如何抓住这个令人难以置信的机遇?

接下来会发生什么?生成式人工智能及其带来的深远影响,我们的战略蓝图,这些都是我们即将探讨的令人振奋的主题。我们正站在计算机行业重启的起点上,一个由你们铸就、由你们创造的新时代即将开启。现在,你们已经为下一段重要旅程做好了准备。

1、加速计算已成为行业共识

在开始深入讨论之前,我想先强调一点:英伟达位于计算机图形学、模拟和人工智能的交汇点上,这构成了我们公司的灵魂。今天,我将向大家展示的所有内容,都是基于模拟的。这些不仅仅是视觉效果,它们背后是数学、科学和计算机科学的精髓,以及令人叹为观止的计算机架构。

全球数据中心的电力消耗正在急剧上升,同时计算成本也在不断攀升。我们正面临着计算膨胀的严峻挑战,这种情况显然无法长期维持。数据将继续以指数级增长,而CPU的性能扩展却难以像以往那样快速。然而,有一种更为高效的方法正在浮现。

近二十年来,我们一直致力于加速计算的研究。CUDA技术增强了CPU的功能,将那些特殊处理器能更高效完成的任务卸载并加速。事实上,由于CPU性能扩展的放缓甚至停滞,加速计算的优势愈发显著。我预测,每个处理密集型的应用都将实现加速,且不久的将来,每个数据中心都将实现全面加速。

现在,选择加速计算是明智之举,这已成为行业共识。想象一下,一个应用程序需要100个时间单位来完成。无论是100秒还是100小时,我们往往无法承受运行数天甚至数月的人工智能应用。

在这100个时间单位中,有1个时间单位涉及需要顺序执行的代码,此时单线程CPU的重要性不言而喻。操作系统的控制逻辑是不可或缺的,必须严格按照指令序列执行。然而,还有许多算法,如计算机图形学、图像处理、物理模拟、组合优化、图处理和数据库处理,特别是深度学习中广泛使用的线性代数,它们非常适合通过并行处理进行加速。为了实现这一目标,我们发明了一种创新架构,将GPU与CPU完美结合。

专用的处理器能够将原本耗时的任务加速至令人难以置信的速度。由于这两个处理器能并行工作,它们各自独立且自主运行。这意味着,原本需要100个时间单位才能完成的任务,现在可能仅需1个时间单位即可完成。尽管这种加速效果听起来令人难以置信,但今天,我将通过一系列实例来验证这一说法。

这种性能提升所带来的好处是惊人的,加速100倍,而功率仅增加约3倍,成本仅上升约50%。我们在PC行业早已实践了这种策略。在PC上添加一个价值500美元的GeForce GPU,就能使其性能大幅提升,同时整体价值也增加至1000美元。在数据中心,我们也采用了同样的方法。一个价值十亿美元的数据中心,在添加了价值5亿美元的GPU后,瞬间转变为一个强大的人工智能工厂。今天,这种变革正在全球范围内发生。

节省的成本同样令人震惊。每投入1美元,你就能获得高达60倍的性能提升。加速100倍,而功率仅增加3倍,成本仅上升1.5倍。节省的费用是实实在在的!

显然,许多公司在云端处理数据上花费了数亿美元。当数据得到加速处理时,节省数亿美元就变得合情合理。为什么会这样呢?原因很简单,我们在通用计算方面经历了长时间的效率瓶颈。

现在,我们终于认识到了这一点,并决定加速。通过采用专用处理器,我们可以重新获得大量之前被忽视的性能提升,从而节省大量金钱和能源。这就是为什么我说,你购买得越多,节省得也越多。

现在,我已经向你们展示了这些数字。虽然它们并非精确到小数点后几位,但这准确地反映了事实。这可以称之为“CEO数学”。CEO数学虽不追求极致的精确,但其背后的逻辑是正确的——你购买的加速计算能力越多,节省的成本也就越多。

加速计算带来的结果确实非凡,但其实现过程并不容易。为什么它能节省这么多钱,但人们却没有更早地采用这种技术呢?原因就在于它的实施难度太大。

没有现成的软件可以简单地通过加速编译器运行,然后应用程序就能瞬间提速100倍。这既不符合逻辑也不现实。如果这么容易,那么CPU厂商早就这样做了。

事实上,要实现加速,软件必须进行全面重写。这是整个过程中最具挑战性的部分。软件需要被重新设计、重新编码,以便将原本在CPU上运行的算法转化为可以在加速器上并行运行的格式。

这项计算机科学研究虽然困难,但我们在过去的20年里已经取得了显著的进展。例如,我们推出了广受欢迎的cuDNN深度学习库,它专门处理神经网络加速。我们还为人工智能物理模拟提供了一个库,适用于流体动力学等需要遵守物理定律的应用。另外,我们还有一个名为Aerial的新库,它利用CUDA加速5G无线电技术,使我们能够像软件定义互联网网络一样,用软件定义和加速电信网络。

这些加速能力不仅提升了性能,还帮助我们将整个电信行业转化为一种与云计算类似的计算平台。此外,Coolitho计算光刻平台也是一个很好的例子,它极大地提升了芯片制造过程中计算最密集的部分——掩模制作的效率。台积电等公司已经开始使用Coolitho进行生产,不仅显著节省了能源,而且大幅降低了成本。他们的目标是通过加速技术栈,为算法的更进一步发展和制造更深更窄的晶体管所需的庞大计算能力做好准备。

2、AI开启新时代计算变革

CUDA已经达到了一个人们所称的临界点,但现实情况比这要好。CUDA已经实现一个良性的发展循环。回顾历史和各种计算架构、平台的发展,我们可以发现这样的循环并不常见。以微处理器CPU为例,它已经存在了60年,但其加速计算的方式在这漫长的岁月里并未发生根本性改变。

要创建一个新的计算平台往往面临着“先有鸡还是先有蛋”的困境。没有开发者的支持,平台很难吸引用户;而没有用户的广泛采用,又难以形成庞大的安装基础来吸引开发者。这个困境在过去20年中一直困扰着多个计算平台的发展。

然而,通过持续不断地推出特定领域的库和加速库,我们成功打破了这一困境。如今,我们已在全球拥有500万开发者,他们利用CUDA技术服务于从医疗保健、金融服务到计算机行业、汽车行业等几乎每一个主要行业和科学领域。

随着客户群的不断扩大,OEM和云服务提供商也开始对我们的系统产生兴趣,这进一步推动了更多系统进入市场。这种良性循环为我们创造了巨大的机遇,使我们能够扩大规模,增加研发投入,从而推动更多应用的加速发展。

每一次应用的加速都意味着计算成本的显著降低。正如我之前展示的,100倍的加速可以带来高达97.96%,即接近98%的成本节省。随着我们将计算加速从100倍提升至200倍,再飞跃至1000倍,计算的边际成本持续下降,展现出了令人瞩目的经济效益。

当然,我们相信,通过显著降低计算成本,市场、开发者、科学家和发明家将不断发掘出消耗更多计算资源的新算法。直至某个时刻,一种深刻的变革将悄然发生。当计算的边际成本变得如此低廉时,全新的计算机使用方式将应运而生。

事实上,这种变革正在我们眼前上演。过去十年间,我们利用特定算法将计算的边际成本降低了惊人的100万倍。如今,利用互联网上的所有数据来训练大语言模型已成为一种合乎逻辑且理所当然的选择,不再受到任何质疑。

这个想法——打造一台能够处理海量数据以自我编程的计算机——正是人工智能崛起的基石。人工智能的崛起之所以成为可能,完全是因为我们坚信,如果我们让计算变得越来越便宜,总会有人找到巨大的用途。如今,CUDA的成功已经证明了这一良性循环的可行性。

随着安装基础的持续扩大和计算成本的持续降低,越来越多的开发者得以发挥他们的创新潜能,提出更多的想法和解决方案。这种创新力推动了市场需求的激增。现在我们正站在一个重大转折点上。然而,在我进一步展示之前,我想强调的是,如果不是CUDA和现代人工智能技术——尤其是生成式人工智能的突破,以下我所要展示的内容将无法实现。

这就是“地球2号”项目——一个雄心勃勃的设想,旨在创建地球的数字孪生体。我们将模拟整个地球的运行,以预测其未来变化。通过这样的模拟,我们可以更好地预防灾难,更深入地理解气候变化的影响,从而让我们能够更好地适应这些变化,甚至现在就开始改变我们的行为和习惯。

“地球2号”项目可能是世界上最具挑战性、最雄心勃勃的项目之一。我们每年都在这个领域取得显著的进步,而今年的成果尤为突出。现在,请允许我为大家展示这些令人振奋的进展。

在不远的将来,我们将拥有持续的天气预报能力,覆盖地球上的每一平方公里。你将始终了解气候将如何变化,这种预测将不断运行,因为我们训练了人工智能,而人工智能所需的能量又极为有限。这将是一个令人难以置信的成就。

3、ChatGPT揭示了生成式AI的无限潜能

更为重要的智慧在于我们退后一步,深入理解了深度学习的本质。它的基础是什么?它的长期影响是什么?它的潜力是什么?我们意识到,这项技术拥有巨大的潜力,能够继续扩展几十年前发明和发现的算法,结合更多的数据、更大的网络和至关重要的计算资源,深度学习突然间能够实现人类算法无法企及的任务。

现在,想象一下,如果我们进一步扩大架构,拥有更大的网络、更多的数据和计算资源,将会发生什么?因此,我们致力于重新发明一切。自2012年以来,我们改变了GPU的架构,增加了张量核心,发明了NV-Link,推出了cuDNN、TensorRT、Nickel,还收购了Mellanox,推出了Triton推理服务器。

这些技术集成在一台全新的计算机上,它超越了当时所有人的想象。没有人预料到,没有人提出这样的需求,甚至没有人理解它的全部潜力。事实上,我自己也不确定是否会有人会想买它。

但在GTC大会上,我们正式发布了这项技术。旧金山一家名叫OpenAI的初创公司迅速注意到了我们的成果,并请求我们提供一台设备。我亲自为OpenAI送去了世界上首台人工智能超级计算机DGX。

2016年,我们持续扩大研发规模。从单一的人工智能超级计算机,单一的人工智能应用,扩大到在2017年推出了更为庞大且强大的超级计算机。随着技术的不断进步,世界见证了Transformer的崛起。这一模型的出现,使我们能够处理海量的数据,并识别和学习在长时间跨度内连续的模式。

如今,我们有能力训练这些大语言模型,以实现自然语言理解方面的重大突破。但我们并未止步于此,我们继续前行,构建了更大的模型。到了2022年11月,在极为强大的人工智能超级计算机上,我们使用数万颗英伟达GPU进行训练。

仅仅5天后,OpenAI宣布ChatGPT已拥有100万用户。这一惊人的增长速度,在短短两个月内攀升至1亿用户,创造了应用历史上最快的增长记录。其原因十分简单——ChatGPT的使用体验便捷而神奇。

用户能够与计算机进行自然、流畅的互动,仿佛与真人交流一般。无需繁琐的指令或明确的描述,ChatGPT便能理解用户的意图和需求。

直至ChatGPT的问世,它才真正向世界揭示了生成式人工智能的无限潜能。长久以来,人工智能的焦点主要集中在感知领域,如自然语言理解、计算机视觉和语音识别,这些技术致力于模拟人类的感知能力。但ChatGPT带来了质的飞跃,它不仅仅局限于感知,而是首次展现了生成式人工智能的力量。

它会逐个生成Token,这些Token可以是单词、图像、图表、表格,甚至是歌曲、文字、语音和视频。Token可以代表任何具有明确意义的事物,无论是化学物质、蛋白质、基因,还是之前我们提到的天气模式。

这种生成式人工智能的崛起意味着,我们可以学习并模拟物理现象,让人工智能模型理解并生成物理世界的各种现象。我们不再局限于缩小范围进行过滤,而是通过生成的方式探索无限可能。

如今,我们几乎可以为任何有价值的事物生成Token,无论是汽车的转向盘控制、机械臂的关节运动,还是我们目前能够学习的任何知识。因此,我们所处的已不仅仅是一个人工智能时代,而是一个生成式人工智能引领的新纪元。

更重要的是,这台最初作为超级计算机出现的设备,如今已经演化为一个高效运转的人工智能数据中心。它不断地产出,不仅生成Token,更是一个创造价值的人工智能工厂。这个人工智能工厂正在生成、创造和生产具有巨大市场潜力的新商品。

正如19世纪末尼古拉·特斯拉(Nikola Tesla)发明了交流发电机,为我们带来了源源不断的电子,英伟达的人工智能生成器也正在源源不断地产生具有无限可能性的Token。这两者都有巨大的市场机会,有望在每个行业掀起变革。这确实是一场新的工业革命!

我们现在迎来了一个全新的工厂,能够为各行各业生产出前所未有的、极具价值的新商品。这一方法不仅极具可扩展性,而且完全可重复。请注意,目前,每天都在不断涌现出各种各样的人工智能模型,尤其是生成式人工智能模型。如今,每个行业都竞相参与其中,这是前所未有的盛况。

价值3万亿美元的IT行业,即将催生出能够直接服务于100万亿美元产业的创新成果。它不再仅仅是信息存储或数据处理的工具,而是每个行业生成智能的引擎。这将成为一种新型的制造业,但它并非传统的计算机制造业,而是利用计算机进行制造的全新模式。这样的变革以前从未发生过,这确实是一件令人瞩目的非凡之事。

4、NVIDIA NIM有望颠覆计算机行业

对于我们所在的行业而言,这场变革的影响同样深远。正如我之前所言,这是过去六十年来的首次,计算的每一层都正在发生变革。从CPU的通用计算到GPU的加速计算,每一次变革都标志着技术的飞跃。

过去,计算机需要遵循指令执行操作,而现在,它们更多地是处理LLM(大语言模型)和人工智能模型。过去的计算模型主要基于检索,几乎每次你使用手机时,它都会为你检索预先存储的文本、图像或视频,并根据推荐系统重新组合这些内容呈现给你。

但在未来,你的计算机会尽可能多地生成内容,只检索必要的信息,因为生成数据在获取信息时消耗的能量更少。而且,生成的数据具有更高的上下文相关性,能更准确地反映你的需求。当你需要答案时,不再需要明确指示计算机“给我获取那个信息”或“给我那个文件”,只需简单地说:“给我一个答案。”

此外,计算机不再仅仅是我们使用的工具,它开始生成技能。它执行任务,而不再是一个生产软件的行业,这在90年代初是一个颠覆性的观念。记得吗?微软提出的软件打包理念彻底改变了PC行业。没有打包软件,我们的PC将失去大部分功能。这一创新推动了整个行业的发展。

现在我们有了新工厂、新计算机,而在这个基础上运行的是一种新型软件——我们称之为Nim(NVIDIA Inference Microservices)。在这个新工厂中运行的Nim是一个预训练模型,它是一个人工智能。

这个人工智能本身相当复杂,但运行人工智能的计算堆栈更是复杂得令人难以置信。当你使用ChatGPT这样的模型时,其背后是庞大的软件堆栈。这个堆栈复杂而庞大,因为模型拥有数十亿到数万亿个参数,且不仅在一台计算机上运行,而是在多台计算机上协同工作。

为了最大化效率,系统需要将工作负载分配给多个GPU,进行各种并行处理,如张量并行、管道并行、数据并行和专家并行。这样的分配是为了确保工作能尽快完成,因为在一个工厂中,吞吐量直接关系到收入、服务质量和可服务的客户数量。如今,我们身处一个数据中心吞吐量利用率至关重要的时代。

用户只需下载Nim,并在支持CUDA的计算机上运行,即可轻松部署和管理人工智能服务。如今,CUDA已无处不在,它支持各大云服务提供商,几乎所有计算机制造商都提供CUDA支持,甚至在数亿台PC中也能找到它的身影。

当你下载Nim时,即刻拥有一个人工智能助手,它能如与ChatGPT对话般流畅交流。现在,所有的软件都已精简并整合在一个容器中,原先繁琐的400个依赖项全部集中优化。我们对Nim进行了严格的测试,每个预训练模型都在我们的云端基础设施上得到了全面测试,包括Pascal、Ampere乃至最新的Hopper等不同版本的GPU。这些版本种类繁多,几乎覆盖了所有需求。

Nim的发明无疑是一项壮举,它是我最引以为傲的成就之一。如今,我们有能力构建大语言模型和各种预训练模型,这些模型涵盖了语言、视觉、图像等多个领域,还有针对特定行业如医疗保健和数字生物学的定制版本。

5、英伟达在数字人技术领域已取得显著进展

当我们谈论与大型人工智能服务的交互时,目前我们已经可以通过文本和语音提示来实现。但展望未来,我们更希望以更人性化的方式——即数字人,来进行互动。英伟达在数字人技术领域已经取得了显著的进展。

数字人不仅具有成为出色交互式代理的潜力,它们还更加吸引人,并可能展现出更高的同理心。然而,要跨越这个令人难以置信的鸿沟,使数字人看起来和感觉更加自然,我们仍需付出巨大的努力。这不仅是我们的愿景,更是我们不懈追求的目标。

ACE(Avatar Cloud Engine,英伟达数字人技术)不仅能在云端高效运行,同时也兼容PC环境。我们前瞻性地将Tensor Core GPU集成到所有RTX系列中,这标志着人工智能GPU的时代已经到来,我们为此做好了充分准备。

背后的逻辑十分清晰:要构建一个新的计算平台,必须先奠定坚实的基础。有了坚实的基础,应用程序自然会随之涌现。如果缺乏这样的基础,那么应用程序便无从谈起。所以,只有当我们构建了它,应用程序的繁荣才有可能实现。

因此,我们在每一款RTX GPU中都集成了Tensor Core处理单元,目前全球已有1亿台GeForce RTX AI PC投入使用,而且这个数字还在不断增长,预计将达到2亿台。在最近的Computex展会上,我们更是推出了四款全新的人工智能笔记本电脑。

这些设备都具备运行人工智能的能力。未来的笔记本电脑和PC将成为人工智能的载体,它们将在后台默默地为你提供帮助和支持。同时,这些PC还将运行由人工智能增强的应用程序,无论你是进行照片编辑、写作还是使用其他工具,都将享受到人工智能带来的便利和增强效果。

此外,你的PC还将能够托管带有人工智能的数字人类应用程序,让人工智能以更多样化的方式呈现并在PC上得到应用。显然,PC将成为至关重要的人工智能平台。那么,接下来我们将如何发展呢?

之前我谈到了我们数据中心的扩展,每次扩展都伴随着新的变革。当我们从DGX扩展到大型人工智能超级计算机时,我们实现了Transformer在巨大数据集上的高效训练。这标志着一个重大的转变:一开始,数据需要人类的监督,通过人类标记来训练人工智能。然而,人类能够标记的数据量是有限的。现在,随着Transformer的发展,无监督学习成为可能。

如今,Transformer能够自行探索海量的数据、视频和图像,从中学习并发现隐藏的模式和关系。为了推动人工智能向更高层次发展,下一代人工智能需要根植于物理定律的理解,但大多数人工智能系统缺乏对物理世界的深刻认识。为了生成逼真的图像、视频、3D图形,以及模拟复杂的物理现象,我们急需开发基于物理的人工智能,这要求它能够理解并应用物理定律。

在实现这一目标的过程中,有两个主要方法。首先,通过从视频中学习,人工智能可以逐步积累对物理世界的认知。其次,利用合成数据,我们可以为人工智能系统提供丰富且可控的学习环境。此外,模拟数据和计算机之间的互相学习也是一种有效的策略。这种方法类似于AlphaGo的自我对弈模式,让两个相同能力的实体长时间相互学习,从而不断提升智能水平。因此,我们可以预见,这种类型的人工智能将在未来逐渐崭露头角。

6、Blackwell全面投产,八年间算力增长1000倍

当人工智能数据通过合成方式生成,并结合强化学习技术时,数据生成的速率将得到显著提升。随着数据生成的增长,对计算能力的需求也将相应增加。我们即将迈入一个新时代,在这个时代中,人工智能将能够学习物理定律,理解并基于物理世界的数据进行决策和行动。因此,我们预计人工智能模型将继续扩大,对GPU性能的要求也将越来越高。

为满足这一需求,Blackwell应运而生。这款GPU专为支持新一代人工智能设计,拥有几项关键技术。这种芯片尺寸之大在业界首屈一指。我们采用了两片尽可能大的芯片,通过每秒10太字节的高速链接,结合世界上最先进的SerDes(高性能接口或连接技术)将它们紧密连接在一起。进一步地,我们将两片这样的芯片放置在一个计算机节点上,并通过Grace CPU进行高效协调。

Grace CPU的用途广泛,不仅适用于训练场景,还在推理和生成过程中发挥关键作用,如快速检查点和重启。此外,它还能存储上下文,让人工智能系统拥有记忆,并能理解用户对话的上下文,这对于增强交互的连续性和流畅性至关重要。

我们推出的第二代Transformer引擎进一步提升了人工智能的计算效率。这款引擎能够根据计算层的精度和范围需求,动态调整至较低的精度,从而在保持性能的同时降低能耗。同时,Blackwell GPU还具备安全人工智能功能,确保用户能够要求服务提供商保护其免受盗窃或篡改。

对于大型超级计算机来说,可靠性尤为关键。拥有10,000个GPU的超级计算机的平均故障间隔时间可能以小时为单位,但当GPU数量增加至100,000个时,平均故障间隔时间将缩短至以分钟为单位。因此,为了确保超级计算机能够长时间稳定运行,以训练那些可能需要数个月时间的复杂模型,我们必须通过技术创新来提高可靠性。而可靠性的提升不仅能够增加系统的正常运行时间,还能有效降低成本。

最后,我们还在Blackwell GPU中集成了先进的解压缩引擎。在数据处理方面,解压缩速度至关重要。通过集成这一引擎,我们可以从存储中拉取数据的速度比现有技术快20倍,从而极大地提升了数据处理效率。

Blackwell GPU的上述功能特性使其成为一款令人瞩目的产品。在之前的GTC大会上,我曾向大家展示了处于原型状态的Blackwell。而现在,我们很高兴地宣布,这款产品已经投入生产。

那么,Blackwell究竟是什么呢?它的性能之强大,简直令人难以置信。请仔细观察这些数据。在短短八年内,我们的计算能力、浮点运算以及人工智能浮点运算能力增长了1000倍。这速度,几乎超越了摩尔定律在最佳时期的增长。

Blackwell计算能力的增长简直惊人。而更值得一提的是,每当我们的计算能力提高时,成本却在不断下降。让我给你们展示一下。我们通过提升计算能力,用于训练GPT-4模型(2万亿参数和8万亿Token)的能量下降了350倍。

想象一下,如果使用Pascal进行同样的训练,它将消耗高达1000吉瓦时的能量。这意味着需要一个吉瓦数据中心来支持,但世界上并不存在这样的数据中心。即便存在,它也需要连续运行一个月的时间。而如果是一个100兆瓦的数据中心,那么训练时间将长达一年。

显然,没有人愿意或能够创造这样的数据中心。这就是为什么八年前,像ChatGPT这样的大语言模型对我们来说还是遥不可及的梦想。但如今,我们通过提升性能并降低能耗实现了这一目标。

我们利用Blackwell将原本需要高达1000吉瓦时的能量降低到仅需3吉瓦时,这一成就无疑是令人震惊的突破。想象一下,使用1000个GPU,它们所消耗的能量竟然只相当于一杯咖啡的热量。而10,000个GPU,更是只需短短10天左右的时间就能完成同等任务。八年间取得的这些进步,简直令人难以置信。

Blackwell不仅适用于推理,其在Token生成性能上的提升更是令人瞩目。在Pascal时代,每个Token消耗的能量高达17,000焦耳,这大约相当于两个灯泡运行两天的能量。而生成一个GPT-4的Token,几乎需要两个200瓦特的灯泡持续运行两天。考虑到生成一个单词大约需要3个Token,这确实是一个巨大的能量消耗。

然而,现在的情况已经截然不同。Blackwell使得生成每个Token只需消耗0.4焦耳的能量,以惊人的速度和极低的能耗进行Token生成。这无疑是一个巨大的飞跃。但即使如此,我们仍不满足。为了更大的突破,我们必须建造更强大的机器。

这就是我们的DGX系统,Blackwell芯片将被嵌入其中。这款系统采用空气冷却技术,内部配备了8个这样的GPU。看看这些GPU上的散热片,它们的尺寸之大令人惊叹。整个系统功耗约为15千瓦,完全通过空气冷却实现。这个版本兼容X86,并已应用于我们已发货的服务器中。

然而,如果你更倾向于液体冷却技术,我们还有一个全新的系统——MGX。它基于这款主板设计,我们称之为“模块化”系统。MGX系统的核心在于两块Blackwell芯片,每个节点都集成了四个Blackwell芯片。它采用了液体冷却技术,确保了高效稳定的运行。

整个系统中,这样的节点共有九个,共计72个GPU,构成了一个庞大的计算集群。这些GPU通过全新的NV链接技术紧密相连,形成了一个无缝的计算网络。NV链接交换机堪称技术奇迹。它是目前世界上最先进的交换机,数据传输速率令人咋舌。这些交换机使得每个Blackwell芯片高效连接,形成了一个巨大的72 GPU集群。

这一集群的优势何在?首先,在GPU域中,它现在表现得就像一个单一的、超大规模的GPU。这个“超级GPU”拥有72个GPU的核心能力,相较于上一代的8个GPU,性能提升了9倍。同时,带宽增加了18倍,AI FLOPS(每秒浮点运算次数)更是提升了45倍,而功率仅增加了10倍。也就是说,一个这样的系统能提供100千瓦的强劲动力,而上一代仅为10千瓦。

当然,你还可以将更多的这些系统连接在一起,形成更庞大的计算网络。但真正的奇迹在于这个NV链接芯片,随着大语言模型的日益庞大,其重要性也日益凸显。因为这些大语言模型已经不适合单独放在一个GPU或节点上运行,它们需要整个GPU机架的协同工作。就像我刚才提到的那个新DGX系统,它能够容纳参数达到数十万亿的大语言模型。

7、英伟达将推出Blackwell的下一代平台Rubin

Blackwell,作为NVIDIA平台的第一代产品,自推出以来便备受瞩目。如今,全球范围内都迎来了生成式人工智能的时代,这是一个全新的工业革命的开端,每个角落都在意识到人工智能工厂的重要性。我们深感荣幸,获得了来自各行各业的广泛支持,包括每一家OEM(原始设备制造商)、电脑制造商、CSP(云服务提供商)、GPU云、主权云以及电信公司等。

Blackwell的成功、广泛的采用以及行业对其的热情都达到了前所未有的高度,这让我们深感欣慰,并在此向大家表示衷心的感谢。然而,我们的脚步不会因此而停歇。在这个飞速发展的时代,我们将继续努力提升产品性能,降低培训和推理的成本,同时不断扩展人工智能的能力,使每一家企业都能从中受益。我们坚信,随着性能的提升,成本将进一步降低。而Hopper平台,无疑可能是历史上最成功的数据中心处理器。

英伟达始终坚持每年一次的更新节奏。我们的核心理念非常明确:1)构建覆盖整个数据中心规模的解决方案;2)将这些解决方案分解为各个部件,以每年一次的频率向全球客户推出;3)我们不遗余力地将所有技术推向极限,无论是台积电的工艺技术、封装技术、内存技术,还是光学技术等,我们都追求极致的性能表现。

在完成硬件的极限挑战后,我们将全力以赴确保所有软件都能在这个完整的平台上顺畅运行。在计算机技术中,软件惯性至关重要。当我们的计算机平台能够向后兼容,且架构上与已有软件完美契合时,产品的上市速度将显著提升。因此,当Blackwell平台问世时,我们能够充分利用已构建的软件生态基础,实现惊人的市场响应速度。明年,我们将迎来Blackwell Ultra。

正如我们曾推出的H100和H200系列一样,Blackwell Ultra也将引领新一代产品的热潮,带来前所未有的创新体验。同时,我们将继续挑战技术的极限,推出下一代频谱交换机,这是行业内的首次尝试。这一重大突破已经成功实现,尽管我现在对于公开这个决定还心存些许犹豫。

在英伟达内部,我们习惯于使用代码名并保持一定的保密性。很多时候,连公司内部的大多数员工都不甚了解这些秘密。然而,我们的下一代平台已被命名为Rubin。关于Rubin,我不会在此过多赘述。我深知大家的好奇心,但请允许我保持一些神秘感。你们或许已经迫不及待想要拍照留念,或是仔细研究那些小字部分,那就请随意吧。

我们不仅有Rubin平台,一年后还将推出Rubin Ultra平台。在此展示的所有芯片都处于全面开发阶段,确保每一个细节都经过精心打磨。我们的更新节奏依然是一年一次,始终追求技术的极致,同时确保所有产品都保持100%的架构兼容性。

8、机器人技术不再遥不可及

接下来,让我们谈谈人工智能与机器人相结合的未来。

物理人工智能正引领人工智能领域的新浪潮,它们深谙物理定律,并能自如地融入我们的日常生活。为此,物理人工智能不仅需要构建一个精准的世界模型,以理解如何解读和感知周围世界,更需具备卓越的认知能力,以深刻理解我们的需求并高效执行任务。

展望未来,机器人技术将不再是一个遥不可及的概念,而是日益融入我们的日常生活。当提及机器人技术时,人们往往会联想到人形机器人,但实际上,它的应用远不止于此。机械化将成为常态,工厂将全面实现自动化,机器人将协同工作,制造出一系列机械化产品。它们之间的互动将更加密切,共同创造出一个高度自动化的生产环境。

为了实现这一目标,我们需要克服一系列技术挑战。接下来,我将通过视频展示这些前沿技术。

这不仅仅是对未来的展望,它正逐步成为现实。

我们将通过多种方式服务市场。首先,我们致力于为不同类型的机器人系统打造平台:机器人工厂与仓库专用平台、物体操纵机器人平台、移动机器人平台,以及人形机器人平台。这些机器人平台与我们其他众多业务一样,依托于计算机加速库和预训练模型。

我们运用计算机加速库、预训练模型,并在Omniverse中进行全方位的测试、训练和集成。正如视频所示,Omniverse是机器人学习如何更好地适应现实世界的地方。当然,机器人仓库的生态系统极为复杂,需要众多公司、工具和技术来共同构建现代化的仓库。如今,仓库正逐步迈向全面机械化,终有一天将实现完全自动化。

在这样一个生态系统中,我们为软件行业、边缘人工智能行业和公司提供了SDK和API接口,同时也为PLC和机器人系统设计了专用系统,以满足国防部等特定领域的需求。这些系统通过集成商整合,最终为客户打造高效、智能的仓库。举个例子,Ken Mac正在为Giant Giant集团构建一座机器人仓库。

接下来,让我们聚焦工厂领域。工厂的生态系统截然不同。以富士康为例,他们正在建设世界上一些最先进的工厂。这些工厂的生态系统同样涵盖了边缘计算机、机器人软件,用于设计工厂布局、优化工作流程、编程机器人,以及用于协调数字工厂和人工智能工厂的PLC计算机。我们同样为这些生态系统中的每一个环节提供了SDK接口。

这样的变革正在全球范围内上演。富士康和Delta正为其工厂构建数字孪生设施,实现现实与数字的完美融合,而Omniverse在其中扮演了至关重要的角色。同样值得一提的是,和硕与Wistron也在紧随潮流,为各自的机器人工厂建立数字孪生设施。

机器人技术和物理人工智能的时代已经到来,它们正在各地被广泛应用,这并非科幻,而是现实,令人倍感振奋。展望未来,工厂内的机器人将成为主流,它们将制造所有的产品,其中两个高产量机器人产品尤为引人注目。首先是自动驾驶汽车或具备高度自主能力的汽车,英伟达再次凭借其全面的技术堆栈在这一领域发挥了核心作用。明年,我们计划与梅赛德斯-奔驰车队携手,随后在2026年与捷豹路虎(JLR)车队合作。我们提供完整的解决方案堆栈,但客户可根据需求选择其中的任何部分或层级,因为整个驱动堆栈都是开放和灵活的。

接下来,另一个可能由机器人工厂高产量制造的产品是人形机器人。近年来,在认知能力和世界理解能力方面取得了巨大突破,这一领域的发展前景令人期待。我对人形机器人特别兴奋,因为它们最有可能适应我们为人类所构建的世界。

与其他类型的机器人相比,训练人形机器人需要大量的数据。由于我们拥有相似的体型,通过演示和视频能力提供的大量训练数据将极具价值。因此,我们预计这一领域将取得显著的进步。

机器人时代已经来临,这是人工智能的下一波浪潮。中国台湾制造的计算机种类繁多,既有配备键盘的传统机型,也有小巧轻便、便于携带的移动设备,以及为云端数据中心提供强大算力的专业设备。但展望未来,我们将见证一个更为激动人心的时刻——制造会走路、四处滚动的计算机,即智能机器人。

这些智能机器人与我们所熟知的计算机在技术上有着惊人的相似性,它们都是基于先进的硬件和软件技术构建的。因此,我们有理由相信,这将是一段真正非凡的旅程!

■ 
                                                                                         
相关内容
+
 

读者评论
OR

 

分享:
每日头条
OR
+
最新资讯
OR
+
热门排行榜
OR
+
OR品牌理念
+

■ 或者,  留一段影像,回一曲挂牵。丝丝入扣、暖暖心灵 ,需飘过的醇厚与共。
■ 或者,热烈空雨伴芬芳泥土;绿绿生命缠锐意骄阳。
回望,回望,一马平川红酒飘散断归途。
■ 或者,灰蒙蒙空气重回道指一万四千点。滚动时光,照进现实,流逝过往,回归未来。

■ OR 新媒体是一个提供时政、经济、文化、科技等多领域资讯的平台,旨在为用户提供优质的阅读体验。网站的网址是oror.vip,用户可以通过浏览器在台式电脑 、笔记本电脑 、平板电脑 、手机访问。.......