ChatGPT的底层技术即将改变世界
+ 查看更多

聊天机器人只是开始，“transformer”将带来一系列重要得多的应用。我们将见证人工智能在环保、医疗、自动驾驶等诸多领域大放异彩。

Christopher Mims

■

人工智能（简称AI)革命的范围将拓展到聊天机器人以外的广阔领域。

从能够降解塑料的新型细菌到癌症新疗法，再到家务机器人和自动驾驶汽车，作为ChatGPT的驱动引擎而崭露头角的生成式AI技术即将改变我们的生活，产生比聊天机器人重要得多的突破。

在当前这波AI热潮中，我们往往把AI等同于能写、能说、能编程、能拍照的计算机，这些表达形式大都建立在一种被称为“transformer”的底层技术之上，而这种技术的应用范围比我们所想象的要广泛得多。

谷歌的研究人员在2017年发表的一篇论文中首次宣布了“transformer”这一技术，后者是一种AI算法，能让计算机理解任何数据集（无论是文字、驾驶数据，还是蛋白质中的氨基酸）的底层结构，从而自行生成类似的输出。

这种算法为OpenAI两年前推出的ChatGPT奠定了基础，现在，一系列公司正在研究如何以新方式利用这一创新，例如，Waymo尝试将其应用于无人驾驶出租车，而一家名为EvolutionaryScale的初创生物公司正在利用人工智能系统设计新的蛋白质分子。

这项突破的应用范围非常广泛，谷歌的研究发表七年以来，已被其他学术论文引用了逾14万次。

毫不夸张地说，正是由于这一系列算法，英伟达(Nvidia)现在才成为全球价值最高的公司，数据中心才会在美国和全球各地如雨后春笋般拔地而起，让电力消费和电价水涨船高，AI公司的首席执行官们也才会经常（也许是错误地）宣称，可与人类媲美的AI指日可待。

从文本翻译到万能学习者

人类的活动一直建立在确信宇宙中充满潜在秩序的理念之上 ——尽管人们对这种秩序是否源自神灵存在争议。从某种意义上说，现代AI再次验证了哥白尼以来每一位科学家的想法。

现代AI一贯擅长从信息中识别规律。但以往的方法严重限制了AI发挥的作用。以语言为例，大多数AI系统一次只能处理一个词语，而且只能按照读取顺序对词语进行评估，这就限制了AI系统理解语义的能力。

撰写2017年那篇开创性论文的谷歌研究人员聚焦语言翻译的过程。他们认识到，如果AI系统能够消化一篇文章中的所有词语，对其中一些词语的含义给予更多重视（换句话说就是结合语境阅读），就能产生更好的翻译。

例如，在“I arrived at the bank after crossing the river”（译者注：意为“我过河后到达了河岸/银行”，句中“bank”一词的释义既有河岸，也有银行）这个句子中，基于“transformer”系统的AI如果知道句子以“河”而不是“道路”结尾，就能够把“bank”译为“岸”，而不是译为“银行”。

非营利组织Allen Institute for Artificial Intelligence研究AI的科学家蒂姆·德特默斯(Tim Dettmers)表示，换句话说，“transformer”的工作原理是弄清系统接收的每一条信息与其他各条信息之间的关系。

对语境的深度理解使基于“transformer”的AI系统不仅能够识别规律，而且能够对接下来可能出现的情况作出合理预测——从而自己生成新的信息。这种能力还可以延伸到文字以外的数据。

“从某种意义上说，这些模型在发现数据的潜在结构，”EvolutionaryScale的首席科学家亚历山大·里夫斯(Alexander Rives)说。亚历山大去年与人共同创立了EvolutionaryScale，之前他在Facebook的母公司Meta Platforms从事AI领域的工作。

EvolutionaryScale正在根据该公司研究人员所掌握的每种蛋白质序列的公开数据以及现已了解的与这些蛋白质有关的信息，对AI进行训练。他的AI系统能够在无需人类工程师协助的情况下，利用这些数据来确定某种分子构件序列与由此产生的蛋白质的实际功能之间的关系。

谷歌AI业务主管德米斯·哈萨比斯(Demis Hassabis) 正是凭借就这一主题开展的较早的研究与其他科学家共同获得了2024年诺贝尔化学奖，而他们的研究更侧重蛋白质的结构而非功能。哈萨比斯及其团队所开发的名为AlphaFold的系统也基于“transformer”。

EvolutionaryScale已经开发出一个处于概念验证阶段的分子。这是一种蛋白质，功能类似于让水母发光的蛋白质，但其由AI创造的序列与自然界创造的任何序列都截然不同。

EvolutionaryScale的最终目标是让各种公司（从生产新药的制药公司到研究新型酶的合成化学公司）都能利用他们的技术研发出原本不可能生成的物质。这其中可能包括带有能消化塑料的新型酶的细菌，或针对不同病人的特定癌症量身定制的新药。

从聊天机器人到真正的变革者

卡洛尔·豪斯曼(Karol Hausman)的目标是创造出一种能够驱动任何机器人的通用AI。“我们希望建立一个模型，可以控制任何机器人完成任何任务，包括现有的所有机器人和有待开发的机器人，”他说。

豪斯曼位于旧金山的初创公司Physical Intelligence成立还不到一年时间，而豪斯曼本人曾在谷歌的AI部门DeepMind工作。他的公司一开始是做一种与访问ChatGPT时所使用模型相同的大语言模型。这些语言模型的最新版本还结合了图像，而且可以处理图像。它们是豪斯曼的机器人据以运转的关键。

在最近的一次演示中，一对由Physical Intelligence技术驱动的机械臂完成了被视为所有机器人技术中难度最高的任务之一：迭衣服。待迭的衣服可能是任何形状，要完成这项任务，需要有惊人的灵活度和敏捷度，因此，机器人专家无法事先编排出一连串的动作，准确地告诉机器人如何移动四肢来取衣服和迭衣服。

Physical Intelligence的机器人可以从烘干机中取出衣服，并将衣服迭得整整齐齐，它所使用的系统仅仅依靠消化海量数据，而不需要人类输入任何指令，便学会了如何自行完成这项任务。这项演示以及其他类似演示给人留下了深刻印象，本月早些时候，该公司从包括杰夫·贝佐斯(Jeff Bezos)和OpenAI在内的投资者处筹得4亿美元。

今年10月，麻省理工学院(Massachusetts Institute of Technology)的研究人员宣布，他们正在试图采用一项基于“transformer”的类似策略来创造机器人大脑，这种大脑可以从各种来源获取大量数据，然后在各种环境中灵活运行。举例来说，研究人员拍摄了几段普通机械臂把狗食放进碗中的视频，然后用这些视频来训练另一个由AI驱动的机器人完成类似任务。

让机器人来开车

与机器人技术领域一样，开发自动驾驶汽车的研究人员和公司也在摸索如何使用基于“transformer”的“视觉语言模型”，这种模型不仅能够处理和整合语言，而且能够处理和整合图像。

总部位于加利福尼亚州的Nuro、总部位于伦敦的Wayve，以及谷歌母公司旗下的Waymo都在使用这些模型。

这与“transformer”之前实现自动驾驶的方法不同，之前的方法是将人类编写的指令与较老的AI模型结合起来处理传感器数据，以识别道路上的物体。而基于“transformer”的新模型本质上是一种捷径，可以让自动驾驶系统获得以前很难获得的关于现实世界的一般知识。

例如，Waymo的研究人员在最近的一篇论文中展示了如何使用谷歌自己的商用AI系统Gemini，让Waymo的自动驾驶系统有能力识别和避让未对系统进行过训练的物体，例如过马路的狗。

帮助人类而不是取代人类

德特默斯说，这些系统虽然强大，但仍有局限性和不可预测性，这意味着它们无法完全取代人类的工作。

例如，作为EvolutionaryScale核心技术的AI可以为人类在实验室中尝试新分子提出建议，但人类仍需要合成和测试这些分子。基于“transformer”的模型还远不够可靠，无法完全取代人工驾驶。

另一个局限是，AI模型能达到的聪明程度要取决于训练数据。像OpenAI这样的大语言模型已经开始受到世界上现有可用书面文本数量的制约——这还是在互联网上充满大量文本的情况下。要让机器人或自动驾驶汽车以这种方式学习，就需要让它们通过大量数据来了解，在现实世界中尝试操作时会发生什么——这也是目前各大公司竞相获取此类数据的原因之一。

这些局限性在Physical Intelligence的机器人身上体现得很明显。虽然该公司的系统已经自己学会了迭衣服，但它在来你家帮你迭衣服之前，必须先根据你家的具体情况重新学习这一过程。这需要工程师投入大量时间来训练模型，还需要花费大量金钱。

“我想确保自己设定合理的期望值，”首席执行官豪斯曼说。“我们为自己的成就感到自豪，但我们仍处于起步阶段。”

注：本文仅代表作者个人观点

■