中国AI公司另辟蹊径快速追赶美国同行
+ 查看更多

尽管中国购买先进制程的芯片面临种种限制，但开发者们已经找到了变通途径。有迹象表明，中国初创企业追赶美国领先的AI模型的速度要比业内许多人预期的更快。

月之暗面创始人杨植麟曾表示，该公司正专注于强化学习，这种学习方式模仿了人类的试错过程。

Raffaele Huang，Tracy Qu

■

尽管中国购买先进制程的芯片面临种种限制，但有迹象表明，中国初创企业追赶美国领先的AI模型的速度要比业内许多人预期的更快。

DeepSeek是一家由中国最成功的对冲基金公司之一投资的初创公司，该公司在11月发布了最新大语言模型的预览版。该公司当时表示，该程序的能力优于OpenAI的推理模型“o1”，后者于9月以预览版的形式发布。

近几周，其他中国公司也作出了类似的表态。由中国互联网巨头阿里巴巴(Alibaba)和腾讯(Tencent)支持的初创公司月之暗面(Moonshot AI)表示，该公司开发了一种专门研究数学的模型，其能力接近“o1”，与此同时，阿里巴巴表示，自己的一个实验性研究模型在数学方面优于o1模型的预览版。

这些公司尚未发表描述其模型的论文，而且由于目前还没有一个公认的AI模型能力测试标准，因此很难评估这些说法。尽管如此，一些美国专家表示，他们对此印象深刻。

“中国正在加速追赶，”OpenAI前研究员、如今的AI创业者安德鲁·卡尔(Andrew Carr)说。他说，试图复制OpenAI推理模型的DeepSeek研究人员“在几个月内就搞定了，坦率地说，我的许多同事对此感到惊讶”。

其中一项用于比较的测试是美国数学邀请赛(American Invitational Mathematics Examination, 简称AIME)，该竞赛是为最聪明的高中学生举办的数学挑战赛。

DeepSeek表示，其模型在AIME测试中胜过了OpenAI的模型。《华尔街日报》(The Wall Street Journal)利用今年AIME的15道题进行的一项实验发现，OpenAI的“o1”预览版模型得出答案的速度比DeepSeek、月之暗面和阿里巴巴的实验模型更快。例如，一个假设的双人博弈问题需要用到策略来解字谜，OpenAI的程序在10秒内给出了答案，而DeepSeek花了2分多钟。

在第一次尝试时就得到正确答案仍然非常了不起，因为文字题常常难倒AI程序。

自2022年以来，中国AI开发者面临美国对其获得全球最先进制程AI芯片的限制，包括来自芯片领导者英伟达(Nvidia)的芯片。拜登(Biden)政府在12月再次收紧了出口管制规定。

但开发者们已经找到了变通途径。

在由阿里巴巴和腾讯支持的初创公司月之暗面，创始人杨植麟曾表示，该公司正专注于强化学习，这种学习方式模仿了人类的试错过程。这种方法在提高性能方面可能对计算能力的要求较低。

自去年年底以来，AI开发者越来越多地使用一种名为“专家混合”(mixture of experts, 简称MoE)的技术，在这种技术中，一个初始路由机制将问题引导给一个专门的专家模型，就像总厨将一份意大利面订单分配给厨房的意大利厨师一样。这个过程也降低了对算力的要求。

腾讯表示，该公司于11月发布的MoE模型的性能可与Facebook母公司Meta Platforms 7月份推出的Llama 3.1模型相媲美。查阅过这两家公司发表的论文的研究人员表示，腾讯的模型在训练时使用的计算能力可能是Meta的十分之一左右。

DeepSeek最初是幻方(High-Flyer)的AI研究部门，幻方是一家管理着80亿美元资产的量化对冲基金管理公司，该公司以利用AI进行交易而闻名。2021年，DeepSeek连接了大约1万个英伟达A100芯片，形成了一个用于AI训练的集群，并将其命名为“萤火二号”(Fire-Flyer 2)。

DeepSeek在今年8月发表的一篇论文中表示，“萤火二号”的性能接近于包含类似芯片的英伟达系统，但这个中国系统的成本更低，能耗也更低。DeepSeek在5月份发表的关于其MoE模型的论文在业内引起了广泛关注，该模型采用了一种更有效的数据处理技术。

“中国绕过出口管制的一种方式将是：利用其能够获得的硬件，构建极其优秀的软件和硬件训练体系，”AI初创公司Anthropic的联合创始人Jack Clark在他的博客中写道，他指的是DeepSeek的集群。“‘中国制造’将成为AI模型领域的一股潮流，就像电动汽车、无人机和其他技术一样，”他写道。

许多中国AI开发者已经找到了途径去获得受限的英伟达芯片，包括通过与中间商交易以及利用海外数据中心。

尽管如此，据中国企业高管称，缺乏尖端芯片对中国初创公司来说是痛苦的，而且这种差距还可能扩大。英伟达的客户正准备大规模部署其最新的AI数据中心芯片Blackwell。

马斯克(Elon Musk)的xAI已经建立了一个使用10万个英伟达芯片的数据中心，并且最近筹集了50亿美元用于进一步发展。Amazon Web Services计划利用数十万个自主研发的芯片，打造一台庞大的AI超级计算机。

专注于开源模型的DeepSeek强调数学和编码。月之暗面凭借其类似于ChatGPT的聊天机器人Kimi在中国消费者中获得了人气，该公司以处理长文本的能力而闻名。

中国AI初创公司的估值目前仅为OpenAI等美国公司的一小部分，因为投资者不确定它们的技术进步能否实现商业化。OpenAI最近的估值为1,570亿美元。激烈的竞争已导致AI模型供应商之间爆发价格战。

据知情人士透露，总部位于北京的智谱(Zhipu AI)已推迟了最早在2025年下半年上市的计划，此前投行人士告诉该公司，不太可能获得其期望的估值。该公司在本月进行的最新一轮融资中估值约为30亿美元。智谱在11月下旬展示了其AI智能体(AI agent)，并在7月份发布了一个类似于OpenAI的Sora的视频生成模型。

曾在北京一家AI模型公司担任AI基础设施高管的Howard Huang将中国AI行业比作戴着镣铐跳舞的人。他说：“专注于我们一直擅长的事才是生存的唯一机会，而且甚至有可能跑赢。”

注：本文仅代表作者个人观点

■