OR 新媒体｜oror.vip｜跨平台阅读首选

2025-02-26 07:22

科技

中国全力投入，DeepSeek 急于推出新的 AI 模型
+ 查看更多

消息人士称 DeepSeek 可能会在 5 月之前发布下一代 R2 模型。

Eduardo Baptista 、 Julie Zhu和Fanny Potkin

■

DeepSeek 正在寻求进一步扩大其优势。

上个月，这家中国初创公司凭借其低价的人工智能推理模型引发了全球股市逾 1 万亿美元的抛售，其表现优于许多西方竞争对手。

据三位知情人士透露，目前这家总部位于杭州的公司正在加速推出 1 月份 R1 车型的后续车型。

其中两位表示，Deepseek 原本计划在 5 月初发布 R2，但现在希望尽早发布，但没有提供具体细节。

该公司表示，希望新模型能够产生更好的编码，并能够推理除英语以外的语言。R2 的发布时间表的加速细节此前尚未报道过。

DeepSeek 尚未回应对此事发表评论的请求。

竞争对手仍在消化 R1 的影响，它采用性能较弱的 Nvidia 芯片打造，但与美国科技巨头耗资数千亿美元开发的芯片相比仍具有竞争力。

印度科技服务提供商 Zensar 的首席运营官 Vijayasimha Alilughatta 表示：“DeepSeek 推出 R2 模型可能成为人工智能行业的一个关键时刻。”DeepSeek 在创建具有成本效益的人工智能模型方面取得的成功“可能会促使世界各地的公司加快自己的努力……打破该领域少数主导者的束缚，”他说。

R2可能会让美国政府感到担忧，因为美国政府已将人工智能的领导力列为国家优先事项。它的发布可能会进一步激励中国当局和企业，其中数十家企业表示已开始将 DeepSeek 模型集成到其产品中。
关于 DeepSeek 的信息很少，其创始人梁文峰通过其量化对冲基金 High-Flyer 成为亿万富翁。梁文峰被前雇主描述为“低调内向”，自 2024 年 7 月以来就没有接受过任何媒体采访。

路透社采访了十几名前雇员以及熟悉 DeepSeek 及其母公司 High-Flyer 运营的量化基金专业人士。它还查阅了官方媒体文章、这些公司的社交媒体帖子以及可追溯到 2019 年的研究论文。

他们讲述了这样一个故事：这家公司的运作方式更像一个研究实验室，而不是一个盈利性企业，而且不受中国高压科技行业等级传统的束缚，尽管它促成了许多投资者眼中人工智能领域的最新突破。

不同的道路

梁先生于 1985 年出生于广东省南部的一个农村。后来，他在精英大学浙江大学获得了通信工程学位。

他的第一份工作是管理上海一家智能成像公司的研究部门。2 月 9 日，当时的老板周朝恩对国家媒体表示，梁先生聘请了获奖算法工程师，并采用“扁平管理风格”进行运营。

在 DeepSeek 和 High-Flyer，梁小军同样避开了中国科技巨头的做法。中国科技巨头的做法是自上而下的严格管理、年轻员工的低工资和“996”（每周工作六天，从早上 9 点到晚上 9 点）。

梁先生在北京开设的办公室距离中国两所最负盛名的教育机构清华大学和北京大学仅几步之遥。据两名前员工称，梁先生经常深入研究技术细节，并乐于与占员工大部分的 Z 世代实习生和应届毕业生一起工作。他们还描述了通常在协作氛围中每天工作八小时的情况。

“Liang 把控制权交给了我们，并把我们当成专家。他不断提出问题，并和我们一起学习，”今年 9 月离开公司的 26 岁研究员 Benjamin Liu 说道。“DeepSeek 让我掌控了流程的关键部分，这非常令人兴奋。”

梁没有回应通过 DeepSeek 发送的问题。

当百度和其他中国科技巨头竞相在 2023 年打造面向消费者的 ChatGPT 版本并从全球人工智能热潮中获利时，梁文鋒去年告诉中国媒体 Waves，他有意避免在应用程序开发上投入巨资，而是专注于提高人工智能模型的质量。

据三位了解 DeepSeek 薪酬情况的人士称，这两家公司都以薪酬丰厚而闻名。其中一位知情人士表示，在 High-Flyer，高级数据科学家的年薪 150 万元人民币并不罕见，而竞争对手的薪酬很少超过 80 万元人民币。这位知情人士是 High-Flyer 的量化基金经理，他认识梁。

据两位业内人士透露，这笔巨额资金由High-Flyer提供，该公司已成为中国最成功的量化基金之一，即使在政府对该行业进行打击之后，仍管理着数百亿元人民币的资金。

计算能力

三位知情人士表示，DeepSeek 凭借低成本 AI 模型取得的成功，得益于 High-Flyer 十年来对研究和计算能力的大量投资。

该量化基金是人工智能交易的早期先驱，一位高管在 2020 年表示，High-Flyer 将“全力投入”人工智能，将其 70% 的收入重新投资于人工智能研究。

High-Flyer在2020年和2021年斥资12亿元人民币建设了两个超级计算AI集群。第二个集群Fire-Flyer II由约10,000个Nvidia A100芯片组成，用于训练AI模型。

一位了解官员想法的人士表示，当时 DeepSeek 尚未成立，因此计算能力的积累引起了中国证券监管机构的注意。

“监管机构想知道他们为什么需要这么多芯片？”该人士说。“他们将如何使用这些芯片？这会对市场产生什么样的影响？”

当局决定不进行干预，此举对 DeepSeek 的命运至关重要：美国在 2022 年禁止向中国出口 A100 芯片，而此时 Fire-Flyer II 已经投入运营。

据一位了解中国官方想法的人士透露，北京方面现在对 DeepSeek 表示赞赏，但已指示其未经批准不得与媒体接触。

这位知情人士说，有关部门要求梁某保持低调，因为他们担心媒体过度炒作会引起不必要的关注。

中国政府网、商务部以及中国证监会尚未回应置评请求。

两名前员工表示，作为少数拥有大型 A100 集群的公司之一，High-Flyer 和 DeepSeek 能够吸引一些中国最优秀的研究人才。

前员工刘说：“庞大的计算资源的关键优势在于它可以进行大规模实验。”

一些西方人工智能企业家，如Scale AI首席执行官Alexandr Wang，声称DeepSeek拥有多达5万块被禁止出口到中国的高端Nvidia芯片。他没有为这一指控提供证据，也没有回应路透社的提供证据请求。

DeepSeek 尚未对王的说法做出回应。两名前员工将公司的成功归功于梁志强对更具成本效益的 AI 架构的关注。

其研究论文显示，该初创公司使用了混合专家（MoE）和多头潜在注意力（MLA）等技术，这些技术的计算成本要低得多。

MoE 技术将 AI 模型划分为不同的专业领域，并仅激活与查询相关的领域，而不是使用整个模型的更常见架构。

MLA 架构允许模型同时处理一条信息的不同方面，帮助其更有效地检测关键细节。

尽管法国 Mistral 等竞争对手已经开发了基于 MoE 的模型，但 DeepSeek 是第一家严重依赖这种架构并实现与更昂贵模型相当的公司。

伯恩斯坦经纪公司的分析师在 2 月初估计，DeepSeek 的定价比 OpenAI 同类模型的收费便宜 20 到 40 倍。

目前，西方和中国的科技巨头已表示计划继续大力投入人工智能，但 DeepSeek 在 R1 和早期 V3 模型上的成功已促使一些公司改变策略。

OpenAI 本月降价，而谷歌的 Gemini 也推出了折扣访问层级。自 R1 推出以来，OpenAI 还发布了一款依赖较少计算能力的 O3-Mini 模型。

美国科技服务提供商 UST 的 Adnan Masood 告诉路透社，他的实验室已经进行了基准测试，发现 R1 推理时使用的令牌数（即人工智能模型处理的数据单位）通常是 OpenAI 缩小版模型的三倍。

国家拥抱

早在 R1 引起全球关注之前，就有迹象表明 DeepSeek 已获得北京的青睐。今年 1 月，报道称，梁文鋒作为人工智能领域的指定代表在北京出席了中国国务院总理李强的会议，比知名公司的领导人更早。

随后，中国模型的成本竞争力得到了极大的宣传，这让北京方面相信自己能够在创新上超越美国，中国企业和政府机构采用 DeepSeek 模型的速度是其他公司所无法比拟的。

至少有 13 个中国城市政府和 10 家国有能源公司表示已将 DeepSeek 部署到其系统中，而科技巨头联想(0992.HK)、百度（9888.HK）以及腾讯（0700.HK）中国最大的社交媒体应用程序微信的所有者 - 已将 DeepSeek 的模型集成到他们的产品中。

新加坡李光耀公共政策学院中国政策制定专家 Alfred Wu 表示，中国领导人习近平和李克强“已表示他们支持 DeepSeek。现在每个人都支持它。”

在韩国和意大利等国政府以隐私问题为由将 DeepSeek 从国家应用商店中下架之际，中国却在积极拥抱 DeepSeek。

人工智能专家、对冲基金 Carthage Capital 创始人 Stephen Wu 表示：“如果 DeepSeek 成为中国国有实体首选的人工智能模型，西方监管机构可能会将此视为加强对人工智能芯片或软件合作限制的另一个原因。”

梁先生承认，先进人工智能芯片的进一步限制是一个挑战。

7 月份，他告诉 Waves：“我们的问题从来不是资金问题，而是高端芯片的禁运问题。”

注：本文仅代表作者个人观点

■

中国全力投入，DeepSeek 急于推出新的 AI 模型
+ 查看更多

消息人士称 DeepSeek 可能会在 5 月之前发布下一代 R2 模型。

Eduardo Baptista 、 Julie Zhu和Fanny Potkin

■

DeepSeek 正在寻求进一步扩大其优势。

上个月，这家中国初创公司凭借其低价的人工智能推理模型引发了全球股市逾 1 万亿美元的抛售，其表现优于许多西方竞争对手。

据三位知情人士透露，目前这家总部位于杭州的公司正在加速推出 1 月份 R1 车型的后续车型。

DeepSeek 尚未回应对此事发表评论的请求。

竞争对手仍在消化 R1 的影响，它采用性能较弱的 Nvidia 芯片打造，但与美国科技巨头耗资数千亿美元开发的芯片相比仍具有竞争力。

不同的道路

梁先生于 1985 年出生于广东省南部的一个农村。后来，他在精英大学浙江大学获得了通信工程学位。

梁没有回应通过 DeepSeek 发送的问题。

计算能力

三位知情人士表示，DeepSeek 凭借低成本 AI 模型取得的成功，得益于 High-Flyer 十年来对研究和计算能力的大量投资。

该量化基金是人工智能交易的早期先驱，一位高管在 2020 年表示，High-Flyer 将“全力投入”人工智能，将其 70% 的收入重新投资于人工智能研究。

High-Flyer在2020年和2021年斥资12亿元人民币建设了两个超级计算AI集群。第二个集群Fire-Flyer II由约10,000个Nvidia A100芯片组成，用于训练AI模型。

一位了解官员想法的人士表示，当时 DeepSeek 尚未成立，因此计算能力的积累引起了中国证券监管机构的注意。

“监管机构想知道他们为什么需要这么多芯片？”该人士说。“他们将如何使用这些芯片？这会对市场产生什么样的影响？”

当局决定不进行干预，此举对 DeepSeek 的命运至关重要：美国在 2022 年禁止向中国出口 A100 芯片，而此时 Fire-Flyer II 已经投入运营。

据一位了解中国官方想法的人士透露，北京方面现在对 DeepSeek 表示赞赏，但已指示其未经批准不得与媒体接触。

这位知情人士说，有关部门要求梁某保持低调，因为他们担心媒体过度炒作会引起不必要的关注。

中国政府网、商务部以及中国证监会尚未回应置评请求。

两名前员工表示，作为少数拥有大型 A100 集群的公司之一，High-Flyer 和 DeepSeek 能够吸引一些中国最优秀的研究人才。

前员工刘说：“庞大的计算资源的关键优势在于它可以进行大规模实验。”

DeepSeek 尚未对王的说法做出回应。两名前员工将公司的成功归功于梁志强对更具成本效益的 AI 架构的关注。

其研究论文显示，该初创公司使用了混合专家（MoE）和多头潜在注意力（MLA）等技术，这些技术的计算成本要低得多。

MoE 技术将 AI 模型划分为不同的专业领域，并仅激活与查询相关的领域，而不是使用整个模型的更常见架构。

MLA 架构允许模型同时处理一条信息的不同方面，帮助其更有效地检测关键细节。

尽管法国 Mistral 等竞争对手已经开发了基于 MoE 的模型，但 DeepSeek 是第一家严重依赖这种架构并实现与更昂贵模型相当的公司。

伯恩斯坦经纪公司的分析师在 2 月初估计，DeepSeek 的定价比 OpenAI 同类模型的收费便宜 20 到 40 倍。

目前，西方和中国的科技巨头已表示计划继续大力投入人工智能，但 DeepSeek 在 R1 和早期 V3 模型上的成功已促使一些公司改变策略。

OpenAI 本月降价，而谷歌的 Gemini 也推出了折扣访问层级。自 R1 推出以来，OpenAI 还发布了一款依赖较少计算能力的 O3-Mini 模型。

国家拥抱

新加坡李光耀公共政策学院中国政策制定专家 Alfred Wu 表示，中国领导人习近平和李克强“已表示他们支持 DeepSeek。现在每个人都支持它。”

在韩国和意大利等国政府以隐私问题为由将 DeepSeek 从国家应用商店中下架之际，中国却在积极拥抱 DeepSeek。

梁先生承认，先进人工智能芯片的进一步限制是一个挑战。

7 月份，他告诉 Waves：“我们的问题从来不是资金问题，而是高端芯片的禁运问题。”

注：本文仅代表作者个人观点

■

读者评论
OR
+ 更多

每日头条

继DeepSeek爆火之后中国公司发布的AI代理再次挑战美国领先地位

中国全力投入，DeepSeek 急于推出新的 AI 模型+ 查看更多

中国全力投入，DeepSeek 急于推出新的 AI 模型+ 查看更多

中国全力投入，DeepSeek 急于推出新的 AI 模型
+ 查看更多

中国全力投入，DeepSeek 急于推出新的 AI 模型
+ 查看更多