OR 新媒|oror.vip跨平台阅读首选
2024-12-25 11:56
科技

中国AI公司另辟蹊径快速追赶美国同行

尽管中国购买先进制程的芯片面临种种限制,但开发者们已经找到了变通途径。有迹象表明,中国初创企业追赶美国领先的AI模型的速度要比业内许多人预期的更快。
中国AI公司另辟蹊径快速追赶美国同行
月之暗面创始人杨植麟曾表示,该公司正专注于强化学习,这种学习方式模仿了人类的试错过程。

Raffaele Huang,Tracy Qu


尽管中国购买先进制程的芯片面临种种限制,但有迹象表明,中国初创企业追赶美国领先的AI模型的速度要比业内许多人预期的更快。

DeepSeek是一家由中国最成功的对冲基金公司之一投资的初创公司,该公司在11月发布了最新大语言模型的预览版。该公司当时表示,该程序的能力优于OpenAI的推理模型“o1”,后者于9月以预览版的形式发布。

近几周,其他中国公司也作出了类似的表态。由中国互联网巨头阿里巴巴(Alibaba)和腾讯(Tencent)支持的初创公司月之暗面(Moonshot AI)表示,该公司开发了一种专门研究数学的模型,其能力接近“o1”,与此同时,阿里巴巴表示,自己的一个实验性研究模型在数学方面优于o1模型的预览版。

这些公司尚未发表描述其模型的论文,而且由于目前还没有一个公认的AI模型能力测试标准,因此很难评估这些说法。尽管如此,一些美国专家表示,他们对此印象深刻。

“中国正在加速追赶,”OpenAI前研究员、如今的AI创业者安德鲁·卡尔(Andrew Carr)说。他说,试图复制OpenAI推理模型的DeepSeek研究人员“在几个月内就搞定了,坦率地说,我的许多同事对此感到惊讶”。

其中一项用于比较的测试是美国数学邀请赛(American Invitational Mathematics Examination, 简称AIME),该竞赛是为最聪明的高中学生举办的数学挑战赛。

DeepSeek表示,其模型在AIME测试中胜过了OpenAI的模型。《华尔街日报》(The Wall Street Journal)利用今年AIME的15道题进行的一项实验发现,OpenAI的“o1”预览版模型得出答案的速度比DeepSeek、月之暗面和阿里巴巴的实验模型更快。例如,一个假设的双人博弈问题需要用到策略来解字谜,OpenAI的程序在10秒内给出了答案,而DeepSeek花了2分多钟。

在第一次尝试时就得到正确答案仍然非常了不起,因为文字题常常难倒AI程序。

自2022年以来,中国AI开发者面临美国对其获得全球最先进制程AI芯片的限制,包括来自芯片领导者英伟达(Nvidia)的芯片。拜登(Biden)政府在12月再次收紧了出口管制规定。

但开发者们已经找到了变通途径。

在由阿里巴巴和腾讯支持的初创公司月之暗面,创始人杨植麟曾表示,该公司正专注于强化学习,这种学习方式模仿了人类的试错过程。这种方法在提高性能方面可能对计算能力的要求较低。

自去年年底以来,AI开发者越来越多地使用一种名为“专家混合”(mixture of experts, 简称MoE)的技术,在这种技术中,一个初始路由机制将问题引导给一个专门的专家模型,就像总厨将一份意大利面订单分配给厨房的意大利厨师一样。这个过程也降低了对算力的要求。

腾讯表示,该公司于11月发布的MoE模型的性能可与Facebook母公司Meta Platforms 7月份推出的Llama 3.1模型相媲美。查阅过这两家公司发表的论文的研究人员表示,腾讯的模型在训练时使用的计算能力可能是Meta的十分之一左右。

DeepSeek最初是幻方(High-Flyer)的AI研究部门,幻方是一家管理着80亿美元资产的量化对冲基金管理公司,该公司以利用AI进行交易而闻名。2021年,DeepSeek连接了大约1万个英伟达A100芯片,形成了一个用于AI训练的集群,并将其命名为“萤火二号”(Fire-Flyer 2)。

DeepSeek在今年8月发表的一篇论文中表示,“萤火二号”的性能接近于包含类似芯片的英伟达系统,但这个中国系统的成本更低,能耗也更低。DeepSeek在5月份发表的关于其MoE模型的论文在业内引起了广泛关注,该模型采用了一种更有效的数据处理技术。

“中国绕过出口管制的一种方式将是:利用其能够获得的硬件,构建极其优秀的软件和硬件训练体系,”AI初创公司Anthropic的联合创始人Jack Clark在他的博客中写道,他指的是DeepSeek的集群。“‘中国制造’将成为AI模型领域的一股潮流,就像电动汽车、无人机和其他技术一样,”他写道。

许多中国AI开发者已经找到了途径去获得受限的英伟达芯片,包括通过与中间商交易以及利用海外数据中心。

尽管如此,据中国企业高管称,缺乏尖端芯片对中国初创公司来说是痛苦的,而且这种差距还可能扩大。英伟达的客户正准备大规模部署其最新的AI数据中心芯片Blackwell。

马斯克(Elon Musk)的xAI已经建立了一个使用10万个英伟达芯片的数据中心,并且最近筹集了50亿美元用于进一步发展。Amazon Web Services计划利用数十万个自主研发的芯片,打造一台庞大的AI超级计算机。

专注于开源模型的DeepSeek强调数学和编码。月之暗面凭借其类似于ChatGPT的聊天机器人Kimi在中国消费者中获得了人气,该公司以处理长文本的能力而闻名。

中国AI初创公司的估值目前仅为OpenAI等美国公司的一小部分,因为投资者不确定它们的技术进步能否实现商业化。OpenAI最近的估值为1,570亿美元。激烈的竞争已导致AI模型供应商之间爆发价格战。

据知情人士透露,总部位于北京的智谱(Zhipu AI)已推迟了最早在2025年下半年上市的计划,此前投行人士告诉该公司,不太可能获得其期望的估值。该公司在本月进行的最新一轮融资中估值约为30亿美元。智谱在11月下旬展示了其AI智能体(AI agent),并在7月份发布了一个类似于OpenAI的Sora的视频生成模型。

曾在北京一家AI模型公司担任AI基础设施高管的Howard Huang将中国AI行业比作戴着镣铐跳舞的人。他说:“专注于我们一直擅长的事才是生存的唯一机会,而且甚至有可能跑赢。”

注:本文仅代表作者个人观点     

■ 
                                                                                         
相关内容
+
读者评论
MORE +

热门排行榜
OR
+
中国AI公司另辟蹊径快速追赶美国同行
2024-12-25 11:56
科技

中国AI公司另辟蹊径快速追赶美国同行

尽管中国购买先进制程的芯片面临种种限制,但开发者们已经找到了变通途径。有迹象表明,中国初创企业追赶美国领先的AI模型的速度要比业内许多人预期的更快。
月之暗面创始人杨植麟曾表示,该公司正专注于强化学习,这种学习方式模仿了人类的试错过程。

Raffaele Huang,Tracy Qu


尽管中国购买先进制程的芯片面临种种限制,但有迹象表明,中国初创企业追赶美国领先的AI模型的速度要比业内许多人预期的更快。

DeepSeek是一家由中国最成功的对冲基金公司之一投资的初创公司,该公司在11月发布了最新大语言模型的预览版。该公司当时表示,该程序的能力优于OpenAI的推理模型“o1”,后者于9月以预览版的形式发布。

近几周,其他中国公司也作出了类似的表态。由中国互联网巨头阿里巴巴(Alibaba)和腾讯(Tencent)支持的初创公司月之暗面(Moonshot AI)表示,该公司开发了一种专门研究数学的模型,其能力接近“o1”,与此同时,阿里巴巴表示,自己的一个实验性研究模型在数学方面优于o1模型的预览版。

这些公司尚未发表描述其模型的论文,而且由于目前还没有一个公认的AI模型能力测试标准,因此很难评估这些说法。尽管如此,一些美国专家表示,他们对此印象深刻。

“中国正在加速追赶,”OpenAI前研究员、如今的AI创业者安德鲁·卡尔(Andrew Carr)说。他说,试图复制OpenAI推理模型的DeepSeek研究人员“在几个月内就搞定了,坦率地说,我的许多同事对此感到惊讶”。

其中一项用于比较的测试是美国数学邀请赛(American Invitational Mathematics Examination, 简称AIME),该竞赛是为最聪明的高中学生举办的数学挑战赛。

DeepSeek表示,其模型在AIME测试中胜过了OpenAI的模型。《华尔街日报》(The Wall Street Journal)利用今年AIME的15道题进行的一项实验发现,OpenAI的“o1”预览版模型得出答案的速度比DeepSeek、月之暗面和阿里巴巴的实验模型更快。例如,一个假设的双人博弈问题需要用到策略来解字谜,OpenAI的程序在10秒内给出了答案,而DeepSeek花了2分多钟。

在第一次尝试时就得到正确答案仍然非常了不起,因为文字题常常难倒AI程序。

自2022年以来,中国AI开发者面临美国对其获得全球最先进制程AI芯片的限制,包括来自芯片领导者英伟达(Nvidia)的芯片。拜登(Biden)政府在12月再次收紧了出口管制规定。

但开发者们已经找到了变通途径。

在由阿里巴巴和腾讯支持的初创公司月之暗面,创始人杨植麟曾表示,该公司正专注于强化学习,这种学习方式模仿了人类的试错过程。这种方法在提高性能方面可能对计算能力的要求较低。

自去年年底以来,AI开发者越来越多地使用一种名为“专家混合”(mixture of experts, 简称MoE)的技术,在这种技术中,一个初始路由机制将问题引导给一个专门的专家模型,就像总厨将一份意大利面订单分配给厨房的意大利厨师一样。这个过程也降低了对算力的要求。

腾讯表示,该公司于11月发布的MoE模型的性能可与Facebook母公司Meta Platforms 7月份推出的Llama 3.1模型相媲美。查阅过这两家公司发表的论文的研究人员表示,腾讯的模型在训练时使用的计算能力可能是Meta的十分之一左右。

DeepSeek最初是幻方(High-Flyer)的AI研究部门,幻方是一家管理着80亿美元资产的量化对冲基金管理公司,该公司以利用AI进行交易而闻名。2021年,DeepSeek连接了大约1万个英伟达A100芯片,形成了一个用于AI训练的集群,并将其命名为“萤火二号”(Fire-Flyer 2)。

DeepSeek在今年8月发表的一篇论文中表示,“萤火二号”的性能接近于包含类似芯片的英伟达系统,但这个中国系统的成本更低,能耗也更低。DeepSeek在5月份发表的关于其MoE模型的论文在业内引起了广泛关注,该模型采用了一种更有效的数据处理技术。

“中国绕过出口管制的一种方式将是:利用其能够获得的硬件,构建极其优秀的软件和硬件训练体系,”AI初创公司Anthropic的联合创始人Jack Clark在他的博客中写道,他指的是DeepSeek的集群。“‘中国制造’将成为AI模型领域的一股潮流,就像电动汽车、无人机和其他技术一样,”他写道。

许多中国AI开发者已经找到了途径去获得受限的英伟达芯片,包括通过与中间商交易以及利用海外数据中心。

尽管如此,据中国企业高管称,缺乏尖端芯片对中国初创公司来说是痛苦的,而且这种差距还可能扩大。英伟达的客户正准备大规模部署其最新的AI数据中心芯片Blackwell。

马斯克(Elon Musk)的xAI已经建立了一个使用10万个英伟达芯片的数据中心,并且最近筹集了50亿美元用于进一步发展。Amazon Web Services计划利用数十万个自主研发的芯片,打造一台庞大的AI超级计算机。

专注于开源模型的DeepSeek强调数学和编码。月之暗面凭借其类似于ChatGPT的聊天机器人Kimi在中国消费者中获得了人气,该公司以处理长文本的能力而闻名。

中国AI初创公司的估值目前仅为OpenAI等美国公司的一小部分,因为投资者不确定它们的技术进步能否实现商业化。OpenAI最近的估值为1,570亿美元。激烈的竞争已导致AI模型供应商之间爆发价格战。

据知情人士透露,总部位于北京的智谱(Zhipu AI)已推迟了最早在2025年下半年上市的计划,此前投行人士告诉该公司,不太可能获得其期望的估值。该公司在本月进行的最新一轮融资中估值约为30亿美元。智谱在11月下旬展示了其AI智能体(AI agent),并在7月份发布了一个类似于OpenAI的Sora的视频生成模型。

曾在北京一家AI模型公司担任AI基础设施高管的Howard Huang将中国AI行业比作戴着镣铐跳舞的人。他说:“专注于我们一直擅长的事才是生存的唯一机会,而且甚至有可能跑赢。”

注:本文仅代表作者个人观点     

■ 
                                                                                         
相关内容
+
 

读者评论
OR

 

分享:
每日头条
OR
+
最新资讯
OR
+
热门排行榜
OR
+
OR品牌理念
+

■ 或者,  留一段影像,回一曲挂牵。丝丝入扣、暖暖心灵 ,需飘过的醇厚与共。
■ 或者,热烈空雨伴芬芳泥土;绿绿生命缠锐意骄阳。
回望,回望,一马平川红酒飘散断归途。
■ 或者,灰蒙蒙空气重回道指一万四千点。滚动时光,照进现实,流逝过往,回归未来。

■ OR 新媒体是一个提供时政、经济、文化、科技等多领域资讯的平台,旨在为用户提供优质的阅读体验。网站的网址是oror.vip,用户可以通过浏览器在台式电脑 、笔记本电脑 、平板电脑 、手机访问。.......