Dario Amodei在长文中转述了Semianaylsis的测算,认为DeepSeek手上拥有的用于训练和推理的Hopper架构的英伟达GPU卡(阉割版和非阉割版都算在内)差不多有5万张,这个量和美国主要头部的AI模型训练机构如OpenAI、Deepmind等差距在两三倍左右,结合基于合成数据(synthetic data generation)和强化学习进行推理能力提升的后训练(post-training)方法,他认为DeepSeek本来就站在巨人的肩膀上,又用了巨量的GPU,才有了今天的成果。
Dario Amodei在长文中转述了Semianaylsis的测算,认为DeepSeek手上拥有的用于训练和推理的Hopper架构的英伟达GPU卡(阉割版和非阉割版都算在内)差不多有5万张,这个量和美国主要头部的AI模型训练机构如OpenAI、Deepmind等差距在两三倍左右,结合基于合成数据(synthetic data generation)和强化学习进行推理能力提升的后训练(post-training)方法,他认为DeepSeek本来就站在巨人的肩膀上,又用了巨量的GPU,才有了今天的成果。