首页 > 新闻 > AI先驱的DeepSeek揭幕:揭开了真正的开发成本

AI先驱的DeepSeek揭幕:揭开了真正的开发成本

作者:Kristen 更新日期:Feb 23,2025

DeepSeek的廉价AI模型令人惊讶地挑战了行业规范。该公司声称,仅使用2048 GPU,培训了其强大的DeepSeek V3神经网络,仅使用2048 GPU,大大削弱了竞争对手。但是,这个数字具有误导性。

DeepSeek Test图像:ensigame.com

DeepSeek V3利用创新技术:多token预测(MTP),以提高准确性和效率; 专家(MOE)的混合物,利用256个神经网络,加速培训并提高绩效; 多头的潜在注意力(MLA)专注于关键句子元素,从而最大程度地减少信息丢失。

DeepSeek V3图像:ensigame.com

与最初的主张相反,半分析显示,DeepSeek的实际基础设施涉及大约50,000个NVIDIA HOPPER GPU,总投资约为16亿美元,运营成本为9.44亿美元。这项巨额投资,加上其研究人员的高薪(每年超过130万美元),与低培训成本的叙述相矛盾。

DeepSeek图像:ensigame.com

DeepSeek的独特结构是高飞行对冲基金的子公司,允许直接拥有数据中心和自筹资金,促进敏捷性和快速创新。这与依赖云计算的竞争对手形成鲜明对比。这笔600万美元的数字仅反映了培训前的GPU成本,不包括研究,改进,数据处理和基础架构。 DeepSeek对AI开发的总投资超过了5亿美元。

DeepSeek图像:ensigame.com

虽然DeepSeek的成功展示了一家资金充足的独立AI公司的潜力,但“革命预算”主张是过分简化的。他们的竞争优势源于大量投资,技术突破和高技能的团队。但是,即使有这些巨大的费用,DeepSeek的成本仍然比其竞争对手的费用要低得多,而先前的模型培训成本为500万美元(R1),而Chatgpt的1亿美元(ChatGPT4O)。