DeepSeek的廉价AI模型令人惊讶地挑战了行业规范。该公司声称,仅使用2048 GPU,培训了其强大的DeepSeek V3神经网络,仅使用2048 GPU,大大削弱了竞争对手。但是,这个数字具有误导性。
图像:ensigame.com
DeepSeek V3利用创新技术:多token预测(MTP),以提高准确性和效率; 专家(MOE)的混合物,利用256个神经网络,加速培训并提高绩效; 多头的潜在注意力(MLA)专注于关键句子元素,从而最大程度地减少信息丢失。
图像:ensigame.com
与最初的主张相反,半分析显示,DeepSeek的实际基础设施涉及大约50,000个NVIDIA HOPPER GPU,总投资约为16亿美元,运营成本为9.44亿美元。这项巨额投资,加上其研究人员的高薪(每年超过130万美元),与低培训成本的叙述相矛盾。
图像:ensigame.com
DeepSeek的独特结构是高飞行对冲基金的子公司,允许直接拥有数据中心和自筹资金,促进敏捷性和快速创新。这与依赖云计算的竞争对手形成鲜明对比。这笔600万美元的数字仅反映了培训前的GPU成本,不包括研究,改进,数据处理和基础架构。 DeepSeek对AI开发的总投资超过了5亿美元。
图像:ensigame.com
虽然DeepSeek的成功展示了一家资金充足的独立AI公司的潜力,但“革命预算”主张是过分简化的。他们的竞争优势源于大量投资,技术突破和高技能的团队。但是,即使有这些巨大的费用,DeepSeek的成本仍然比其竞争对手的费用要低得多,而先前的模型培训成本为500万美元(R1),而Chatgpt的1亿美元(ChatGPT4O)。
Stardew Valley:附魔和武器锻造的完整指南
Jan 07,2025
Roblox 2025 年 1 月公布的 UGC 限量代码
Jan 06,2025
Blue Archive 推出网络新年三月活动
Dec 19,2024
Blood Strike - 所有可用的兑换代码 2025 年 1 月
Jan 08,2025
Pokémon TCG Pocket:故障排除错误 102 已解决
Jan 08,2025
Sony 推出全新 Midnight 黑色 PS5 配件
Jan 08,2025
Cyber Quest:在 Android 上参与引人入胜的卡牌战斗
Dec 19,2024
Roblox:动漫 Auras RNG 代码(2025 年 1 月)
Jan 07,2025
Roblox:RIVALS 代码(2025 年 1 月)
Jan 07,2025
《寂静岭 2 重制版》即将登陆 Xbox,将于 2025 年切换
Jan 17,2025
Random fap scene
休闲 / 20.10M
更新日期: Dec 26,2024
Roblox
个性化 / 127.00M
更新日期: Oct 21,2021
Corrupting the Universe [v3.0]
休闲 / 486.00M
更新日期: Dec 17,2024
A Wife And Mother
Permit Deny
Piano White Go! - Piano Games Tiles
Ben 10 A day with Gwen
My School Is A Harem
Liu Shan Maker
BabyBus Play Mod