DeepSeek AI令人惊讶:十亿美元的发展揭幕

作者 : Jason Feb 24,2025

DeepSeek的廉价AI模型DeepSeek V3震撼了技术界,导致NVIDIA的股价大幅下降。尽管DeepSeek最初声称仅支付了600万美元的培训费用,但仔细观察表明投资要大得多。

DeepSeek Test图像:ensigame.com

DeepSeek V3的创新架构是其性能的关键。它利用:

  • 多语预测(MTP):同时预测多个单词,以提高准确性和速度。
  • 专家(MOE)的混合物:利用256个神经网络(每个令牌八个主动)进行加速训练和改善的性能。
  • 多头潜在注意力(MLA):反复从文本片段中提取关键信息,以最大程度地减少关键的细节损失。

DeepSeek V3图像:ensigame.com

但是,半分析揭示了DeepSeek的真正基础设施:大约50,000个NVIDIA HOPPER GPU(包括H800,H100和H20单位)分布在多个数据中心。这代表了一项总服务器投资约16亿美元,运营成本估计为9.44亿美元。这与最初的600万美元索赔相矛盾,后者仅涵盖了培训前的GPU使用情况,不包括研究,改进,数据处理和基础设施。

中国对冲基金High-Flyer的子公司DeepSeek拥有其数据中心,与云依赖的竞争对手不同。这种自资助的方法允许快速创新和实施。该公司吸引了中国顶级人才,一些研究人员每年收入超过130万美元。

DeepSeek图像:ensigame.com

DeepSeek对AI开发的实际投资超过5亿美元。尽管其精益结构提高了效率,但“革命性预算”的叙述却误导了。真正的成功源于大量投资,技术进步和高技能的团队。

DeepSeek图像:ensigame.com

尽管最初的成本索赔夸大了,但DeepSeek的模型培训成本(R1的500万美元)仍然明显低于Chatgpt4o(1亿美元)等竞争对手,这突出了竞争优势。 DeepSeek示例展示了资金丰富,独立的AI公司成功的途径,但现实比最初描绘的要贵得多。