DeepSeek AI令人驚訝:十億美元的發展揭幕

作者 : Jason Feb 24,2025

DeepSeek的廉價AI模型DeepSeek V3震撼了技術界,導致NVIDIA的股價大幅下降。盡管DeepSeek最初聲稱僅支付了600萬美元的培訓費用,但仔細觀察表明投資要大得多。

DeepSeek Test圖像:ensigame.com

DeepSeek V3的創新架構是其性能的關鍵。它利用:

  • 多語預測(MTP):同時預測多個單詞,以提高準確性和速度。
  • 專家(MOE)的混合物:利用256個神經網絡(每個令牌八個主動)進行加速訓練和改善的性能。
  • 多頭潛在注意力(MLA):反複從文本片段中提取關鍵信息,以最大程度地減少關鍵的細節損失。

DeepSeek V3圖像:ensigame.com

但是,半分析揭示了DeepSeek的真正基礎設施:大約50,000個NVIDIA HOPPER GPU(包括H800,H100和H20單位)分布在多個數據中心。這代表了一項總服務器投資約16億美元,運營成本估計為9.44億美元。這與最初的600萬美元索賠相矛盾,後者僅涵蓋了培訓前的GPU使用情況,不包括研究,改進,數據處理和基礎設施。

中國對衝基金High-Flyer的子公司DeepSeek擁有其數據中心,與雲依賴的競爭對手不同。這種自資助的方法允許快速創新和實施。該公司吸引了中國頂級人才,一些研究人員每年收入超過130萬美元。

DeepSeek圖像:ensigame.com

DeepSeek對AI開發的實際投資超過5億美元。盡管其精益結構提高了效率,但“革命性預算”的敘述卻誤導了。真正的成功源於大量投資,技術進步和高技能的團隊。

DeepSeek圖像:ensigame.com

盡管最初的成本索賠誇大了,但DeepSeek的模型培訓成本(R1的500萬美元)仍然明顯低於Chatgpt4o(1億美元)等競爭對手,這突出了競爭優勢。 DeepSeek示例展示了資金豐富,獨立的AI公司成功的途徑,但現實比最初描繪的要貴得多。