Sur les surprises de l'IA profonde: développement d'un milliard de dollars dévoilé

Auteur : Jason Feb 24,2025

Le modèle d'IA étonnamment bon marché de Deepseek, Deepseek V3, a ébranlé le monde de la technologie, provoquant une baisse significative du cours des actions de Nvidia. Alors que Deepseek a initialement réclamé un coût de formation de 6 millions de dollars, un examen plus approfondi révèle un investissement beaucoup plus substantiel.

DeepSeek Test Image: esigame.com

L'architecture innovante de Deepseek V3 est la clé de ses performances. Il exploite:

  • Prédiction multi-token (MTP): Prédire plusieurs mots simultanément pour une précision et une vitesse accrues.
  • Mélange d'experts (MOE): Utilisation de 256 réseaux de neurones (huit actifs par jeton) pour une formation accélérée et des performances améliorées.
  • Attention latente multi-tête (MLA): Extraction à plusieurs reprises des informations clés des fragments de texte pour minimiser la perte de détails cruciale.

DeepSeek V3 Image: esigame.com

Cependant, la semianalyse a révélé la véritable infrastructure de Deepseek: environ 50 000 GPU Nvidia Hopper (y compris les unités H800, H100 et H20 H20) se sont répandus sur plusieurs centres de données. Cela représente un investissement total de serveur d'environ 1,6 milliard de dollars, avec des coûts opérationnels estimés à 944 millions de dollars. Cela contredit la réclamation initiale de 6 millions de dollars, qui ne couvrait que l'utilisation du GPU avant la formation, à l'exclusion de la recherche, du raffinement, du traitement des données et des infrastructures.

Deepseek, une filiale de High Flyer, un fonds spéculatif chinois, possède ses centres de données, contrairement à des concurrents californiens. Cette approche autofinancée permet une innovation et une mise en œuvre rapides. La société attire les meilleurs talents chinois, certains chercheurs gagnant plus de 1,3 million de dollars par an.

DeepSeek Image: esigame.com

L'investissement réel de Deepseek dans le développement de l'IA dépasse 500 millions de dollars. Alors que sa structure maigre favorise l'efficacité, le récit du "budget révolutionnaire" est trompeur. Le véritable succès découle de l'investissement substantiel, des progrès technologiques et d'une équipe hautement qualifiée.

DeepSeek Image: esigame.com

Malgré les réclamations de coûts initiaux gonflées, les coûts de formation des modèles de Deepseek (5 millions de dollars pour R1) sont encore considérablement inférieurs à ceux des concurrents comme ChatGPT4O (100 millions de dollars), mettant en évidence un avantage concurrentiel. L'exemple Deepseek présente un chemin vers le succès des sociétés d'IA indépendantes bien financées, mais la réalité est beaucoup plus chère que initialement décrite.