MGX : Nvidia standardise le multi

Mis à jour avec plus de spécifications MGX :Chaque fois qu'un fabricant de moteurs de calcul fabrique également des cartes mères ainsi que des conceptions de systèmes, les entreprises qui fabriquent des cartes mères (il y en a des dizaines qui le font) et créent des conceptions de systèmes (les fabricants de conception d'origine et l'original) deviennent un peu nerveuses et un peu soulagées. La standardisation des composants signifie qu'ils ont moins de choses à faire, mais en même temps, ils ont moins de choses à facturer.

Avec ses conceptions de plate-forme de serveur multigénérationnelle MGX, annoncées cette semaine au salon Computex à Taiwan, qui est l'un des principaux centres au monde pour la fabrication de composants et de systèmes ainsi que le centre incontesté de fabrication et d'assemblage de moteurs de calcul, Nvidia espère rendre la vie plus facile pour lui-même et pour les OEM et ODM du monde et générer de meilleurs profits pour lui-même et pour eux.

Nvidia fabrique ses propres serveurs depuis le lancement du système DGX-1 en avril 2016, basé sur l'accélérateur GPU « Pascal » P100. Nvidia a décidé de le faire pour accélérer la mise sur le marché et créer une boucle de rétroaction dans la conception des composants et des cartes mères ; le fait que Nvidia devait construire ses propres supercalculateurs pour exécuter ses énormes charges de travail d’IA – ce qui était moins cher que de le faire faire par un OEM ou un ODM – a également contribué à la décision. À l'époque, la plupart des GPU Pascal que Nvidia aurait pu fabriquer étaient expédiés aux hyperscalers et aux constructeurs de cloud ainsi qu'à quelques centres HPC, et les DGX-1 étaient vendus par Nvidia de manière préférentielle afin que les chercheurs et les scientifiques puissent obtenir mettre la main sur ces systèmes accélérés par GPU. C'était encore le cas en mai 2017 lorsque les machines DGX-1 ont été mises à jour avec les accélérateurs GPU « Volta » V100 annoncés deux mois plus tôt. Le système DGX-A100 a suivi en mai 2020, utilisant les GPU « Ampere » A100, et bien sûr la conception DGX-H100, qui évolue beaucoup plus avec une structure de commutateur NVLink, déployée simultanément avec l'accélérateur GPU « Hopper » H100. l'année dernière et vient d'être mis à jour cette semaine avec une conception hybride CPU-GPU dans le système DGX-GH200.

Vous ne pouvez pas acheter un ASIC H100 SXM5 ou NVSwitch 3 utilisé dans les dernières machines DGX-H100 et DGX-GH200. Les cartes système pour les interconnexions CPU, GPU et NVSwitch sont vendues aux hyperscalers et aux constructeurs de cloud et à leurs fournisseurs ODM dans leur ensemble, avec tous les composants fabriqués et testés, et sont également vendues aux OEM sous forme de composants préassemblés, qu'ils à leur tour mettent dans leurs systèmes. Vous pouvez acheter des versions PCI-Express des accélérateurs GPU ou des ASIC Quantum InfiniBand ou Spectrum Ethernet auprès de Nvidia si vous souhaitez créer vos propres systèmes, mais pour les éléments haut de gamme fonctionnant sur la structure de mémoire NVSwitch, vous devez les prendre pré-assemblés. composants, appelés HGX.

Après avoir standardisé dans une certaine mesure les composants internes des systèmes avec HGX/DGX, Nvidia souhaite désormais standardiser les coques qui entourent ces composants pour accélérer la mise sur le marché de tous les ODM et OEM et faire en sorte que les systèmes résultants puissent être amélioré sur le terrain dans la plus grande mesure possible, compte tenu des futurs changements architecturaux à venir.

Voilà, en un mot, l’objectif de l’effort MGX.

Nous avons eu un petit avant-goût de ce à quoi ressemblent les conceptions initiales du MGX en mai dernier lorsque les prototypes des systèmes HGX Grace et HGX Grace-Hopper ont été divulgués par Nvidia. Il ne s'agissait pas uniquement de cartes système, mais de conceptions complètes de serveurs montés en rack :

L'effort de normalisation MGX couvrira les plates-formes de calcul des centres de données DGX/HGX, les plates-formes d'hébergement de métaverses OVX et les plates-formes graphiques et de jeux cloud CGX, et voici comment Nvidia a déclaré que le processeur Grace et divers accélérateurs GPU seraient composés pour ces trois lignes de fer. :

Voici les modèles MGX présentés au Computex cette semaine :

Celui de gauche est une superpuce Grace-Grace associée à quatre accélérateurs GPU. Le système au centre dispose de deux processeurs X86, de deux interfaces réseau ConnectX et de huit accélérateurs GPU, et le système de droite dispose d'une paire de moteurs de calcul refroidis par eau (nous devinons les superpuces Grace-Hopper) et de deux cartes d'interface réseau.

Blog