banner

Blog

Sep 12, 2023

La structure NVSwitch qui est la plaque tournante du SuperPOD DGX H100

Normalement, lorsque nous examinons un système, nous pensons aux moteurs de calcul dans les moindres détails, puis nous nous frayons un chemin à travers les subtilités des nœuds, puis l'interconnexion et la pile logicielle qui le font évoluer à travers les nœuds dans une plate-forme informatique distribuée. .

Mais cette fois, lorsque nous passons en revue les nombreuses annonces faites par Nvidia lors de son événement en ligne GPU Technical Conference 2022, nous voulons commencer par la couche intermédiaire où les nœuds rencontrent le réseau et progresser car c'est ce qui fait que Nvidia un véritable concurrent en tant que fabricant de systèmes informatiques hautes performances, c'est-à-dire des machines conçues pour exécuter des charges de travail d'IA, de HPC et d'analyse de données et pas seulement la simulation et la modélisation HPC traditionnelles.

En fait, nous pensons que les innovations dévoilées au GTC 2022 cette année vont faire de Nvidia l’un des principaux maîtres d’œuvre de tels systèmes fonctionnant à l’exascale et au-delà.

Pour jouer à ce jeu, vous devez avoir une architecture et des poches profondes, et Nvidia a clairement les deux. Avec IBM pratiquement hors du jeu, les supercalculateurs de grande capacité reviennent à Hewlett Packard Enterprise, Nvidia, Fujitsu (ce dernier étant plutôt concentré sur RIKEN Lab au Japon et quelques autres centres qui achètent des puces du « K » et du « K » et « » Fugaku") et Atos (qui fait beaucoup d'affaires avec ses systèmes BullSequana en Europe). Dell, Lenovo et Inspur se concentrent principalement sur les machines de grande capacité nécessaires en fonction des pièces de base et sont principalement conçues pour exécuter de nombreux petits travaux simultanément plutôt que de faire évoluer quelques gros travaux un par un ; HPE joue évidemment ici aussi. Et après sept ans d’activité et son contrat de maître d’œuvre sur le supercalculateur « Aurora » très retardé du laboratoire national d’Argonne, Intel n’est plus intéressé à être un maître d’œuvre sur le marché du HPC, et la société nous l’a avoué récemment. AMD n'a pas non plus manifesté un tel intérêt.

Nous pensons qu'il y a une valeur inhérente à être un fournisseur complet et un constructeur de systèmes, comme Nvidia, mais également à permettre aux clients de construire des systèmes en utilisant les meilleurs composants (ou disponibles de nos jours), ou en demandant aux OEM ou ODM de le faire. c'est pour eux.

Nvidia est unique dans la mesure où elle fournit des composants comme le font AMD et Intel, mais elle fournit également des systèmes complets si les clients souhaitent les acheter. (Intel a utilisé Cray puis HPE comme fabricant de systèmes, même lorsqu'il était le maître d'œuvre de la machine Aurora.) Nvidia est passé de la simple fourniture de GPU à la création de ses propres cartes système HGX, avec une interconnexion de mémoire GPU NVSwitch et des moteurs GPU, qui peut être couplé via PCI-Express aux cartes mères hôtes X86. Pour cela, Nvidia peut apporter le réseau Quantum InfiniBand pour relier les nœuds et le réseau Spectrum Ethernet pour la gestion du système et l'accès au système distribué, le tout en utilisant des cartes d'interface réseau ConnectX sur les serveurs. Pour ceux qui souhaitent effectuer du déchargement et de la multilocation, il existe des DPU BlueField, livrés avec des processeurs Arm avec une option d'accélérateur GPU.

Nvidia aurait pu se frayer un chemin dans le secteur des supercalculateurs à partir des jeux, comme l'a admis le co-fondateur et PDG de la société, Jensen Huang, lors de la conférence sur les supercalculateurs SC11, mais il est à toute vapeur depuis que Nvidia a dû construire ses propres supercalculateurs pour le faire. sa conception et sa vérification de puces, ainsi que repousser les limites de la formation en IA pour ses nombreux modèles de réseaux neuronaux et cas d'utilisation.

D'où les plusieurs générations de supercalculateurs « Saturn V » et « Selene », qui ont présenté toutes les technologies de Nvidia et sa fabrication astucieuse de systèmes DXG. Avec l'ajout de Mellanox Technologies il y a deux ans, Nvidia a pu couvrir tout le matériel à l'exception des processeurs, de la mémoire principale et du flash. Avec la puce de serveur Arm « Grace » personnalisée à 72 cœurs, révélée lors de l'événement GTC de l'année dernière et livrée au premier semestre de l'année prochaine, Nvidia sera en mesure de fournir cela, et elle présente quelques rebondissements intéressants sur l'architecture qui lui donneront du fil à retordre. de sérieux avantages. Si Nvidia achetait Micron Technology – et nous ne suggérons pas que Nvidia devrait le faire – elle pourrait s'occuper de tout le matériel du système.

PARTAGER