AIRI : une monstrueuse baie pour l’IA

Vous connaissez sans doute PNY pour les cartes SD, la mémoire et les cartes graphiques. Mais aujourd’hui, l’activité va bien au-delà. La société a été créé en 1985 et adresse le marché grand public et le marché pro et d’entreprise. Le siège européen se situe près de Bordeaux. Cloud Magazine s’y est rendu pour découvrir l’AIRI, une machine hors norme dédiée aux calculs intensifs et à l’IA.

Aujourd’hui, PNY a une grosse activité sur le graphisme et les solutions GPU dédiées, grâce à son partenariat très actif avec NVIDIA. Un gros investissement est fait sur l’Intelligence Artificielle pour mêler le matériel et le logiciel. Cela répond aux axes stratégiques définies par PNY : HPC, Deep Learning, IA et les technologies de visualisations (3D, VA – VR, etc.). Le marché pro des GPU hauts de gamme est très dynamique. Par exemple, plus de 10 000 cartes Quadro se vendent chaque mois. La gamme de cette GPU est large : allant de 150 à + 5 000 € avec 32 Go de mémoire… La virtualisation GPU est un axe majeur pour le constructeur qui proposent des solutions matérielles complètes pour pouvoir virtualiser les cartes et donner accès à leurs puissances dans le cloud ou via des solutions de virtualisation classique. Pour ce faire, PNY repose sur Grid de NVIDIA qui fonctionne avec Citrix et VMWare, et d’autres.

Le HPC est bien entendu un marché majeur pour PNY qui proposent depuis 10 ans des solutions clés en mains ou des GPU dédiés aux calculs : serveurs complets, architecture TESLA. 

AIRI : une infrastructure matérielle et logicielle

Le monde des serveurs et des stations de travail n’est pas inconnu pour NVIDIA. Il proposait déjà l’excellente station DGX-1, déclinée aussi en serveur. Cette gamme est maintenant complétée par l’AIRI, un cluster complet intégrant les switchs réseaux, le stockage, les serveurs GPU et les piles logicielles. 

Le constat est simple : pour faire de l’IA, du Deep Learning, de la Machine Learning ou même de l’HPC, le CPU n’est pas la puce la plus adaptée. La GPU offre une puissance de calcul souvent ignorée ou mal utilisée. Et avec les évolutions moins flagrantes sur les CPU, les GPU offrent encore une marge d’évolution très importante en parallélisant les calculs. Par exemple, une GGX-1 reçoit jusqu’à 4 cartes TESLA totalisant 256 Go de mémoire, 20 480 cœurs CUDA et 2 560 cœurs Tensor. En puissance brute, difficile de trouver mieux sur le marché. L’alimentation de la machine est à la hauteur de l’architecture : 1500 W… Cette machine cible l’IA, les data scientists, les modèles complexes, le Deep Learning. Pour assurer le bon fonctionnement du water cooling, la station est montée et configurée en usine… 

La couche logicielle qui vient avec la station est là pour proposer une optimisation différents composants ; Nous retrouvons bien entendu le système, puis les pilotes NVIDIA (adaptés aux contraintes de la DGX), la disponibilité des outils nécessaires aux usages intensifs (via des conteneurs Docker pour faciliter le provisionning). L’ensemble des frameworks sont optimisés pour la machine : Caffe, TensorFlow, etc. L’objectif est d’éviter de recoder vos applications et modèles. Par contre, à vous d’optimiser les codes CUDA pour tirer parti des cartes. 

Ainsi un code CUDA pour les 1070 ou 1080 TI tournera sur les TESLA et donc dans la DGX-1 mais attention, il faudrait tout de même tuner le code et l’optimiser avec les SDK dédiés. 

L’idée de l’AIRI est de proposer une infrastructure capable d’une montée en charge la plus linéaire possible pour les calculs intensifs, l’IA. Le constructeur parle de cluster, il s’agit d’une baie classique contenant tous les éléments nécessaires :

  • chassis : full size ou format mini
  • compute et GPU avec les serveurs NVIDIA DGX-1 (jusqu’à 4 unités)
  • stockage haute performance avec Pure Storage (jusqu’à 15x 17 To en stockage Flash !) 
  • réseau avec des switchs ARISTA 100 Gb/s en Ethernet et utilisant la technologie RDMA

Le but est d’intégrer dans une armoire unique tous les éléments nécessaires. Mais AIRI n’est pas vendue sur étagère. Il s’agit d’une infrastructure modulaire : chaque client va choisir sa configuration et elle est ensuite montée dans les ateliers PNY. 

Tous les éléments logiciels sont disponibles pour assurer une mise en route la plus rapide possible : AIRI Scaling Toolkit assure la montée en charge dans l’exploitation des ressources matérielles et pour optimiser au mieux les modèles, NIVIDIA GPU CLOUD Deep Leanings Stack inclut les principaux frameworks du marché. Ces derniers sont optimisés par les développeurs NVIDIA. Mais attention, comme pour la station ou les cartes NVIDIA, vous devez optimiser les codes CUDA. Les codes CPU fonctionneront mais n’utiliseront pas les cœurs CUDA du cluster. Ce travail est essentiel pour exploiter les ressources. 

Le constructeur ne promet pas une montée en charge linéaire mais nous n’en sommes pas très loin. Si vous rajoutez un DGX-1 à votre cluster qui en possède un, vous pouvez espérer un gain de 70 à 80 %. Dans la réalité, ce chiffre sera moindre mais vous gagnerez une importante marge. 

Pour assurer une bonne performance, il faut que les différents éléments du cluster s’interconnectent à haute performance. Le choix de l’ethernet 100 Gb/s n’est pas donc anodin. NVIDIA a aussi opté pour NVLink qui s’occupe de l’interconnexion entre les CPU et les GPU. En débit théorique, NVIDIA annonce, avec la TESLA V100, des débits multidirectionnels de 20 à 25 Gb/s. 

La redondance et la tolérance de panne est bien entendu un élément clé. Si le cluster perd jusqu’à 2 serveurs ou des unités de stockage et des swichts, AIRI est toujours capable de fonctionner et de répartir la charge à la volée (mais pas en temps réel). Les performances seront dégradées mais l’environnement continuera à fonctionner. 

La bête pèse une demie tonne à pleine capacité et la configuration complète dépasse les 17 – 18 000 watts. Un PNY Lab a été ouvert à Bordeaux que pour les partenaires, clients et futurs clients puissent toucher et éprouver leurs solutions sur du matériel réel. PNY annonce un retour sur investissement en 18 mois en moyenne. Bien entendu, vu le prix du AIRI, on dépasse largement les 100 000 € (selon la configuration), le marché est limité et il faut en avoir un usage réel. A noter que la souscription support et logicielle est obligatoire pour pouvoir disposer de toutes les mises à jour. Pour le moment, AIRI utilise les DGX-1 et non les DGX-2 annoncés il y a quelques semaines. 

François Tonic