Nvidia lance une carte avec 188 Go de RAM pour accélérer les IA conversationnelles

Pierre Dandumont |

Vous avez dû le voir, les IA conversationnelles comme ChatGPT — la version 4 est arrivée récemment — demandent une très grande puissance de calcul lors de l'entraînement initial. Et surtout, le nombre de paramètres (175 milliards pour les modèles GPT-3) nécessite une quantité de mémoire très élevée. Pour ce type d'usage, Nvidia a donc annoncé la H100 NVL, en indiquant que cette génération est jusqu'à 12x plus rapide que la précédente sur les tâches liées à l'IA.

Le GPU Hopper, présent en double dans la carte.

Une sorte de GPU mais sans sortie vidéo

Techniquement, les cartes de la famille H100 sont des GPU, mais pensés uniquement pour du calcul, sans réelles possibilités d'affichage. La nouvelle carte est un véritable monstre : elle prend quatre emplacements (au sens physique du terme, c'est-à-dire la place de quatre cartes classiques) et nécessite deux emplacements PCI-Express, donc deux connecteurs. En effet, cette carte contient littéralement deux cartes PCI-Express reliées par la technologie NVLink 4, qui offre une bande passante de 600 Go/s.

Tous les détails ne sont pas connus, mais les GPU devraient utiliser la majorité des unités — donc 2x 16 896 — pour une puissance maximale de l'ordre de 135 téraflops (2x 67 téraflops). Elle impressionne surtout sur la mémoire : alors que les autres H100 sont bridées au niveau de la mémoire HBM3, cette version NVL propose (presque) le maximum possible.

188 Go de RAM

Les versions disponibles actuellement se limitent à 80 Go sur un bus 5 120 bits, avec une puce désactivée — sur les six possibles — pour augmenter le rendement. La H100 NVL, elle, contient 2x 94 Go de RAM sur un bus 6 144 bits, pour une bande passante de 3,9 To/s par carte. La raison de la perte de 2 Go sur le maximum théorique n'est pas connue, mais la valeur impressionne tout de même. Le lien NVLink 4 autorise l'unification de la mémoire du point de vue du logiciel, ce qui permet au système de voir une carte avec 188 Go de RAM au total, avec une bande passante cumulée de 7,8 To/s.

On peut évidemment en mettre plusieurs par serveurs.

Le TDP des cartes est élevé et configurable, en fonction de la possibilité de refroidissement du serveur : 350 W ou 400 W par carte, donc jusqu'à 800 W au total.

Ce type de cartes vise évidemment un public très particulier, et si le prix n'est pas connu, il est probablement très élevé compte tenu des choix techniques. La version PCI-Express classique, dotée de 80 Go de RAM dans une variante deux fois moins rapide que la HBM3 choisie ici, se négocie par exemple aux alentours de 28 000 $. Notons enfin que les pénuries de GPU attendues à cause de l'essor des IA ne devraient pas se régler avec ce type de cartes, étant donné la cible et les prix attendus…

L

L'essor des IA pourrait créer une nouvelle pénurie de GPU

Tags
avatar oomu | 

avec ça, Counter Strile 2 devrait faire des fumées volumétriques fluides !

avatar Scooby-Doo | 

@oomu,

« avec ça, Counter Strile 2 devrait faire des fumées volumétriques fluides ! »

Ben non, pas de sortie vidéo, pas de fumées volumétriques fluides !

😁

PS :

Ça fait cher la fumées volumétriques fluides !

avatar pocketalex | 

28 000 $ c'est de l'arnaque, moi je te monte un PC pour 1500€ qui déchire tout

avatar Cric | 

@pocketalex

😂
J’adore quand tu anticipes l’arrivée des trolls

avatar Scooby-Doo | 

@pocketalex,

« 28 000 $ c'est de l'arnaque, moi je te monte un PC pour 1500€ qui déchire tout »

Tellement vrai en plus ! Pas bien de pêcher le troll à la dynamite !

😁

avatar jb18v | 

On avait fini par ne plus avoir de pénurie liée au minage puis à la pandémie, on en recrée une autre pour des trucs tout aussi futiles ..

avatar raoolito | 

@jb18v

en meme temps si on devait ne se cantonner qu’aux utilisations « serieuses » des gpu, vous supprimeriez tous ceux utilisés pour jouer… et c’est bon, plus de penurie 🤪

avatar jb18v | 

c'est pas faux :)
mais on a quand même tendance à chercher en premier une solution technologique à un problème qui n'existerait pas au départ sans cette même technologie.. sans compter les soucis d'énergie et de ressources.
Je suis pas convaincu du besoin réel d'avoir des bots avec qui parler ou qui remplacent de la recherche sur le web sous prétexte que les utilisateurs sont trop feignants pour apprendre comment les outils fonctionnent ^^
Bref une carte impressionnante sur le papier, et qui sera probablement produite dans de faibles volumes comparés aux GPU habituels.

avatar raoolito | 

@jb18v

« Je suis pas convaincu du besoin réel d'avoir des bots avec qui parler ou qui remplacent de la recherche sur le web sous prétexte que les utilisateurs sont trop feignants pour apprendre comment les outils fonctionnent ^^ »

un smartphone avec une dalle géante est-il plus utile qu’un autre sans dalle du tout? il s’agit non pas seulement de simplification mais aussi d’une nouvelle manière d’interagir avec l’information non pas en partant chercher mais en recevant une ou des réponses intelligibles sans connaissance réelle.

on fait plus avec un homepod mini qui serait sous un chatgpt vocal que sur le siri actuel. comme on fait plus avec un grand ecran qu’avec un tout petit ou un non existant.

avatar occam | 

@raoolito

🫣 « un smartphone avec une dalle géante est-il plus utile qu’un autre sans dalle du tout? »

Non. Au contraire.
Il s’agit non pas seulement de simplification, mais aussi d’une nouvelle manière d’interagir avec l’information, non pas en partant chercher mais en recevant une ou des réponses intelligibles, sans connaissance réelle.
🤓

avatar Moebius13 | 

Vous ne savez pas où tout cela peut nous mener, nous n'en sommes qu'au tout début et déjà ce que peut faire l'IA conversationnelle est assez bluffant, je n'imagine pas où nous en serons dans 5 ans, voire dans 10 ans.

Vous savez c'est triste à dire, mais nombre de nos anciens souffrent de solitude, ils n'ont personne à qui parler, et la médecine a prouvé que l'absence d'interactions peut augmenter les risques de démence.

Pourquoi ne pas imaginer dans une dizaine ou une quinzaine d'années, une IA suffisamment au point pour discuter avec nos personnes âgées, leur permettre de se sentir moins seules, les stimuler intellectuellement ?

On peut aussi imaginer que ces IA vont faciliter certaines tâches fastidieuses pour de nombreux travailleurs (sans pour autant les remplacer totalement).
Si demain dans mon boulot, je peux m'occuper de la partie qui concerne mes constats et laisser une IA gérer la rédaction et la mise en forme de mon procès verbal, je garde la partie la plus intéressante de mon métier, l'expertise, et je lui laisse la plus chiante, l'administratif et le rédactionnel.

Je suis optimiste en ce qui concerne ces progrès en matière d'IA et je pense qu'à l'avenir cela peut aider la société dans son ensemble.

avatar appleadict | 

@Moebius13

"Vous savez c'est triste à dire, mais nombre de nos anciens souffrent de solitude, ils n'ont personne à qui parler, et la médecine a prouvé que l'absence d'interactions peut augmenter les risques de démence.
Pourquoi ne pas imaginer dans une dizaine ou une quinzaine d'années, une IA suffisamment au point pour discuter avec nos personnes âgées, leur permettre de se sentir moins seules, les stimuler intellectuellement ?"

Sinon ils parait que lorsqu'on met des séniors et des très jeunes enfants ensemble, les séniors gardent une meilleure santé mentale et ca aide au développement des enfants et évite les problèmes de refermement liés à l'exposition trop tôt aux écrans ... ce qui se fait depuis l'aube de l'humanité en fait ...

avatar Moebius13 | 

@appleadict

C’est beau sur le papier mais vous savez que ça n’a aucune chance de se produire à grande échelle ?

Regardez l’exemple du Japon qui est un pays gravement touché par le vieillissement de sa population. Ils n’ont entame aucun programme pour mettre en contact les seniors avec des enfants au niveau national.

En revanche ils mettent les seniors en contact avec des machines, ça oui.

C’est triste mais je crois bien plus à un futur avec des personnes âgées stimulées par des IA conversationnelles, qu’un futur avec des seniors entourés d’enfants.

Dans 15 ans vous verrez que ce sera généralisé et pas uniquement pour les personnes âgées.

Si vous avez vu le film « Her », je pense que c’est un bon aperçu du futur proche qui nous attend.
Des individus de plus en plus isolés qui vont limiter leurs contacts avec les machines plutôt que d’autres êtres humains.

Je reprends l’exemple du Japon mais c’est déjà le cas, la jeunesse ne trouve même plus d’intérêt à se mettre en couple. Les jeunes gens préfèrent rester dans leur coin sans « s’encombrer » d’une relation et ils vivent des interactions sociales par écran interposés.
C’est un pays qui est déjà mûre pour un futur « Chat GPT 7 », les gens choisiront la personnalité de leur IA, son sexe, le type d’interactions qu’ils souhaitent avoir et le pays se dépeuplera de plus belle.

avatar debione | 

@Moebius13:
"Vous savez c'est triste à dire, mais nombre de nos anciens souffrent de solitude, ils n'ont personne à qui parler, et la médecine a prouvé que l'absence d'interactions peut augmenter les risques de démence."

Vous avez entièrement raison, mais si on appliquait déjà ce qui est connu, on aurait peut-être pas besoin de cela. La question qu'il faut se poser c'est pourquoi ils souffrent de solitude, et si on veut agir correctement alors il faut agir sur la cause... La on agit juste sur le symptome...

Sinon, j'ai lu récemment une étude très intéressante sur... les possesseurs de chat... Qui sont moins souvent sujet aux problèmes cardiaques et souffrent moins de solitudes que les non-possesseurs, qui ont moins de démence sénile... (on parle d'un truc genre 30% quand même).
Comme quoi, il ne faut pas spécialement des trucs technologiques pour contrer ce que ces mêmes trucs technologiques impliquent....

avatar Scooby-Doo | 

@jb18v,

« Bref une carte impressionnante sur le papier, et qui sera probablement produite dans de faibles volumes comparés aux GPU habituels. »

Qu'est-ce que vous entendez par faible volume ?

Une étude récente publiée notamment sur MacG indiquait que si Google voulait se lancer dans un équivalent à ChatGPT, il lui faudrait investir dans 4 000 000 de nVidia A100 ou 8 000 000 de ses TPU dernière version !

En se basant sur le fait que la H100 NVL est 12 fois plus rapide qu'une A100, il faudrait en gros 334 000 cartes H100 NVL.

C'est déjà un beau budget et de belles perspectives de vente pour un seul modèle de carte !

👌

avatar powergeek | 

En attendant certains ont réussi à faire tourner Llama en local sur un Mac M2 Pro. Il faut au minimum 32Go de RAM pour la version 7B et 96 pour la 60B. Mais ça tourne bien !

avatar Scooby-Doo | 

@powergeek,

Et question qualité des réponses, c'est comment ?

Vous avez des exemples questions / réponses à partager ?

😉

avatar powergeek | 

@Scooby-Doo

Je ne réponds pas aux commentateurs de commentaires. C'est tout ce que vous savez faire ici. Merci de ne pas vous adresser à moi.

avatar ysengrain | 

On sent bien le souci du réchauffement climatique

avatar Scooby-Doo | 

@ysengrain,

« On sent bien le souci du réchauffement climatique »

👍

C'est pas neutre effectivement !

Par contre cherchez un documentaire d'Arte nommé Frankenstream il me semble sur la catastrophe écologique du streaming tant apprécié des jeunes écologistes !

https://www.arte.tv/fr/videos/RC-023064/frankenstream/

😁

Et puis vous verrez que l'hydrogène vert, c'est pas aussi vert que celà :

https://youmatter.world/fr/hydrogene-vraiment-ecologique-impact-environnemental/

Alors qu'il existe ceci depuis plus de 25 ans !

https://www.nanoflowcell.com/

Mais notre gouvernement et notre président ne sont visiblement pas au courant ! C'est le cas de le dire !

Ils sont arc-boutés sur la filière hydrogène vert polluante !

En plus, j'avais lu en son temps que le potentiel énergétique de l'hydrogène est 4 fois inférieur au kérosène !

Du coup, vous faites un choix entre :

- transporter 4 fois plus de carburant et beaucoup moins de charge utile ;

- transporter le même poids mais en sachant que votre rayon d'action sera 4 fois inférieur ;

- transformer un A380 pour transporter autant de carburant hydrogène vert que de kérosène mais en transportant 2 fois moins de passagers 2 fois moins loin !

- vous développez un réacteur à hydrogène 4 fois plus économe ! Rolls-Royce y travaille !

C'est tellement nul et inefficace que cela leur a immédiatement plu !

Maintenant vous pouvez mieux comprendre pourquoi nous sommes dans les problèmes jusqu'au cou !

😁

avatar switch | 

Une idée du prix unitaire du dernier modèle de carte équipée de 2 x 94 Go de RAM ?

avatar Scooby-Doo | 

@switch,

« Une idée du prix unitaire du dernier modèle de carte équipée de 2 x 94 Go de RAM ? »

Moi :

Bonsoir Bing, je cherche le prix de la carte nVidia H100 NVL !

Bing :

D’après un article de Tom’s Hardware, NVIDIA n’a pas communiqué le prix des H100 NVL. Cependant, sachant qu’une carte H100 PCIe coûte environ 28 000 dollars, nous pouvons envisager le prix d’une paire de ces GPU au sein d’une solution H100 NVL.

Conclusion :

Tom's hardware et MacG donne le même prix pour une H100 PCIe, par la contre la version que vous cherchez ne doit pas être encore au catalogue prix !

Comme expliqué dans l'article de MacG, nVidia n'a pas encore communiqué ce prix mais ce sera nécessairement plus cher au vu des spécifications !

👌

avatar marc_os | 

Nvidia lance une carte avec 188 Go de RAM
La H100 NVL [...] contient 2x 94 Go de RAM [...] pour une bande passante de 3,9 To/s par carte. La raison de la perte de 2 Go sur le maximum théorique n'est pas connue

Je ne comprends pas.
De quelle perte et de quel « maximum théorique » parlez-vous ?
188 = 2 x 94.
Parlez-vous de la bande passante ?
( 2 Go / 3,9 To = 0,0005 = 0,05 %, soit pas bézef)

CONNEXION UTILISATEUR