Événement AI Chip d’AMD : tout révélé en 8 minutes – Vidéo


Haut-parleur 1 : Bonjour à tous. Bienvenue à vous tous qui nous rejoignez ici dans la Silicon Valley et à tous ceux qui nous rejoignent en ligne du monde entier. C’est pourquoi je suis si excité aujourd’hui de lancer notre instinct, MI 300 x. Il s’agit de l’accélérateur d’IA générative le plus performant au monde. Le MI 300 X est en fait construit sur notre nouvelle architecture de centre de données à trois ADNc et est optimisé pour les performances et l’efficacité énergétique. cDNA three présente de nombreuses nouvelles fonctionnalités. Il combine un nouveau moteur de calcul. [00:00:30] Il prend en charge la parcimonie, les derniers formats de données, y compris le FP huit. Il possède une capacité de mémoire et une bande passante de pointe. Et nous allons beaucoup parler de mémoire aujourd’hui, et elle repose sur les technologies de processus et d’emballage 3D les plus avancées. Parlons maintenant de certaines performances et pourquoi elles sont si idéales pour l’IA générative. La mémoire, la capacité et la bande passante sont très importantes pour les performances. Haut-parleur 1 : Si vous regardez le MI 300 x, nous avons pris la décision très consciente d’ajouter [00:01:00] plus de flexibilité, plus de capacité de mémoire et plus de bande passante. Cela se traduit par une capacité de mémoire 2,4 fois supérieure et une bande passante mémoire 1,6 fois supérieure à celle de la concurrence. Désormais, lorsque vous exécutez des éléments tels que des types de données de moindre précision qui sont largement utilisés dans les LLM, les nouvelles unités de calcul à trois ADNc et la densité de mémoire permettent en fait au MI 300 X de fournir 1,3 fois plus de flops tarifaires de performances FP huit et FP 16 que la concurrence. [00:01:30] Et si vous regardez comment nous l’avons mis en place, c’est en fait assez étonnant. Nous commençons avec quatre IO D dans la couche de base, et ce que nous avons sur l’IO DS, ce sont 256 Mo de cache infini et tous les IO de nouvelle génération dont vous avez besoin, comme les trois interfaces HBM à 128 canaux, PCIE Gen cinq prenant en charge notre quatrième génération. tissu infini qui connecte plusieurs MI 300 x afin que nous obtenions 896 gigaoctets par seconde, puis nous empilons [00:02:00] huit ADNc, trois puces accélératrices ou X CD au-dessus de l’IO d, et c’est là que nous livrons 1,3 pet flops de FP 16 et 2,6 petta flops de performances FP huit. Intervenant 1 : Et puis nous connectons ces 304 unités de calcul avec des vias de silicium denses ou TSV, et qui prennent en charge jusqu’à 17 téraoctets par seconde de bande passante. Et bien sûr, pour profiter de tout ce calcul, nous connectons huit piles de HBM trois [00:02:30] pour un total de 192 gigaoctets de mémoire à 5,3 téraoctets par seconde de bande passante. Cela fait beaucoup de choses là-dessus. Ce que vous voyez ici, ce sont huit MI 300 x gvu, et ils sont connectés par notre tissu infini haute performance dans une conception conforme à l’OCP. Maintenant, qu’est-ce qui rend cela spécial ? Cette carte s’intègre donc directement dans n’importe quelle conception conforme à l’OCP, qui constitue la majorité des systèmes d’IA aujourd’hui. Et nous avons fait ça pour [00:03:00] une raison très délibérée. Nous voulons que cela soit aussi simple que possible pour les clients. Vous pouvez donc retirer votre autre carte et installer la plateforme instinct MI 300 X. Et si vous jetez un œil aux spécifications, nous prenons en charge les mêmes capacités de connectivité et de réseau que nos concurrents. Ainsi, PCI Gen Five prend en charge 400 Go Ethernet, soit 896 Go par seconde de bande passante totale du système, mais tout cela est 2,4 fois plus grand. [00:03:30] plus de mémoire et 1,3 fois plus de serveur de calcul que la concurrence. C’est vraiment pourquoi nous l’appelons le système d’IA de génération le plus puissant au monde. Intervenant 2 : Nous avons conçu Rockham pour qu’il soit modulaire et open source afin de permettre une accessibilité très large aux utilisateurs et une contribution rapide de la communauté open source et de la communauté IA. L’open source et l’écosystème font réellement partie intégrante de notre stratégie logicielle. Et en fait, une véritable ouverture fait partie intégrante de notre stratégie globale. Ce [00:04:00] contraste avec cuda, qui est propriétaire et proche. Désormais, la communauté open source que tout le monde connaît évolue à la vitesse de la lumière dans le déploiement et la prolifération de nouveaux algorithmes, modèles, outils et améliorations de performances. Et nous en voyons certainement les avantages dans le formidable élan écosystémique que nous avons établi. Je suis donc vraiment très heureux que nous expédiions Roku six plus tard ce mois-ci. Je suis vraiment fier de ce que l’équipe a fait avec cette très grosse version. Roku six a été optimisé pour [00:04:30] genai, en particulier les grands modèles de langage, possède de nouvelles fonctionnalités puissantes, des optimisations de bibliothèque, une prise en charge étendue de l’écosystème et augmente les performances par facteurs. C’est vraiment une solution pour les développeurs d’IA. ROC M six prend en charge FP 16 BF 16 et le nouveau canal de données FD Eight pour des performances supérieures tout en réduisant les besoins en mémoire et en équilibre. Nous avons incorporé des optimisations avancées des graphiques et du noyau [00:05:00] et des bibliothèques optimisées pour une efficacité approuvée. Nous proposons des algorithmes d’attention de pointe, tels que l’attention flash à l’attention des pages, qui sont essentiels à l’exécution de l’OMS et d’autres modèles. Intervenant 3 : En 2021, nous avons livré le MI Two 50, introduisant l’architecture Infinity de troisième génération. Il connectait un processeur épique au GPU MI Two 50 via une structure de bus infini à haute vitesse qui permettait au CPU et au GPU de partager un espace mémoire cohérent. [00:05:30] et échangez facilement des données dans les deux sens, simplifiant ainsi la programmation et accélérant le traitement. Mais aujourd’hui, nous poussons ce concept un peu plus loin jusqu’à sa conclusion logique avec l’architecture Infinity de quatrième génération, réunissant le CPU et le GPU dans un seul package partageant un pool de mémoire unifié. Il s’agit d’une unité de traitement accéléré A PU, et je suis très fier de dire que [00:06:00] le premier centre de données du secteur, un PU pour l’IA et le HPC, le MI 300 a commencé sa production en volume au début de ce trimestre et est maintenant en cours d’intégration dans ce que nous espérons être le système le plus performant au monde. Et parlons de cette performance 61 flops tarifaires de virgule flottante double précision FP soixante-quatre, cent vingt-deux flops tarifaires, une simple précision combinée à ces 128 gigaoctets de HVM [00:06:30] trois mémoires à 5,3 téraoctets par seconde de bande passante. Les capacités du MI 300 A sont impressionnantes et elles le sont aussi. Lorsque vous le comparez à l’alternative, lorsque vous regardez la concurrence, le MI 300 A a 1,6 fois la capacité de mémoire et la bande passante du Hopper pour les opérations de faible précision comme le FP 16. Les deux sont à parité en termes de performances de calcul, mais où la précision [00:07:00] est nécessaire, le MI 300 a offre 1,8 fois les performances en virgule flottante double et simple précision des FP 64 et FP 32. Haut-parleur 1 : Aujourd’hui, je suis très heureux de dire que nous lançons nos processeurs mobiles Hawk Point Rising 80 série 40. Et merci Intervenant 1 : Hawk Point combine toutes nos performances de pointe en matière d’autonomie de batterie. [00:07:30] et il augmente les sommets de l’IA de 60 % par rapport à la génération précédente. Donc, si vous jetez simplement un œil à certaines mesures de performances de la série RYZEN 80 40, si vous regardez le haut de la pile, donc le RYZEN 9 89 45, il est en fait nettement plus rapide que la concurrence dans de nombreux domaines, offrant plus de performances. pour les applications multithread, des fréquences d’images 1,8 fois plus élevées pour les jeux et des performances 1,4 fois plus rapides dans les applications de création de contenu. Un très, [00:08:00] un merci très spécial à tous nos partenaires qui nous ont rejoint aujourd’hui, et merci à tous de vous joindre à nous.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*