Présentation de CEREBRAS

Le calculateur d’IA le plus puissant au monde

Cerebras CS-2 a été spécialement conçu pour accélérer les applications d’IA. Chaque détail – de la puce au logiciel en passant par l’emballage du système – a été optimisé pour un calcul graphique rapide et flexible. Un seul CS-2 offre les performances d’un cluster entier de GPU.

Transformez votre entreprise avec CS-2 – la solution de calcul d’IA la plus simple et la plus puissante du secteur.

The world’s most powerful AI compute

Cerebras CS-2 is purpose-built to accelerate AI applications. Every detail – from chip to software to system packaging – has been optimized for fast and flexible graph compute. One CS-2 delivers the performance of an entire cluster of GPUs.

Transform your business with CS-2 — the simplest, most powerful AI compute solution in the industry.

A la base CEREBRAS est une entreprise française.

 

Cerebras WSE-2 : le plus grand processeur du monde

Le nouveau processeur Cerebras WSE-2 embarque 2600 milliards de transistors

En passant d’une finesse de gravure de 16 nm à 7 nm, cette seconde itération du processeur géant de Cerebras fait plus que doubler son nombre de transistors. Un monstre de 2,6 trillions de transistors qui coûte à lui seul plusieurs millions de dollars.
2600 milliards de transistors, 40 Go de RAM intégrées, une bande passante de 20 Po/s et un tarif unitaire de plusieurs millions d’euros : le WSE-2 de Cerebras est un monstre, la puce la plus grande et la plus puissance du monde. Succédant au WSE-1 dont nous vous avions parlé à plusieurs reprises, la seconde itération du processeur le plus grand que l’on puisse faire tenir sur un seul wafer explose tous les records.

Dédié au calcul intensif lié à l’IA, ce processeur de 46 225 mm² profite à fond des améliorations de finesse de gravure : le passage du 16 nm au 7 nm a permis de tout multiplier par 2,2 : la densité en transistors – 56,246 millions par millimètre carré — et dans la foulée le nombre de cœurs (850 000 contre 400 000 par le passé), ou encore la bande passante interne comme externe.

Une approche particulière

Unique dans son approche, -une galette de silicium pour un seul processeur- Cerebras revendique un rendement de 100 %. Comment est-ce possible ? Simplement parce que le procédé 7 nm de TSMC choisi est désormais très mature et parce que la puce est conçue pour gérer les petits défauts internes. La puce précédente intégrait déjà 1,5 % de cœurs en plus pour pallier les éventuels défauts et le WSE-2 fait de même.

Les chiffres du WSE-2 donnent aussi le tournis côté installation : le monstre ne se monte pas dans une tour ATX BeQuiet de votre revendeur préféré. Non, il lui faut un système appelé CS-2. Une machine de la taille d’un rack 15U, avec 12 connexions réseau à 100 Gbit, ainsi que douze alimentations de 4000W — six pour le fonctionnement et six de secours, merci la redondance. Le tout refroidi à l’eau avec un circuit interne custom.

Cerebras CS-2, le processeur titanesque qui va changer la course à l’IA

S’il est gros par rapport à votre PC gamer, le CS-2 qui intègre le WSE-2 est pourtant incroyablement plus compact qu’un supercalculateur de plusieurs dizaines de racks qu’il peut remplacer. Et en intégrant à la fois la RAM et les cœurs dans une seule puce, il évite les allers-retours de données incessants, ce qui lui permet (sur le papier) d’offrir un rapport de puissance sans équivalent dans son domaine.

 

Pour sa seconde génération de processeurs géants, Cerebras Systems annonce pouvoir mettre en réseau 192 systèmes de Cerebras CS-2. Une combinaison monstrueuse couplant 162 millions de cœurs d’IA.

Le début de la vraie intelligence cyber ?

Nous avons vu que le Cerebras CS-2 est le processeur le plus grand et le plus puissant de la planète en matière d’IA. On sait aujourd’hui qu’il peut fonctionner en réseau pour créer un réseau de « neurones » plus important que celui d’un cerveau humain. Cerebras System, l’entreprise qui a accouché de ce titan – 46225 mm², 2600 milliards de transistors composants 850.000 cores d’IA et 40 Go de mémoire intégrée ! – vient d’annoncer que son bébé peut désormais la jouer collectif !

Les institutions et les entreprises cibles vont pouvoir, si elles en ont les moyens, créer un super-super calculateur de 192 Cerebras CS-2 fonctionnant de pair. Les chiffres qui en découlent sont presque absurdes, puisqu’on parle ici d’un réseau de 162 millions de cœurs de calcul IA, offrant une complexité de 120 000 milliards de connexions potentielles, contre « seulement » 100 000 milliards de connexions synaptiques dans notre cerveau…

Notre cerveau conserve quand même un sacré avantage côté consommation énergétique : à 15 kWatts pour chacune des machines (sans parler des nœuds d’interconnexion), on parle ici de 2,88 mégawatts, alors que même le cerveau d’Einstein se contentait de trois petits repas pas jour (plus un goûter, éventuellement ?).

Toujours dans le délire des chiffres, ces fameux nœuds d’interconnexions appelés MemoryX qui pilotent chacun jusqu’à 32 Cerebras CS-2, intègrent un cocktail de mémoire RAM et Flash pour conserver les modèles et paramètres hors des processeurs – ce qui libère la mémoire interne de chaque puce pour exécuter les calculs. Et combien de mémoire peut-on mettre dans ces MemoryX ? Oh, trois fois rien : entre 4 To et 2,4 Po (pétaoctets). Oui, un peu plus que votre portable sous Windows 10…

Ce qui est important dans l’approche de Cerebras, c’est la densité de cœurs et la courte distance entre tous ces cœurs et les différentes mémoires. La latence est un problème important des supercalculateurs, qui accumulent certes des millions de cœurs, mais répartis sur des milliers de machines, avec des accès compliqués à la mémoire. Avec seulement 192 (très grosses) unités centrales Cerebras CS-2, un tel supercalculateur offre une densité de puissance/mémoire inédite.

Alors que pour l’heure, des entraînements d’IA avec GPT-3 peuvent prendre des semaines, voire des mois avec des milliards de paramètres, Cerebras CS-2 permettrait d’améliorer cette précision en montant à des billiards (des millions de milliards) de paramètres. Le tout dans des temps records.

Pas la peine de casser votre tirelire cependant, spécialisé dans l’entraînement et l’inférence, ce processeur ne peut même pas faire tourner Doom. Et les clients, qui doivent être adoubés par les autorités américaines, sont les géants du web, de la pharmacie, les gouvernements amis, les scientifiques, les entreprises liés à l’énergie ou encore la finance.

Il reste désormais à attendre le déploiement réel d’un tel système. Et voir si les performances sont à la mesure des espérances.

Liens vers les données plus techniques :

Cerebras remporte un succès dans le domaine des puces

AI startup Cerebras celebrated for chip triumph where others tried and failed

Company honored by Computer History Museum for cracking the code of making giant chips, with ‘stunning’ implications.

Technology is one of the most preservative practices in the world, in the sense that every invention builds upon the successes and failures that have come before it.

On Wednesday, AI startup Cerebras Systems was honored for carrying on that tradition in a ceremony at The Computer History Museum in Mountain View, California. The Museum has put up a display featuring the « Wafer-Scale Engine 2, » or WSE-2, the second version of the company’s AI chip that is the biggest computer chip ever made. The chip was introduced last year to run new versions of Cerebras’s supercomputer, the CS-2.

« It is the honor of a lifetime to be inducted into the Computer History Museum’s world-renowned collection, » said Andrew Feldman, co-founder and CEO of Cerebras, in an interview with ZDNet via Zoom.

« The scale of what you’ve done is very powerful, » said Dan’l Lewin, who is President and CEO of the Computer History Museum, in the same interview with Feldman. « This is a milestone in a journey forward, » added Lewin, « the implications are stunning. »

La technologie est l’une des pratiques les plus préservatrices au monde, dans le sens où chaque invention s’appuie sur les succès et les échecs qui l’ont précédée.

Mercredi, la startup d’IA Cerebras Systems a été récompensée pour avoir perpétué cette tradition lors d’une cérémonie au Computer History Museum de Mountain View, en Californie. Le musée a installé une exposition présentant le « Wafer-Scale Engine 2 », ou WSE-2, la deuxième version de la puce d’IA de la société, qui est la plus grande puce informatique jamais fabriquée. Cette puce a été introduite l’année dernière pour faire fonctionner les nouvelles versions du superordinateur de Cerebras, le CS-2.

« C’est l’honneur d’une vie d’être intronisé dans la collection de renommée mondiale du Computer History Museum », a déclaré Andrew Feldman, cofondateur et PDG de Cerebras, dans une interview accordée à ZDNet via Zoom.

« L’ampleur de ce que vous avez fait est très puissante », a déclaré Dan’l Lewin, qui est président et directeur général du Computer History Museum, dans la même interview avec Feldman. « C’est une étape importante dans un voyage vers l’avant », a ajouté Lewin, « les implications sont stupéfiantes ».

Cerebras et Abu Dhabi construisent le modèle d’IA en langue arabe le plus puissant au monde

Une équipe de scientifiques a compilé un volume extraordinaire de de textes en arabe en employant des techniques très ingénieuses pour saisir les nuances de la langue. 

 

Le descriptif

Signe des temps à venir, la startup Cerebras Systems vient d’annoncer une association avec Inception, une filiale de la société d’investissement G42 des Émirats arabes unis. L’idée est de créer le plus grand modèle linguistique ouvert au monde pour l’arabe, une langue parlée par environ 400 millions de personnes.

L’utilisation du programme, appelé Jais-Chat, se fait de la même manière que la saisie dans l’invite de Chat-GPT, à ceci près que Jais-Chat peut prendre et produire des textes en arabe en entrée et en sortie. Il peut, par exemple, écrire une lettre en arabe lorsqu’on lui demande de le faire en anglais :

jais-chat-example-of-writing-arabic-2023

Ou il peut prendre une invite en langue arabe et générer une réponse en arabe :

jais-example-arabic-language-prompt-2023

Entraîné sur un corpus spécial de textes arabes important, le programme renonce à l’approche typique qui consiste à construire un programme généraliste qui traite des centaines de langues, dans de nombreux cas de manière médiocre, et se concentre exclusivement sur les traductions anglaises et arabes.

Jais-Chat a obtenu 10 points de plus que LlaMA 2

Lors de tests – tels que le test QCM MMLU de l’Université de Californie à Berkeley, et le test HellaSwag de l’Institut Allen pour l’IA – Jais-Chat a obtenu 10 points de plus que les principaux LLM tels que LlaMA 2 de Meta. Il a battu les meilleurs programmes open-source tels que Bloom de Big Science Workshop de cette année, et il a également battu les modèles de langage spécialisés construits exclusivement pour l’arabe.

jais-chat-versus-other-language-models-2023

Jais-Chat obtient de meilleurs résultats à plusieurs tests en arabe par rapport à des modèles beaucoup plus grands tels que LlaMA 2 de Meta. Inception

« Beaucoup d’entreprises parlent de démocratiser l’IA », explique Andrew Feldman, cofondateur et PDG de Cerebras, lors d’un entretien avec ZDNET. « Nous donnons à 400 millions d’arabophones une voix dans l’IA. C’est cela démocratiser l’IA. C’est la langue principale de 25 pays ».

La disparité linguistique dans le secteur de l’IA fait l’objet d’une attention considérable depuis un certain temps déjà. L’initiative « No Language Left Behind » (NLLB), lancée l’année dernière par Meta Properties, travaille sur le traitement simultané de 200 langues, en mettant l’accent sur les langues dites « à faibles ressources », c’est-à-dire celles qui ne disposent pas d’un vaste corpus de textes en ligne pouvant être utilisés pour former les modèles.

« Si seulement 25,9 % des internautes parlent anglais, 63,7 % de tous les sites web sont en anglais »

Comme le notent les auteurs de Meta, les études menées dans ce domaine « indiquent que si seulement 25,9 % des internautes parlent anglais, 63,7 % de tous les sites web sont en anglais ».

« La vérité, c’est que les plus grands ensembles de données reposent sur le scraping de de l’internet, et l’internet est principalement en anglais, ce qui est une situation vraiment malheureuse », a déclaré M. Feldman.

Les tentatives pour combler le fossé linguistique dans le domaine de l’IA font appel à des programmes d’IA généralistes, tels que le NLLB de Meta. Cependant, ces programmes ne parviennent pas pour l’instant à s’améliorer dans un certain nombre de langues, y compris des langues à faibles ressources comme l’oromo (originaire d’Éthiopie et du Kenya), mais aussi des langues dont le matériel de traduction est pourtant très répandu, comme le grec et l’islandais.

A rebours des modèles multimodaux

Les programmes dits multimodaux, tels que le successeur du NLLB, SeamlessM4T de Meta tentent d’effectuer de nombreuses tâches différentes dans des dizaines de langues à l’aide d’un seul modèle, y compris la transcription de texte en parole et la génération de texte à partir de la parole. Cela peut alourdir l’ensemble du processus avec des objectifs supplémentaires.

Au lieu d’une approche généraliste ou multimodale, Inception et Cerebras ont construit un programme qui ne s’entraîne qu’à l’arabe et à l’anglais. Comment ?

  • Ils ont pour cela créé un ensemble de données spécial de textes en langue arabe. Ils ont compilé 55 milliards de tokens de données provenant d’une myriade de sources telles que Abu El-Khair, une collection de plus de 5 millions d’articles, couvrant une période de 14 ans, provenant de sources d’information majeures ; la version arabe de Wikipedia ; et les transcriptions des Nations unies, entre autres. Ensuite, les auteurs sont parvenus à augmenter les données de formation en langue arabe de 55 milliards de tokens à 72 milliards en effectuant une traduction automatique de textes anglais en arabe.
  • Les auteurs ont ensuite multiplié par 1,6 l’échantillonnage du texte en langue arabe, augmentant ainsi les données en langue arabe à un total de 116 milliards de tokens.
  • Les auteurs ont adopté une autre approche novatrice. Ils ont combiné les textes en arabe et en anglais avec des milliards de tokens provenant d’extraits de code informatique recueillis sur GitHub.

L’ensemble de données final comprend 29 % d’arabe, 59 % d’anglais et 12 % de code.

Un tokenizer spécifique

Les chercheurs ne se sont pas contentés d’utiliser un ensemble de données spécial. Ils ont également employé plusieurs techniques spécifiques pour représenter le vocabulaire arabe.

Les chercheurs ont pour ce faire construit leur propre « tokenizer ». Le tokenizer habituel utilisé par des programmes tels que GPT-3 « est principalement formé sur des corpus anglais », écrivent les chercheurs. De sorte que les mots arabes courants « sont sur-segmentés en caractères individuels […], ce qui diminue les performances du modèle et augmente le coût de calcul ».

Les chercheurs ont également utilisé un algorithme d' »intégration », ALiBi, développé l’année dernière par l’Allen Institute et Meta. Cet algorithme est beaucoup plus performant pour traiter les contextes très longs, c’est-à-dire les entrées d’un modèle linguistique tapées à l’invite ou rappelées de la mémoire.

Le code de Jais est publié sous licence Apache 2.0 et est disponible sur Hugging Face

« Nous cherchions à saisir les nuances linguistiques de l’arabe et les références culturelles », explique M. Feldman, qui a beaucoup voyagé au Moyen-Orient. « Et ce n’est pas facile quand la majeure partie du modèle est en anglais ».

Grâce à ces modifications, le résultat est un modèle linguistique appelé Jais, et son application de chat, Jais-Chat, mesurant 13 milliards de « paramètres », les poids neuronaux qui forment les éléments actifs critiques du réseau neuronal. Jais est basé sur l’architecture GPT-3 conçue par OpenAI, une version dite « décodeur » du Transformer de Google datant de 2017.

Le code du programme Jais est publié sous la licence de code source Apache 2.0 et est disponible au téléchargement sur Hugging Face. Une démonstration de Jais peut être utilisée en s’inscrivant sur une liste d’attente. Les auteurs prévoient de rendre l’ensemble de données public « dans un avenir proche », selon M. Feldman.

Les programmes ont été exécutés sur ce que Cerebras appelle « le plus grand supercalculateur au monde pour l’IA », appelé Condor Galaxy 1, qui a été construit pour G42 et a été dévoilé le mois dernier.

La machine est composée de 32 ordinateurs d’IA spécialisés de Cerebras, les CS-2, dont les puces contiennent collectivement un total de 27 millions de cœurs de calcul, 41 téraoctets de mémoire et 194 trillions de bits par seconde de bande passante. Ils sont supervisés par 36 352 processeurs de serveur EPYC x86 d’AMD. Les chercheurs ont utilisé une partie de cette capacité, soit 16 machines, pour former et « affiner » Jais.

Avec ses 13 milliards de paramètres, le programme est très performant. Il s’agit d’un réseau neuronal relativement petit, comparé à des éléments tels que le GPT-3, qui compte 175 milliards de paramètres.

« Ses capacités pré-entraînées surpassent tous les modèles arabes open-source connus », écrivent les chercheurs, « et sont comparables aux modèles anglais open-source qui ont été entraînés sur des ensembles de données plus importants ».

Comme le notent les auteurs, l’ensemble de données arabes de 72 milliards de tokens ne serait normalement pas suffisant pour un modèle de plus de 4 milliards de paramètres, selon la règle empirique de l’IA connue sous le nom de « loi de Chinchilla », formulée par les chercheurs de DeepMind de Google.

En fait, non seulement Jais-Chat dans sa forme à 13 milliards de paramètres surpasse LlAMA 2, mais dans une version plus petite de leur programme avec seulement 6,7 milliards de paramètres, ils sont également en mesure d’obtenir de meilleurs résultats aux mêmes tests tels que MMLU et HellaSwag.

jais-slide-deck-08-30-23pptx-slide-14

Jais-Chat obtient de meilleurs résultats à plusieurs tests en arabe par rapport à des modèles beaucoup plus grands tels que LlaMA 2 de Meta. Inception

« Ce qui était intéressant, c’est que l’arabe améliorait aussi l’anglais », a déclaré M. Feldman, se référant aux performances de Jais. « Nous avons fini par obtenir un modèle aussi performant que LlaMA en anglais, bien que nous l’ayons entraîné sur environ un dixième des données.

Articles sources :

Hilarant ou effrayant ?

 

Blanche-Neige est la princesse la plus âgée de l’univers de Disney.

Sortie en 1937, elle est la première d’une longue série de films de princesses de l’univers de Mickey. On la retrouvera dans son Live Action prévu pour mars 2024 avec Rachel Zegler et Gal Gadot.

En clair, cette IA nous montre…