Meta dévoile Code Llama, son modèle d’IA pour générer du code

Le modèle de langage de Meta destiné au code est open source et disponible en plusieurs versions, dont une spécifique à Python.

 

Code Llama entre dans la danse pour concurrencer OpenAI et Google

Meta a dévoilé sa dernière innovation, Code Llama, son IA capable de générer du code basé sur son grand modèle de langage Llama 2. Ce nouveau modèle de langage, spécialement conçu pour la programmation et les développeurs, permet la génération de code et la production en langage naturel, en réponse à des prompts en code ou en langage naturel. Gratuit pour la recherche et l’usage commercial, Code Llama est disponible en trois versions spécifiques :

  • Code Llama : le modèle de base pour la génération de code,
  • Code Llama – Python : spécialement conçu pour le langage de programmation Python,
  • Code Llama – Instruct : affiné pour comprendre et générer des réponses en langage naturel à partir d’instructions.

La flexibilité de Code Llama le rend adaptable à plusieurs langages de programmation, dont les plus couramment utilisés, comme Python, C++, Java, PHP, C# ou même Bash.

Des possibilités qui placent Code Llama parmi les meilleures IA génératrices de code ?

Code Llama se révèle être un modèle de langage polyvalent, capable de générer du code complet, compléter des parties de code et aider à déboguer des programmes. Les possibilités en termes de rédaction en langage naturel permettent l’apprentissage pour les débutant, mais les développeurs plus aguerris peuvent également obtenir des suggestions pertinentes et une assistance pratique pour rédiger un code plus robuste et mieux documenté.

Chacune des versions de Code Llama a été entraînée sur 500 milliards de jetons et de données liées au code.

Meta a réalisé son propre benchmark pour tester Code Llama par rapport aux autres solutions existantes, en utilisant HumanEval et MBPP (Mostly basic Python programming). Les résultats ont révélé que « Code Llama a mieux performé que les autres modèles de langage open source existants et a surpassé Llama 2 », écrit Meta dans un blog post, avec des scores de 53,7 % sur HumanEval et de 56,2 % sur MBPP pour Code Llama – Python.

Comment accéder à Code Llama

Meta met à disposition ses modèles de langage open source qu’il est possible de télécharger en en faisant la demande en suivant ce lien. Parallèlement, toutes les recettes d’entraînement de Code Llama sont disponibles sur GitHub. Tous les détails liés à son installation y sont également renseignés. Et afin d’être complet, Meta ajoute parallèlement son article de recherche sur le sujet, ainsi qu’un guide pour une utilisation responsable.

« Chez Meta, nous croyons que les modèles d’IA, en particulier les LLM (grands modèles de langage, ndlr) pour la programmation, tire le meilleur parti d’une approche ouverte, à la fois en termes d’innovation et de sécurité. Les modèles spécifiques au code, disponibles publiquement, peuvent faciliter le développement de nouvelles technologies qui améliorent la vie des gens. En publiant des modèles de code comme Code Llama, l’ensemble de la communauté peut évaluer leurs capacités, identifier des problèmes et corriger des vulnérabilités », justifie la firme américaine.

170 000 livres piratés : voici ce que Meta et d’autres entreprises auraient utilisé pour entraîner leur IA

Le groupe META ; mais c’est aussi le cas d’autres entreprises du secteur de l’intelligence artificielle, auraient entraîné leur système d’IA générative sur une base de données piratée, Books3 : voici ce qu’elle contient, selon les investigations de The Atlantic.

 

Introduction

Une base de données secrète et piratée, des livres d’illustres auteurs comme Stephen King et Margaret Atwood, et un silence plus qu’opaque : voici comment résumer les investigations d’Alex Reisner. Cet informaticien et écrivain, qui relate son enquête dans les colonnes de The Atlantic le 19 août dernier, s’est plongé dans les bases de données d’entraînements des grands modèles de langage. Car si les auteurs se plaignent depuis des mois de voir leurs œuvres servir de données d’entraînements des systèmes d’IA générative comme ChatGPT, Bard ou DALL-E sans leur consentement, ils n’avaient jusqu’à présent pas le moindre accès à ces données. Les entreprises qui développent les outils d’IA générative permettant de générer du texte, des images ou du code, ne sont pour l’instant pas soumises à des obligations de transparence en la matière. Et lorsqu’on les interroge sur le contenu de ces données de formation de leur système, elles restent souvent évasives.

L’auteur explique ainsi être parti d’un constat : pour produire les réponses à des prompts, les systèmes d’IA ont dû ingurgiter des milliards de données en accès libre sur le Web, mais pas seulement. Ils ont dû aussi s’entraîner sur bon nombre de « données plus qualitatives » : des livres, protégés par des droits d’auteur, dont la moindre utilisation devrait nécessiter un consentement de leurs ayants droit. Si l’existence de bibliothèque pirate est relativement connue, son contenu l’est moins.

 « La seule façon de répliquer des modèles comme ChatGPT » : Books3

Alex Reisner explique ainsi avoir passé du temps sur les plateformes GitHub et Hugging Face, épluchant des discussions de développeurs universitaires et d’amateurs. Il aurait ensuite téléchargé un cache massif de textes d’entraînement créé par EleutherAI — une organisation à but non lucratif — qui contient l’ensemble de données Books3.

En 2020, Books3 a été mise en ligne par Shawn Presser, un chercheur qui milite pour l’open source. Pour ce dernier, cette base de données est « la seule façon de répliquer des modèles comme ChatGPT ». Sans ce jeu de data, seules des sociétés « d’un milliard de dollars » comme OpenAI auraient suffisamment de ressources pour créer des outils d’IA générative, explique-t-il dans la revue Gizmodo. Cette dernière comprendrait près de 196 640 références au format plain.txt, selon un de ses tweets relayés par Torrent Freak.

170 000 livres publiés ces 20 dernières années

Cette base aurait été utilisée par META pour entraîner son LLaMA pour Large Language Model Meta AI, un modèle open source qui se présente comme une alternative au GPT d’OpenAI, comme l’entreprise l’a elle-même écrit dans un papier de recherche. Cette utilisation est d’ailleurs au cœur d’un procès initié en juillet dernier aux États-Unis, qui oppose l’humoriste américaine Sarah Silverman et deux autres auteurs à Meta et à OpenAI.

Et que contient cette base ?

Elle comporte bon nombre de livres piratés (près de 170 000) dont la majorité a été publiée ces 20 dernières années, ainsi que d’autres données plus surprenantes comme les sous-titres de vidéos sur YouTube, les documents et transcriptions du Parlement européen, Wikipédia en anglais, les courriels envoyés et reçus par les employés d’Enron Corporation avant son effondrement en 2001.

Documentaires, travaux de chercheurs, thrillers, les livres concernés représenteraient pour un tiers de la fiction, et pour deux tiers des documentaires, provenant de grands et petits éditeurs, par exemple Penguin Random House, certainement la plus grandes maisons d’édition américaine. Des livres écrits par Stephen King, Margaret Atwood, Haruki Murakami et bien d’autres auraient donc servi de données d’entraînements pour des programmes d’IA générative.

Du cotè des auteurs français : Quels auteurs français ont alimenté les intelligences artificielles, malgré eux ?
Publié sur Actualitté par Nicolas Gary le 27 septembre 2023

La nouvelle IA de Meta peut traduire la parole et le texte dans près de 100 langues

SeamlessM4T: The first, all-in-one, multimodal translation model

SeamlessM4T : le premier modèle de traduction multimodale tout-en-un

 

SeamlessM4T is a foundational speech/text translation and transcription model that overcomes the limitations of previous systems with state-of-the-art results

SeamlessM4T est un modèle fondamental de traduction et de transcription de la parole et du texte qui surmonte les limites des systèmes précédents avec des résultats à la pointe de la technologie

 

Présentation

Ce modèle, baptisé SeamlessM4T, est capable de gérer plusieurs types de traductions, notamment de texte à parole, de parole à texte, de parole à parole et de texte à texte, dans près de 100 langues. Contrairement à d’autres traducteurs qui utilisent plusieurs modèles, SeamlessM4T est un système unique qui, selon Meta, « réduit les erreurs et les retards » et augmente « l’efficacité et la qualité du processus de traduction ».

SeamlessM4T s’appuie sur les travaux antérieurs de Meta en matière d’intelligence artificielle.

SeamlessM4T est publié sous une licence de recherche

Comme beaucoup de modèles d’IA précédents de Meta, SeamlessM4T est publié sous une licence de recherche pour permettre aux chercheurs et aux développeurs de s’appuyer sur la technologie. Meta publie également les métadonnées du projet dans un ensemble nommé SeamlessAlign. Meta affirme qu’il s’agit du plus grand ensemble de données multimodales open source, contenant 270 000 heures d’alignement de paroles et de textes sur lesquels son IA a été formée.

Sur le blog de META, SeamlessM4T, vous trouverez une présentation, les informations techniques et plein d’autres choses…

Les capacités excellentes du modèle de génération audio de Meta : Audiobox

Audiobox gère une multitude de tâches liées à la génération et la modification de fichiers audio.

La solution de FAIR (Fundamental AI Research) se décompose en réalité en plusieurs modèles spécialisés : Audiobox SSL (apprend les distributions et corrélations temporelles dans l’audio), Audiobox Speech (pour la génération de paroles) et Audiobox Sound (pour la génération de bruits). La version unifiée de Speech et Sound permet une génération conjointe de parole et de sons.

Audiobox : Where anyone can make a sound with an idea

Audiobox is Meta’s new foundation research model for audio generation. It can generate voices and sound effects using a combination of voice inputs and natural language text prompts — making it easy to create custom audio for a wide range of use cases. The Audiobox family of models also includes specialist models Audiobox Speech and Audiobox Sound, and all Audiobox models are built upon the shared self-supervised model Audiobox SSL

Audiobox est le nouveau modèle de recherche de Meta pour la génération audio. Il peut générer des voix et des effets sonores en utilisant une combinaison d’entrées vocales et d’invites textuelles en langage naturel, ce qui facilite la création d’un son personnalisé pour un large éventail de cas d’utilisation. La famille de modèles Audiobox comprend également les modèles spécialisés Audiobox Speech et Audiobox Sound, et tous les modèles Audiobox sont construits sur le modèle auto-supervisé partagé Audiobox SSL.

Pour une information complète : Audiobox

Pour la partie technique : Generating audio from voice and natural language prompts