Quelques textes de réflexion sur ChatGPT

Cette sélection est purement personnelle, elle n’engage que moi même

Course à l’intelligence artificielle : même les gourous de la tech prennent peur

L’ONG américaine Future of Life a mis en ligne une pétition, signée par des centaines de chercheurs et figures de la tech comme Elon Musk et Yoshua Bengio, qui demande aux entreprises de « faire une pause d’au moins six mois » dans la course aux intelligences artificielles génératives illustrée par le fulgurant succès de ChatGPT. Cet appel relaie les craintes du monde de la recherche sur le manque de garde-fous autour de cette nouvelle technologie, pour l’instant maîtrisée uniquement par une poignée de géants de la tech, à l’instar de Google et Microsoft. Explications

« Nous demandons à tous les laboratoires d’intelligence artificielle de mettre immédiatement en pause, pour au moins six mois, les entraînements des systèmes d’IA plus puissants que GPT-4. » Voilà l’appel de l’ONG Future of Life, dans une pétition signée par plus de 200 chercheurs et experts de la tech, parmi lesquels Elon Musk, le chercheur Yoshua Bengio, le co-fondateur d’Apple Steve Wozniak, ou encore l’homme politique américain Andrew Yang.

Source : Course à l’intelligence artificielle : même les gourous de la tech prennent peur (réservé aux abonnés)
Publié sur La Tribune le 29 mars 2023

L’IA est dans les mains de quelques entreprises, voici pourquoi c’est un problème

Ne laissons pas le secteur de l’intelligence artificielle entre les mains de quelques entreprises, plaident trois chercheurs, qui appellent les pouvoirs publics à réagir. Voici pourquoi.

La situation

La force de frappe des Big Tech dans l’intelligence artificielle (IA) a mis K-O les centres de recherche publics et universitaires.  C’est ce que pensent trois chercheurs du Massachusetts Institute of Technology (MIT), qui lancent une alerte dans un article publié dans Science le 2 mars dernier. Pendant des décennies, expliquent les chercheurs, la recherche dans ce secteur a été menée par les centres de recherche publics et les équipes Recherche et développement du secteur privé. Mais aujourd’hui, les choses ont changé.

L’industrie est devenue de plus en plus influente, et cela devrait inquiéter les pouvoirs publics, écrivent-ils. Car une grande partie des ressources et des connaissances du secteur est désormais entre les mains d’une dizaine d’individus et d’entreprises. Et ce sont eux qui définiront les produits et les applications de demain, ce qui signifie que toutes les applications d’intérêt public risquent de devenir de plus en plus rares, estiment les auteurs de l’article scientifique.

Déséquilibre du financement

Cette « mainmise de l’industrie » peut d’abord s’observer au niveau des investissements publics et privés faits dans l’IA. Pour poursuivre des recherches dans ce secteur, il faut un financement tel que le secteur public ne peut pas suivre, expliquent les chercheurs, prenant l’exemple d’OpenAI, à l’origine de ChatGPT. La structure a d’abord été une organisation à but non lucratif. Son objectif d’alors n’était pas de générer des profits, mais que l’humanité toute entière profite des fruits de son travail. Quatre ans plus tard, Microsoft y a investi près d’un milliard de dollars. OpenAI a changé de statut pour devenir une « organisation à but lucratif plafonnée ». La raison : avec ce financement, elle a pu « augmenter rapidement ses investissements dans le calcul et embaucher plus d’ingénieurs ».

Cet exemple illustre le déséquilibre de plus en plus flagrant entre financement public et privé, soulignent les scientifiques. Alors que le secteur privé a investi 340 milliards de dollars dans ce secteur en 2021, les agences gouvernementales américaines y ont investi près de 1,5 milliard de dollars, la Commission européenne 1 milliard d’euros.

Une absence de contrôle, des secteurs délaissés…

Interrogé par le Financial Times (article payant), Nur Ahmed, un des trois auteurs de l’article, a expliqué que les financements publics ne permettaient pas par exemple de construire de grands modèles de langage comme le GPT-4. Car cette IA nécessite d’énormes quantités de données et de puissance de calcul à laquelle seules les grandes entreprises technologiques comme Google, Microsoft et Amazon ont accès. Ce qui signifie que les chercheurs ne peuvent pas reproduire les modèles construits par ces entreprises, et qu’ils ne peuvent donc pas les analyser pour vérifier par exemple la présence éventuelle de préjudices ou de biais.

Et autre conséquence, les alternatives « publiques » aux technologies d’IA des entreprises, servant l’intérêt général, seront de plus en plus rares, soutiennent les chercheurs. Les entreprises vont en effet chercher à gagner des profits et à vendre leurs services : une vision des choses partagée par Alex Hanna, directrice de recherche au Distributed AI Research Institute et ancienne membre de l’équipe « Ethical AI » de Google, interrogée par le Financial Times. Les thématiques comme la préservation de la biodiversité, la science du climat ou l’agriculture ne sont pas vraiment la priorité des recherches actuelles des industriels, explique-t-elle.

Comment alors réduire cette mainmise des industries sur l’IA ? Les scientifiques plaident pour davantage de ressources pour le secteur public – y compris au niveau des salaires des chercheurs pour que ces derniers soient davantage incités à rester dans le public.  Les titulaires de doctorat en IA finissent à 70% dans des entreprises – en 2004, cela ne concernait que 21% des doctorants, selon une étude du MIT. Et cette proportion a certainement augmenté depuis la révolution ChatGPT. Autre moyen d’atténuer la mainmise de l’industrie sur l’IA : la mise en place de centres de données réservés aux universitaires.

Mais les chercheurs demandent surtout une réaction des pouvoirs publics qui pourraient mettre en commun des ressources : de quoi atteindre le niveau nécessaire pour créer des alternatives répondant à l’intérêt public. Il s’agit aussi de garantir des capacités de contrôle des IA actuellement sur le marché, écrivent les auteurs de l’article, rappelant que si rien n’est fait, ces quelques entreprises auront seules le privilège de définir les IA de demain.

Article source : L’IA est dans les mains de quelques entreprises, voici pourquoi c’est un problème
Publié sur 01Net par Stéphanie Bascou le 27 mars 2023

Lire aussi : The growing influence of industry in AI research
Publié sur Science le 2 mars 2023

ChatGPT peut mettre dans le domaine public les documents soumis par les collaborateurs des entreprises

 ChatGPT se réserve le droit d’utiliser le contenu qui lui avez transmis pour analyse, un risque important pour les entreprises

ChatGPT permet des gains de productivité considérables sur certaines tâches en entreprise. Cet apport de performance pousse de plus en plus les collaborateurs à soumettre des documents internes pour divers traitements.

Mais dans les termes et conditions de la version grand public en accès libre du « Large Language Model » (LLM) conversationnel ChatGPT, et notamment dans l’expression de sa politique de confidentialité, OpenAI stipule bien que l’intégralité du contenu partagé au modèle est immédiatement intégrée et réutilisée à des fins de recherche, de maintenance, d’analyse et d’amélioration (Privacy Policy – Article 2).

Tout en étant une vraie évolution de la mécanisation de l’entreprise, ces nouvelles technologies utilisées à mauvais escient constituent un réel danger pour nos firmes vis-à-vis de la confidentialité et de leur souveraineté.

Le danger

Ces modèles de langage s’entrainent avec toutes les données qui leur sont soumises. Que ce soit les prompts, les documents et même les réponses. Quand par exemple un utilisateur demande une deuxième réponse, c’est certainement que la première ne lui convient pas et le modèle l’apprend.

Il est alors possible, voire même très probable, que ces données soient réutilisées dans les éléments de réponse à une requête d’un utilisateur lambda questionnant ChatGPT avec un prompt mentionnant le nom de l’entreprise, le sujet contenu dans le document ou en formulant précisément une demande sur le sujet.

De plus, en vertu des autres mentions liées à l’amélioration continue, les données collectées par le modèle ne resteront probablement pas stockées dans des Data Centers. Il n’y a pas de raison pour lesquelles OpenAI se priverait d’un tel actif acquis avec le consentement, pas forcément éclairé, des utilisateurs et fera vraisemblablement l’objet d’études et d’analyses.

Enfin, les termes et conditions mentionnent aussi la possibilité d’utiliser ces données dans le but de développer de nouveaux programmes et services. Il ne faut pas oublier que Microsoft est actionnaire de OpenAI et que les GAFAM n’ont jamais caché leur volonté d’élargir leurs marchés à des services grand public type opérateurs de télécommunication, constructeurs de téléphones mobiles ou encore banque et assurance par exemple.

Les collaborateurs des entreprises n’ont donc pas vraiment conscience de la portée de leurs actes et des CGU de ChatGPT. Ils créent une vraie hémorragie de documents confidentiels qui rejoignent d’un clic le domaine public comme certains grands groupes en font fait les frais.

Le cas de Samsung

En effet, le géant coréen de l’électronique recense plusieurs cas de rupture de confidentialité à la suite de l’utilisation de ChatGPT par ses développeurs. En voulant bénéficier de la capacité de Copilot à générer et corriger les langages de programmation, ces derniers ont soumis du code et demandé des recommandations de corrections.

Ce code source confidentiel, faisant intégralement partie de la propriété intellectuelle de Samsung et lui procurant un réel avantage concurrentiel est désormais en toute légalité entre les mains de OpenAI. Le fait qu’un géant mondial tel que Samsung subisse un incident de cette ampleur révèle un danger dont aucune firme n’est à l’abri aujourd’hui. Une étude récente de Cyberhaven démontrait dès février 2023 que 3% des employés des entreprises du monde entier avaient déjà divulgué des informations internes de leur firme à ChatGPT.

Samsung a évidemment décidé de mettre fin à ces fuites en interdisant l’utilisation de ChatGPT à l’ensemble de ses collaborateurs, mais certains pays ont réagi à leur échelle en prenant des mesures similaires.

Les mesures italiennes

L’Italie a banni l’accès à ChatGPT sur l’ensemble de son territoire. Bien qu’abrupte, cette action coup de poing a le mérite de susciter une prise de conscience généralisée des tenants et aboutissants de l’utilisation du modèle de langage grand public de OpenAI. Le gendarme du numérique italien a aussi utilisé la problématique de données personnelles régit par la réglementation RGPD pour argumenter sa décision. Il est fort à parier que devant un tel fléau, d’autres pays prennent ce genre de décision ou demandent aux entreprises de mieux maîtriser ces nouveaux modèles.

Que faire alors ?

L’avènement des IA génératives et des LLM en ligne et gratuits ont mis en évidence d’extraordinaires capacités d’augmentation de la performance ainsi que de nouveaux usages pour toutes nos entreprises, tous secteurs confondus. En effet, l’Intelligence artificielle basée sur le Machine Learning étaient difficilement accessible aux ETI et PME compte tenu des coûts d’entrée. Il n’en est pas de même avec les LLM car la plupart des modèles peuvent être achetés et consommés en ligne avec des business models de « Pay As You Go » ou encore « Model As A Service » : une vraie démocratisation de l’Intelligence artificielle en la mettant dans les mains des métiers et de tout le tissu industriel.

Il faut cependant que les entreprises, si elles souhaitent que leurs collaborateurs utilisent ces nouveaux outils, maitrisent complètement les LLM qu’elles déploient. En effet, le marché regorge de LLM, ayant les mêmes capacités que ChatGPT, qu’il est possible de personnaliser et recentrer sur les périmètres d’usages de chacun tout en se prémunissant de toutes formes de préjudices pour profiter pleinement de la puissance de ces nouveaux outils.

Nos entreprises et nos institutions font donc face, en ce début d’année 2023, à un engouement et une adoption fulgurante d’une technologie révolutionnaire qu’il leur faut maintenant maitriser pour pouvoir en tirer le plus rapidement possible toute la valeur sans en subir les conséquences. Cela doit passer par des choix stratégiques d’architectures autour des LLM, mais aussi d’intégration au règlement intérieur de ces nouveaux outils comme l’ont été auparavant les navigateurs web.

Source : ChatGPT peut mettre dans le domaine public les documents soumis par les collaborateurs des entreprises
Tribune de M. Alex Melennec, Expert IA chez AI Builders, publié sur La Tribune le 12 avril 2023

Les IA comme Chat GPT sont une «illusion d’intelligence» pouvant «manipuler»

L’intelligence artificielle est au cœur de toutes les conversations depuis de nombreux mois. L’apparition du prototype conversationnel Chat GPT a eu l’effet d’une bombe dans le monde. Que ce soit pour faire la conversation ou demander un réel renseignement, des millions de personnes l’utilisent chaque jour dans le monde. Ses capacités, par leur puissance et leur précision, peuvent même inquiéter. Laurence Devillers, professeure en intelligence artificielle à Sorbonne Université, explique au micro d’Europe 1 que cette supposée supériorité est en fait une « illusion ».

Chat GPT, une « projection des capacités humaines »

L’intelligence artificielle a le pouvoir de maintenir une conversation comme un être humain, ce qui créé une « illusion d’intelligence » d’après la professeure. « Cette illusion d’intelligence va nous manipuler et c’est là où il faut faire très attention », poursuit-elle avant d’expliquer que la « machine ne fait que copier » et n’a « aucun sens sur ce qu’elle est en train de faire ». De ce fait, cette technologie ne possède pas d’émotions puisqu’il s’agit de « projections des capacités humaines ».

Ce sont ses capacités de langage qui incitent l’être humain à croire que cette dernière est plus intelligente et même plus émotive qu’elle ne l’est véritablement. Bien que Laurence Devillers avoue qu’il est difficile pour beaucoup de « faire la différence », elle confirme que le système même de l’intelligence artificielle n’a aucune forme de vie : « Il n’y a pas de conscience, il n’y a pas d’émotions, il n’y a pas d’intentions. »

La professeure en a profité pour ajouter que la manipulation déclenchée par diverses intelligences artificielles a déjà commencé, notamment via les réseaux sociaux avec les images modifiées. Dernièrement, de nombreuses photos fausses ont circulé sur internet, mettant en scène des personnalités publiques dans des situations incongrues. Une « coopération » avec les machines est donc nécessaire et passe notamment par « l’éducation » pour apprendre à mieux aborder cette nouvelle technologie.

Tribune diffusée sur Euope1 le 13 mai 2023

 

Deux vidéos depuis : Ça Vous Interesse !

Les IA génératives ont un gros problème

Que ce soit ChatGPT, Google Bard et toutes les autres IA ont un défaut en commun. D’après des experts de l’intelligence artificielle, cette défaillance risque de privilégier certains utilisateurs par rapport aux autres…

 

Mes explications

Les IA génératives, comme ChatGPT, Google Bard encore Claude d’Anthropic, partagent le même défaut de conception. D’après plusieurs experts en IA interrogés par Wired, les modèles linguistiques qui servent de socles aux chatbots ont en effet tendance à accentuer la domination de la langue anglaise par rapport à des idiomes moins populaires.

L’IA, une technologie essentiellement anglophone

Pour entraîner leurs modèles d’IA, des entreprises comme OpenAI ou Google utilisent des corpus de données en provenance d’Internet. Ces bases de données sont majoritairement constituées de textes rédigés en anglais, qui reste la langue la plus répandue sur le web. Une étude de Statista indique d’ailleurs que plus de 63 % des sites web sont édités dans la langue de Shakespeare.

Par exemple, GPT-4, la dernière version du modèle d’IA d’OpenAI, s’appuie essentiellement sur « des données de préformation » en anglais, admet OpenAI. De plus, les mesures d’atténuation, visant à encadrer l’IA et éviter les dérives, ont été mises en place « avec un point de vue centré sur les États-Unis ».

De facto, les robots conversationnels sont plus efficaces, précis et utiles lorsqu’ils communiquent avec un internaute anglophone. Finalement, les individus qui parlent exclusivement une autre langue partent avec un sérieux désavantage. Ils ne peuvent pas profiter à 100 % de toutes les innovations de l’intelligence artificielle.

« L’une de mes plus grandes préoccupations est que nous allons exacerber le parti pris pour les anglophones », met en garde Thien Huu Nguyen, informaticien de l’Université de l’Oregon, contacté par le média.

ChatGPT est mauvais en langues étrangères

D’après les constatations de Thien Huu Nguyen, les chatbots sont nettement moins doués lorsqu’ils génèrent des réponses dans une autre langue que l’anglais. Les IA ont encore beaucoup de mal à passer d’une langue à l’autre ou à résumer des textes écrits en langues étrangères. Interrogé dans une autre langue, ChatGPT a surtout plus souvent tendance à « halluciner », c’est-à-dire à inventer des informations erronées, ou à se contenter d’une réponse vague, indiquent des expériences menées par Nguyen et ses chercheurs.

Moins une langue est répandue dans le monde, moins elle sera présente dans les données qui abreuvent l’IA. En conséquence, les chatbots seront mécaniquement moins enclins à fournir des réponses pertinentes dans un dialecte méconnu… ce qui risque de précipiter le déclin de ces langages. En parallèle, les deux langues les plus parlées au monde, à savoir l’anglais et le mandarin, risquent de profiter de l’essor de l’intelligence artificielle pour asseoir leur domination, déjà considérable.

L’omniprésence de l’anglais risque par ailleurs de nuire à la modération dans d’autres langues. En se concentrant sur le sens des mots dans les langues les plus connues, les IA passeront à côté des termes potentiellement offensants ou insultants dans un autre dialecte. Comme le souligne le Center for Democracy & Technology, une organisation américaine, les algorithmes de détection utilisés par les géants de la tech, comme Meta, sont surtout efficaces en anglais. Il arrive d’ailleurs souvent que des contenus en arabe soient estampillés par erreur comme haineux. Derrière ces erreurs courantes, on trouve l’absence de textes numérisés permettant d’entraîner les IA et les algorithmes à d’autres langues. Pour certains dialectes, comme l’hindi et l’indonésien, il n’y a tout simplement pas assez de ressources pour entraîner les modèles. De ce fait, la modération des contenus, que ce soit celle des réseaux sociaux ou des chatbots, n’est pas aussi efficace qu’en anglais… ce qui laisse la porte ouverte aux abus.

Des améliorations en vue ?

Conscientes de cette lacune, les entreprises derrière l’IA ont pris des mesures. Sam Altman, PDG et cofondateur d’OpenAI, a notamment fait part de son intention de s’associer aux gouvernements pour améliorer la connaissance de ChatGPT en matière de langues étrangères.

De son côté, Google a d’ores et déjà changé son fusil d’épaule. PaLM 2, le dernier modèle d’IA annoncé par le géant de la recherche, a été entraîné avec des contenus rédigés dans une grande variété de langues. Grâce à ce corpus de formation, le modèle prend en charge une centaine de langues différentes. Malheureusement, ces améliorations linguistiques ne sont pas encore accessibles aux internautes. Actuellement, Bard, le chatbot animé par PaLM, ne comprend que l’anglais, le japonais et le coréen. De même, une partie des fonctionnalités reposant sur l’IA, comme l’option « Help Me Write (Aide-moi à écrire) » de Gmail, sont exclusivement disponibles aux anglophones.

Pour éviter les biais linguistiques de l’IA, les chercheurs recommandent de nourrir les modèles avec des « données synthétiques ». Il s’agit en fait de traductions de contenus rédigés initialement en anglais et convertis dans une langue méconnue. Cette approche devrait permettre de lutter contre l’omniprésence des textes anglais, estime Thien Huu Nguyen. Sans ces données de synthèse, il n’y aura « jamais assez de données dans d’autres langues », résume le chercheur.

ChatGPT, modèles de langage et données personnelles : quels risques pour nos vies privées ?

Les grands modèles de langage ont récemment attiré beaucoup d’attention, notamment grâce à l’agent conversationnel ChatGPT. Cette plate-forme est devenue virale en seulement quelques mois et a déclenché une course effrénée pour développer de nouveaux modèles de langage toujours plus efficaces et puissants, rivalisant avec l’humain pour certaines tâches.

 

Cette croissance phénoménale est d’ailleurs jugée dangereuse par de nombreux acteurs du domaine, qui plaident pour une pause afin d’avoir le temps de débattre sur l’éthique en IA et de mettre à jour les réglementations.

Une des grandes questions qui se pose est l’articulation entre intelligence artificielle et vie privée des utilisateurs. En particulier, les prouesses des grands modèles de langage sont dues à un entraînement intensif sur d’énormes ensembles de données, qui contiennent potentiellement des informations à caractère personnel, car il n’y a pas d’obligation d’anonymiser les données d’entraînement.

Il est alors difficile de garantir en pratique que le modèle ne compromet pas la confidentialité des données lors de son utilisation. Par exemple, un modèle pourrait générer des phrases contenant des informations personnelles qu’il a vues pendant sa phase d’entraînement.

Apprendre à imiter le langage humain

Les modèles de traitement du langage sont une famille de modèles basés sur l’apprentissage automatique (machine learning en anglais), entraînés pour des tâches telles que la classification de texte, le résumé de texte et même des chatbots.

Ces modèles apprennent d’une part à encoder les mots d’une phrase sous la forme de vecteurs, en tenant compte de l’ensemble du contexte. Dans les phrases « J’ai mangé une orange » et « Son manteau orange est beau », le mot « orange » se verra attribuer deux encodages différents, puisque la position et le sens ne sont pas les mêmes.

Ces modèles apprennent également à décoder ces ensembles de vecteurs contextualisés et leurs relations, pour générer de nouveaux mots. Une phrase est générée séquentiellement, en prédisant le prochain mot en fonction de la phrase d’entrée et des mots prédits précédemment

L’architecture de ces modèles peut être spécialisée pour certaines tâches. Par exemple, les modèles de type BERT sont souvent « affinés » en apprenant sur des données spécialisées, par exemple sur des dossiers de patients pour développer un outil de diagnostic médical, et sont plus performants sur des tâches de classification de texte tandis que les modèles GPT sont utilisés pour générer de nouvelles phrases. Avec l’essor des applications exploitant les modèles de langage de langage, les architectures et les algorithmes d’entraînement évoluent rapidement. Par exemple, ChatGPT est un descendant du modèle GPT-4, son processus d’apprentissage ayant été étendu pour se spécialiser dans la réponse aux questions.

Confidentialité des informations utilisées pendant la phase d’entraînement du modèle

Les modèles de traitement du langage naturel ont besoin d’une quantité énorme de données pour leur entraînement. Pour ChatGPT par exemple, les données textuelles du web tout entier ont été récoltées pendant plusieurs années.

Dans ce contexte, la principale préoccupation en matière de confidentialité est de savoir si l’exploitation de ces modèles ou les informations qu’ils produisent peuvent dévoiler des données personnelles ou sensibles utilisées pendant la phase d’apprentissage et « recrachées » ou inférées pendant la phase d’utilisation.

Considérons d’abord les chatbots (exploitant les modèles de type GPT) qui ont appris à générer des phrases à partir d’un texte d’entrée. D’un point de vue mathématique, chaque mot est prédit séquentiellement, sur la base de probabilités qui auront été apprises durant la phase d’entraînement.

Le problème principal est que des données potentiellement personnelles peuvent parfois constituer la réponse la plus probable. Par exemple, si le modèle a vu la phrase « Monsieur Dupont habite 10 rue de la République » et qu’on lui demande « Où habite Monsieur Dupont ? », le modèle sera naturellement enclin à répondre l’adresse de celui-ci. Dans la pratique, le modèle aura aussi vu de nombreuses phrases de la forme « X habite à Y » et on s’attend plutôt à ce qu’il réponde des connaissances générales plutôt que des adresses spécifiques. Néanmoins, le risque existe et il est nécessaire de pouvoir le quantifier.

Évaluer les probabilités de fuites de données

Il existe tout d’abord des techniques pour évaluer en amont de l’entraînement final si des phrases rares ont le potentiel d’être anormalement mémorisées par le modèle. On réalise pour cela des micro-entraînements, avec et sans ces phrases, et l’on se débarrasse de celles qui auraient une influence trop grande.

Mais les gros modèles de traitement du langage naturel sont non déterministes et très complexes de nature. Ils sont composés de milliards de paramètres et l’ensemble des résultats possibles étant infini, il est en pratique impossible de vérifier manuellement le caractère privé de toutes les réponses. Néanmoins, il existe des métriques qui permettent d’approximer ou de donner une borne maximale sur les fuites de données potentielles.

Une première métrique est l’« extractibilité ». Nous disons qu’un texte est « k-extractible » s’il est possible de le générer à partir d’une entrée de longueur k (en nombre de mots). Par exemple, si le modèle renvoie « 10 rue république » lorsqu’on lui demande « Monsieur Dupont habite à », cette adresse est 3-extractible.

Pour les données personnelles ou sensibles, l’objectif est d’avoir un k le plus élevé possible, car un k faible implique une extraction facile. Une étude de ce type a été réalisée sur GPT-2 : elle a permis d’extraire facilement des informations personnelles sur des individus.

Un autre risque qu’on peut évaluer est l’« inférence d’appartenance ». L’objectif ici est d’identifier si une donnée a été utilisée lors de l’apprentissage du modèle. Supposons par exemple qu’un hôpital entraîne un modèle pour détecter la présence de cancer à partir d’extraits médicaux de patients. Si vous parvenez à découvrir que le modèle a été entraîné sur les données de Monsieur Dupont, vous apprendrez indirectement qu’il est probablement atteint de cancer.

Pour éviter cela, nous devons nous assurer que le modèle ne donne aucun indice quant aux données sur lesquelles il a été entraîné, ce qu’il fait par exemple lorsqu’il se montre trop confiant vis-à-vis de certaines réponses (le modèle va mieux se comporter sur des données qu’il a déjà vu pendant la phase d’entraînement).

Trouver le bon compromis

Faire comprendre au modèle quelles données sont à caractère personnel n’est pas évident, puisque la frontière entre ces deux types de données dépend bien souvent du contexte (l’adresse d’Harry Potter est connue de tous, contrairement à celle de Monsieur Dupont).

L’entraînement d’un modèle qui respecte la confidentialité passe alors souvent par l’ajout de bruit à un moment ou un autre. L’ajout de bruit consiste à altérer l’information apprise ou bien les réponses du modèle, ce qui permet de réduire les risques d’extraction ou d’inférence. Mais cela implique aussi une légère baisse d’utilité. Il faut donc faire un compromis entre performance et respect des données personnelles.

Les applications potentielles des modèles de langage sont incroyablement vastes, mais il est nécessaire d’encadrer leur pratique en prenant compte les risques de fuites avant leur déploiement. De nouvelles méthodes d’entraînement, ainsi que l’anonymisation des données, voire l’utilisation de données synthétiques, sont toutes des solutions prometteuses et en cours d’étude, mais il faudra de toute manière les accompagner de métriques et de méthodologies pour valider non seulement les performances mais aussi la confidentialité des informations personnelles utilisées lors de l’entraînement des modèles.

Cet article a été co-écrit par Gaspard Berthelier, en stage au centre Inria de l’Université Grenoble Alpes dans l’équipe Privactics, sur le natural language processing (NLP) et le respect des données personnelles.

Publié sur The Conversation        (Faites un don ….)

Les élucubrations mathématiques de ChatGPT

Le modèle de langage massif qui fait les succès de ChatGPT révèle de nombreuses failles, dès lors qu’on teste sérieusement ses aptitudes mathématiques.

 

À la fin de l’année 2022, la société OpenAI a mis en ligne ChatGPT, un agent conversationnel multilingue basé sur le modèle GPT (Generative Pre-trained Transformer), à même de répondre apparemment aux questions les plus diverses.

Dans celui-ci, l’apprentissage consiste à analyser des textes récupérés sur Internet, à les découper en tokens (des mots ou des morceaux de mots), puis à mesurer la probabilité d’occurrence de chaque token T à la suite de séries de tokens {Ti}. Ainsi, pour simplifier, lors de l’apparition de la suite {Ti} il sera possible de proposer un token T suivant (le plus probable, le plus plausible…) et ce, bien sûr, indépendamment de la langue (on notera au passage que les notions de grammaire et de syntaxe ne jouent ici aucun rôle). Cette phase initiale est évidemment encadrée par des êtres humains qui procèdent à des ajustements, à des « réglages » (fine tuning). Une notion essentielle – et peut-être la clef de la réussite – est celle de pre-prompt : il s’agit d’une suite de tokens (certainement très complexe, mais confidentielle) insérée avant que l’utilisateur soumette ses propres phrases, et destinée à préciser le contexte, à orienter la génération des tokens suivants. Mais, chose essentielle à noter, ChatGPT n’a pas la notion de ce qui est vrai et de ce qui est faux. La seule chose qui importe, c’est la plausibilité évaluée en termes de probabilité : ses productions n’auront donc peut-être pas toujours valeur d’oracle, tant s’en faut, comme nous allons le vérifier.

Malgré cela, rapidement de nombreux utilisateurs de par le monde s’y sont connectés et, en mai 2023, ils étaient plus de deux cents millions à l’interroger fréquemment. Il est donc intéressant d’en étudier les possibilités, mais aussi les limites ainsi que les dangers, puisqu’en effet beaucoup sont ceux qui croient qu’il peut se substituer à Google ou encore Wikipédia.

L’article est long mais plus qu’amusant, je vous encourage à le lire !

Source : Les élucubrations mathématiques de ChatGPT
Publié sur Pour la Science par Jean-François Colonna le 8 juillet 2023

Autres articles à lire

 

  • ChatGPT serait de gauche, selon cette étude
    Des chercheurs de l’université d’East Anglia (Norwich, Angleterre) ont mis en évidence un certain nombre de biais politiques chez le célèbre ChatGPT. En effet, à l’issue des tests, celui-ci aurait proposé des réponses plutôt favorables à des opinions de gauche.
    Publié sur Clubic par Camille Coirault le 20 août 2023
  • Et si l’intelligence artificielle confisquait le pouvoir aux hommes politiques ?
    Lille, 24 mars 2044. Pour la première fois depuis sa création, une intelligence artificielle est élue maire d’une ville de plus de 100 000 habitants lors du deuxième tour des élections municipales. Créée par un nouveau parti politique, cet algorithme très puissant a développé seul un programme politique qui a suscité l’adhésion de la majorité des électeurs. Baptisé Ada (en hommage à Ada Lovelace, considérée comme l’inventrice du premier programme informatique), cet algorithme décliné en plusieurs versions locales a également remporté les élections dans d’autres villes, recueillant au niveau national plus de 10 % des voix. Ada fait donc son entrée dans de nombreux conseils municipaux, raflant plusieurs dizaines de mandats de conseillers à travers tout le pays. 
    Publié sur Usbek & Rica par Mathieu Chéret le 19 janvier 2023

Le Figaro