Les IA génératives, comme ChatGPT, Google Bard encore Claude d’Anthropic, partagent le même défaut de conception. D’après plusieurs experts en IA interrogés par Wired, les modèles linguistiques qui servent de socles aux chatbots ont en effet tendance à accentuer la domination de la langue anglaise par rapport à des idiomes moins populaires.
L’IA, une technologie essentiellement anglophone
Pour entraîner leurs modèles d’IA, des entreprises comme OpenAI ou Google utilisent des corpus de données en provenance d’Internet. Ces bases de données sont majoritairement constituées de textes rédigés en anglais, qui reste la langue la plus répandue sur le web. Une étude de Statista indique d’ailleurs que plus de 63 % des sites web sont édités dans la langue de Shakespeare.
Par exemple, GPT-4, la dernière version du modèle d’IA d’OpenAI, s’appuie essentiellement sur « des données de préformation » en anglais, admet OpenAI. De plus, les mesures d’atténuation, visant à encadrer l’IA et éviter les dérives, ont été mises en place « avec un point de vue centré sur les États-Unis ».
De facto, les robots conversationnels sont plus efficaces, précis et utiles lorsqu’ils communiquent avec un internaute anglophone. Finalement, les individus qui parlent exclusivement une autre langue partent avec un sérieux désavantage. Ils ne peuvent pas profiter à 100 % de toutes les innovations de l’intelligence artificielle.
« L’une de mes plus grandes préoccupations est que nous allons exacerber le parti pris pour les anglophones », met en garde Thien Huu Nguyen, informaticien de l’Université de l’Oregon, contacté par le média.
ChatGPT est mauvais en langues étrangères
D’après les constatations de Thien Huu Nguyen, les chatbots sont nettement moins doués lorsqu’ils génèrent des réponses dans une autre langue que l’anglais. Les IA ont encore beaucoup de mal à passer d’une langue à l’autre ou à résumer des textes écrits en langues étrangères. Interrogé dans une autre langue, ChatGPT a surtout plus souvent tendance à « halluciner », c’est-à-dire à inventer des informations erronées, ou à se contenter d’une réponse vague, indiquent des expériences menées par Nguyen et ses chercheurs.
Moins une langue est répandue dans le monde, moins elle sera présente dans les données qui abreuvent l’IA. En conséquence, les chatbots seront mécaniquement moins enclins à fournir des réponses pertinentes dans un dialecte méconnu… ce qui risque de précipiter le déclin de ces langages. En parallèle, les deux langues les plus parlées au monde, à savoir l’anglais et le mandarin, risquent de profiter de l’essor de l’intelligence artificielle pour asseoir leur domination, déjà considérable.
L’omniprésence de l’anglais risque par ailleurs de nuire à la modération dans d’autres langues. En se concentrant sur le sens des mots dans les langues les plus connues, les IA passeront à côté des termes potentiellement offensants ou insultants dans un autre dialecte. Comme le souligne le Center for Democracy & Technology, une organisation américaine, les algorithmes de détection utilisés par les géants de la tech, comme Meta, sont surtout efficaces en anglais. Il arrive d’ailleurs souvent que des contenus en arabe soient estampillés par erreur comme haineux. Derrière ces erreurs courantes, on trouve l’absence de textes numérisés permettant d’entraîner les IA et les algorithmes à d’autres langues. Pour certains dialectes, comme l’hindi et l’indonésien, il n’y a tout simplement pas assez de ressources pour entraîner les modèles. De ce fait, la modération des contenus, que ce soit celle des réseaux sociaux ou des chatbots, n’est pas aussi efficace qu’en anglais… ce qui laisse la porte ouverte aux abus.
Des améliorations en vue ?
Conscientes de cette lacune, les entreprises derrière l’IA ont pris des mesures. Sam Altman, PDG et cofondateur d’OpenAI, a notamment fait part de son intention de s’associer aux gouvernements pour améliorer la connaissance de ChatGPT en matière de langues étrangères.
De son côté, Google a d’ores et déjà changé son fusil d’épaule. PaLM 2, le dernier modèle d’IA annoncé par le géant de la recherche, a été entraîné avec des contenus rédigés dans une grande variété de langues. Grâce à ce corpus de formation, le modèle prend en charge une centaine de langues différentes. Malheureusement, ces améliorations linguistiques ne sont pas encore accessibles aux internautes. Actuellement, Bard, le chatbot animé par PaLM, ne comprend que l’anglais, le japonais et le coréen. De même, une partie des fonctionnalités reposant sur l’IA, comme l’option « Help Me Write (Aide-moi à écrire) » de Gmail, sont exclusivement disponibles aux anglophones.
Pour éviter les biais linguistiques de l’IA, les chercheurs recommandent de nourrir les modèles avec des « données synthétiques ». Il s’agit en fait de traductions de contenus rédigés initialement en anglais et convertis dans une langue méconnue. Cette approche devrait permettre de lutter contre l’omniprésence des textes anglais, estime Thien Huu Nguyen. Sans ces données de synthèse, il n’y aura « jamais assez de données dans d’autres langues », résume le chercheur.