Google a soulevé une vive polémique en licenciant, la semaine dernière, Timnit Gebru, qui s’occupait des questions éthiques liées à l’intelligence artificielle. En cause : un article scientifique, qui a fuité en ligne, remet en cause certains aspects du développement de l’IA chers à Google.
C’est un licenciement qui ne passe décidément pas. La décision de Google, mercredi 2 décembre, de se séparer de Timnit Gebru n’en finit pas de faire des vagues dans le monde tech et scientifique. Plus de 4 000 ingénieurs et chercheurs avaient déjà signé, mardi 8 décembre, une pétition critiquant le géant de l’Internet et apportant leur soutien à celle qui codirigeait chez Google la recherche sur les questions d’éthique liées à l’intelligence artificielle.
Ils regrettent, en premier lieu, le départ de l’une des rares spécialistes afro-américaines dans un domaine dominé par des ingénieurs blancs. Timnit Gebru est aussi l’une des chercheuses les plus respectée en la matière : elle a été l’une des premières à démontrer comment les algorithmes pouvaient être discriminatoires et comment ils pouvaient renforcer les biais racistes de ceux qui les utilisent. Ses travaux sur la reconnaissance faciale avaient poussé Microsoft, Amazon et IBM à revoir leur collaboration avec la police en 2018.
Le mythe du toujours plus
Mais ce licenciement ferait aussi suite « à une censure sans précédent », écrivent les auteurs de la pétition. Google s’est opposé à la publication d’un article scientifique soumis par Timnit Gebru, qui s’attaquait aux dangers de l’un des domaines les plus à la mode dans l’IA actuellement : le langage naturel. Il s’agit des efforts pour créer des robots capables de mener des conversations les plus cohérentes possibles avec les humains.
Ce secteur a connu des évolutions spectaculaires depuis un an avec, notamment, la publication d’un bot conversationnel, GPT-3, ultrapuissant, capable de discuter de tout et de rien avec une aisance sans précédent.
> À lire aussi sur France 24 : Comment GPT-3 repousse les limites de l’intelligence artificielle
Pour Timnit Gebru, il est urgent de « prendre du recul » dans ce domaine. Son article censuré, qui a fuité sur Internet durant le week-end, est un plaidoyer pour changer la manière dont on « nourrit » les algorithmes afin de les rendre plus savants dans leur compréhension du langage. « Il n’y a rien de révolutionnaire dans ce qu’elle écrit, mais c’est une synthèse très bien rédigée et argumentée de tous les risques de cette discipline », explique Jessica Heesen, spécialiste des questions d’éthique dans le traitement des données à l’université de Tübingen, contactée par France 24.
L’argument central qui sous-tend toute l’analyse de Timnit Gebru est « qu’il ne faut pas penser que plus de données veut dire un système plus intelligent », résume Laurence Devillers, professeure en intelligence artificielle à l’université de la Sorbonne, membre du Comité national pilote de l’éthique du numérique et auteure de « Les robots émotionnels : santé, surveillance, sexualité… et l’éthique dans tout cela » (éd. de l’Observatoire), contactée par France 24.
Discrimination à tous les étages
La tendance qui domine actuellement le développement du langage naturel pour les IA consiste, en effet, à leur faire ingurgiter toujours plus de données généralement glanées sur Internet afin d' »enrichir » leur vocabulaire et permettre à ces algorithmes de trouver, par eux-mêmes, des associations d’idées et de sens. La prouesse de GPT-3, qui avait appris 500 milliards de mots, « l’équivalent de plus de 150 fois toute l’encyclopédie Wikipedia (dans toutes les langues) », avait été saluée comme une performance majeure.
Mais cette boulimie a un prix, tient à rappeler Timnit Gebru. D’abord environnemental. Entraîner une IA comme GPT-3 consomme l’équivalent des émissions de CO2 d’une voiture qui effectue un trajet de 700 000 km.
Ces innovations contribuent donc au réchauffement climatique, dont les premières victimes sont souvent les pays les plus pauvres. C’est en cela que réside la première discrimination de cette course aux données, estime Timnit Gebru. « Est-il juste de demander aux résidents des Maldives (qui risque de se retrouver sous l’eau d’ici 2100) ou aux 800 000 Soudanais touchés par des inondations historiques de payer le prix requis pour entraîner des modèles de langage toujours plus performant en anglais alors que personne ne fait pareil avec le dhivehi (langue parlée aux Maldives) ou l’arabe soudanais ? », s’interroge-t-elle. Sans compter que les produits construits autour de ces agents conversationnels (comme Google Home ou Alexa d’Amazon) sont vendus aux consommateurs les plus aisés et les moins exposés aux conséquences du réchauffement climatique.
Un peu de beau, beaucoup de laideur ?
En outre, plus les bases de données sont grandes, moins l’homme peut contrôler de quoi l’IA se nourrit. « Les grands modèles linguistiques peuvent aboutir à une situation où les données sur l’apprentissage sont trop importantes pour être documentées. On ne saura rien de leurs provenances », assure Laurence Devillers.
Car les algorithmes vont apprendre aussi bien à partir de sites de référence, comme des médias reconnus, qu’en allant piocher sur des forums à la réputation douteuse. « Pourquoi faire confiance à ces modèles de langage nourris non pas par des textes sélectionnés, mais par les données d’Internet représentant beaucoup de fake news ? », s’interroge la chercheuse française. « Nourrir les systèmes d’IA de la beauté du monde mais aussi de sa laideur, et de sa cruauté, mais s’attendre à ce qu’elle ne reflète que la beauté, est un fantasme », avait résumé la sociologue américaine Ruha Benjamin en 2019.
Le risque est que cette laideur l’emporte sur le reste. Timnit Gebru souligne ainsi que les internautes les plus présents et bruyants sur le Web sont les blancs aisés qui, volontairement ou non, transmettent leurs préjugés dans ce qu’ils écrivent. Des biais que les IA toujours plus gourmandes vont intégrer et perpétuer.
Pour l’ex-star de l’IA éthique chez Google, il faudrait arrêter de toujours vouloir voir plus grand. La solution passe, peut-être, par des bases de données moins impressionnantes, donc mieux contrôlées par l’homme, et des IA plus malignes. « Les efforts de recherche devraient alors porter davantage sur la manière dont les algorithmes trouvent des corrélations entre les mots pour faire plus avec moins », estime Jessica Heesen, la chercheuse en éthique de l’université de Tübingen.
Pour elle, c’est cet aspect de l’article de Timnit Gebru qui a dû déplaire à Google, car « il remet en cause le modèle de développement du groupe », assure-t-elle. Le géant de l’Internet est, en effet, en position privilégiée pour avoir accès l’ensemble du Web. Mais si l’accent « est mis sur la qualité des données plutôt que sur la quantité, des concurrents plus petits seront plus à même de faire de l’ombre à Google », estime cette scientifique allemande.
Sans jamais citer son ex-employeur, Timnit Gebru s’est donc livrée dans cet article à une critique de toute la philosophie de Google en matière d’IA. Le géant du Net connaît les risques de cette course aux bases de données toujours plus grandes, mais il laisserait faire car avec les autres membres du club des Gafa, ce sont les seuls à avoir les moyens d’en profiter. Mais se faisant, « ils jouent aux apprentis sorciers », conclut Laurence Devillers. Le risque étant que les IA de demain ne reflètent que très peu la fameuse « beauté du monde ».
France 24