L’ère de l’Internet généré par l’IA est déjà là

thegames15février 4, 2024

0 7 minutes de lecture

Ce n’est pas un théorie du complot ou prophétie future. L’idée d’un Internet dominé par le contenu généré par l’IA existe déjà et elle ne semble pas bonne.

Depuis ChatGPT arrivé sur le marché, le contenu généré par l’IA s’infiltre progressivement sur Internet. L’intelligence artificielle existe depuis des décennies. Mais ChatGPT, destiné aux consommateurs, a poussé l’IA vers le grand public, créant une accessibilité sans précédent aux modèles d’IA avancés et à une demande sur laquelle les entreprises sont désireuses de capitaliser.

En conséquence, les entreprises et les utilisateurs tirent parti de l’IA générative pour produire de gros volumes de contenu. Alors que la préoccupation initiale est l’abondance de contenus contenant des inexactitudes, du charabia et de la désinformation, l’effet à long terme est une dégradation complète du contenu Web en déchets inutiles.

Les déchets entrent, les déchets sortent

Si tu réfléchis, Internet contient déjà un tas de déchets inutiles, c’est vrai, mais c’est différent. “Il y a beaucoup de déchets là-bas… mais ils sont incroyablement variés et diversifiés”, a déclaré Nader Henein, analyste vice-président du cabinet de conseil en gestion Gartner. À mesure que les LLM se nourrissent du contenu des autres, la qualité se détériore et devient plus vague, comme une photocopie d’une photocopie d’une image.

Pensez-y de cette façon : la première version de ChatGPT était le dernier modèle à être formé sur du contenu entièrement généré par l’homme. Depuis lors, chaque modèle contient des données d’entraînement dont le contenu généré par l’IA est difficile à vérifier, voire à suivre. Cela devient peu fiable, ou pour parler franchement, des données inutiles. Lorsque cela se produit, « ?nous perdons en qualité et en précision du contenu, et nous perdons de la diversité”, a déclaré Henein, chercheur en protection des données et en intelligence artificielle. “Tout commence à ressembler à la même chose.”

« Apprentissage incestueux », c’est ainsi que Henein l’appelle. “Les LLM ne sont qu’une grande famille, ils consomment simplement le contenu des autres et se pollinisent mutuellement, et à chaque génération vous avez… de plus en plus de déchets au point où les déchets dépassent le bon contenu et les choses commencent à se détériorer à partir de là.”

À mesure que de plus en plus de contenus générés par l’IA sont diffusés sur le Web, et que le contenu est généré par des LLM formés sur le contenu généré par l’IA, nous envisageons un futur Web totalement homogène et totalement peu fiable. En plus, c’est vraiment ennuyeux.

Effondrement du modèle, effondrement d’Internet

La plupart des gens je sens déjà quelque chose ne va pas.

Dans certains des exemples les plus médiatisés, l’art est reproduit par des robots. Les livres sont avalés entiers et reproduits par les LLM sans l’autorisation des auteurs. Les images et vidéos utilisant les voix et les apparences de célébrités sont réalisées sans leur consentement ni compensation.

Mais les lois existantes sur le droit d’auteur et la propriété intellectuelle sont déjà en place pour protéger de telles violations. De plus, certains adoptent la collaboration IA, comme Grimes, qui propose des accords de partage de revenus avec des créateurs de musique IA et des maisons de disques qui explorent accords de licence avec des entreprises de technologie d’IA. Sur le plan politique, les législateurs ont introduit un Loi anti-contrefaçon pour protéger les personnalités publiques des répliques de l’IA. Les réglementations nécessaires pour résoudre tous ces problèmes ne sont pas en place, mais il est au moins imaginable de les résoudre.

La chute de la qualité globale de tout ce qui est en ligne est cependant un phénomène plus insidieux, et les chercheurs ont démontré pourquoi la situation est sur le point de s’aggraver.

Dans un étude de l’Université Johannes Gutenberg en Allemagne, des chercheurs ont découvert que « cette boucle de formation auto-consommatrice améliore dans un premier temps à la fois la qualité et la diversité », ce qui correspond à ce qui est susceptible de se produire ensuite. “Cependant, après quelques générations, la diversité des résultats dégénère inévitablement. Nous constatons que le taux de dégénérescence dépend de la proportion de données réelles et générées.”

Deux autres académique papiers publié en 2023 est arrivé à la même conclusion sur la dégradation des modèles d’IA lorsqu’ils sont formés sur des données synthétiques, c’est-à-dire générées par l’IA. Selon une étude menée par des chercheurs d’Oxford, de Cambridge, de l’Imperial College de Londres, de l’Université de Toronto et de l’Université d’Édimbourg, « l’utilisation de contenu généré par un modèle dans la formation provoque des défauts irréversibles dans les modèles résultants, où les queues de distribution du contenu d’origine disparaissent ». “, faisant référence à cela comme à un “effondrement du modèle”.

De la même manière, des chercheurs de Stanford et de l’Université Rice ont déclaré que « sans suffisamment de données réelles et récentes sur chaque génération d’organismes autophages [self-consuming] boucle, les futurs modèles génératifs sont voués à voir leur qualité (précision) ou leur diversité (rappel) diminuer progressivement. »

Le manque de diversité, explique Henein, est le problème fondamental, car si les modèles d’IA tentent de remplacer la créativité humaine, ils s’en éloignent de plus en plus.

L’Internet généré par l’IA en un coup d’œil

Alors que l’effondrement du modèle se profile, l’Internet généré par l’IA est déjà arrivé.

Amazon a une nouvelle fonctionnalité qui fournit Résumés des avis sur les produits générés par l’IA. Les outils de Google et Microsoft utilisent l’IA pour faciliter la rédaction d’e-mails et de documents et Indeed a lancé un outil en septembre, qui permet aux recruteurs de créer des descriptions de poste générées par l’IA. Des plates-formes telles que DALL-E 3 et Midjourney permettent aux utilisateurs de créer des images générées par l’IA et de les partager sur le Web.

Qu’ils produisent directement du contenu généré par l’IA comme Amazon ou qu’ils fournissent un service permettant aux utilisateurs de publier eux-mêmes du contenu généré par l’IA comme Google, Microsoft, Indeed, OpenAI et Midjourney, il existe déjà.

Et ce ne sont là que les outils et fonctionnalités des grandes entreprises technologiques qui prétendent exercer une sorte de surveillance. Les véritables auteurs sont des sites d’appâts à clics qui diffusent du contenu régurgité de faible qualité, à volume élevé, pour un classement SEO et des revenus élevés.

Une récente rapport de 404 Media, a découvert de nombreux sites « qui arnaquent d’autres médias en utilisant l’IA pour produire rapidement du contenu ». Pour un échantillon de ce type de contenu, qui évite le plagiat au détriment de la cohérence, consultez le site d’actualités douteux Worldtimeaujourd’hui.comoù la première ligne d’une histoire de 2023 touchant le licenciement de Gina Carano Star Wars lit“Cela fait un moment que Gina Carano a commencé une tirade contre Lucasfilm après son licenciement guerre des étoilesdonc, pour le meilleur ou pour le pire, nous y étions dus.

De toute évidence, cette phrase a été générée par l’IA.
Crédit : Worldtimetodays.com

Sur Google Scholar, utilisateurs découvert un cache des articles universitaires contenant l’expression « en tant que modèle de langage d’IA », ce qui signifie que des parties d’articles – ou des articles entiers pour autant que l’on sache – ont été rédigés par des chatbots comme ChatGPT. Les articles de recherche générés par l’IA – qui sont censés avoir une certaine crédibilité académique – peuvent se retrouver sur les sites d’information et les blogs en tant que références faisant autorité.

Même les recherches Google font parfois apparaître des ressemblances de célébrités générées par l’IA au lieu d’éléments tels que des photos de presse ou des images fixes de films. Lorsque vous recherchez sur Google Israel Kamakawiwo’ole, le musicien décédé connu pour sa reprise au ukulélé de “Somewhere Over the Rainbow”, le meilleur résultat est une prédiction générée par l’IA sur l’apparence de Kamakawiwo’ole s’il était en vie aujourd’hui.

Les recherches d’images Google de Keira Knightley aboutissent à des rendus déformés téléchargés par les utilisateurs sur OpenArt, Playground AI et Dopamine Girl aux côtés de vraies photos de l’actrice.

Keira ne mérite pas ça.
Crédit : Mashable

Sans parler du récent deepfakes pornographiques de Taylor Swift, une publicité Instagram utilisant l’image de Tom Hanks pour vendre un régime dentaireune application de retouche photo utilisant le visage et la voix de Scarlett Johansson sans son consentementet cette chanson de feu de Drake et The Weeknd qui était en fait une chanson non autorisée contrefaçon audio cela leur ressemblait exactement.

Si les résultats de nos moteurs de recherche ne sont déjà pas fiables et que les modèles se régalent presque certainement de ces déchets, nous avons franchi le seuil de l’ère des déchets de l’IA du Web. Pour l’instant, le Web tel que nous l’avons connu est encore quelque peu reconnaissable, mais les avertissements ne sont plus abstraits.

Internet n’est pas complètement condamné

En supposant que des produits comme ChatGPT ne réussissent pas à vous saluer et ne commencent pas à générer de manière fiable un contenu dynamique et passionnant que les humains trouvent réellement agréable ou utile à consommer, que se passera-t-il ensuite ?

Attendez-vous à ce que les communautés et les organisations ripostent en protégeant leur contenu des modèles d’IA qui tentent de le récupérer. Le Web ouvert, financé par la publicité et basé sur la recherche est peut-être en train de disparaître, mais Internet évoluera. Attendez-vous à ce que des sites médiatiques plus réputés placent leur contenu derrière des paywalls et des informations fiables provenant des newsletters des abonnés.

Attendez-vous à voir davantage de batailles en matière de droits d’auteur et de licences, comme Le New York Times’ procès contre Microsoft et OpenAI. Attendez-vous à voir plus d’outils comme Morelle noire, un outil invisible qui protège les images protégées par le droit d’auteur en tentant de corrompre les modèles formés sur celles-ci. Attendez-vous au développement de nouveaux outils sophistiqués de filigrane et de vérification qui empêchent le grattage par l’IA.

D’un autre côté, vous pouvez également vous attendre à d’autres publications d’actualité comme Presse associée – et peut-être CNN, Fox et Temps – pour adopter l’IA générative et conclure des accords de licence avec des sociétés comme OpenAI.

Comme des outils comme ChatGPT et Google SGE deviennent des substituts à la recherche traditionnelle, attendez-vous à ce que les modèles de revenus basés sur le référencement changent.

Le côté positif de l’effondrement du modèle, cependant, est la perte de la demande. La prolifération de l’IA générative est actuellement dictée par le battage médiatique, et si les modèles formés sur des contenus de mauvaise qualité ne sont plus utiles, la demande se tarit. Ce qui reste (espérons-le), ce sont nous, humains faibles d’esprit, avec l’envie inextinguible de déclamer, de partager, d’informer et de nous exprimer d’une autre manière en ligne.