Intelligence artificielle pour les projets Wikimédia

L'intelligence artificielle est utilisée dans Wikipédia et d'autres projets Wikimédia dans l'objectif de développer et améliorer ces projets[1],[2]. L'interaction entre les humains et les robots dans ces projets est routinière et itérative[3].

Utilisation de l'intelligence artificielle pour les projets Wikimedia

De nombreux projets visent à améliorer Wikipédia et ses projets frères en utilisant des outils d’intelligence artificielle.

ORES

Le projet Objective Revision Evaluation Service (ORES) est un service d'intelligence artificielle permettant d'évaluer la qualité des modifications apportées à Wikipédia[4],[5]. La Fondation Wikimedia a présenté le projet ORES en novembre 2015[6].

Les robots wiki

La plupart des actes de vandalisme sur Wikipédia sont rapidement annulés, la plupart du temps, par des bots[7],[8].

L'un d'entre eux, ClueBot NG, est un programme permettant de lutter contre le vandalisme sur Wikipédia en anglais[9],[10],[11]. Ce bot a été créé par Christopher Breneman et Cobi Carter, deux contributeurs de Wikipédia en anglais, en . Il succède au ClueBot original, NG signifiant Next Generation[12]. ClueBot NG utilise un apprentissage automatique et des statistiques bayésiennes, pour arriver à déterminer si l'une des modifications de Wikipédia en anglais doit être annulée ou pas. Il annule la modification si le programme considère qu'elle doit l'être[13],[14]. Bien que le bot ait été efficace pour aider à garder Wikipédia cohérent et soigné[15], certains prétendent qu'il est hostile aux nouveaux contributeurs en ne pouvant pas appliquer les connaissances d'un cerveau humain à l'édition et en laissant des modèles impersonnels[16].

Detox

Detox était un projet de Google, en collaboration avec la Fondation Wikimédia, visant à rechercher des méthodes pouvant être utilisées pour traiter les utilisateurs publiant des commentaires désobligeants dans les discussions de la communauté Wikimédia[17]. Parmi les autres volets du projet Detox, il y a la collaboration entre la Fondation Wikimédia et Scie Sauteuse pour utiliser l'intelligence artificielle pour la recherche fondamentale et développer des solutions techniques[Par exemple ?] pour résoudre le problème. En octobre 2016, ces organisations ont publié "Ex Machina: Attaques personnelles vues à grande échelle" décrivant leurs conclusions[18],[19]. Divers médias populaires ont rendu compte de la publication de cet article et ont décrit le contexte social de la recherche[20],[21],[22].

Réduction des biais

En août 2018, une société appelée Primer a signalé avoir tenté d'utiliser l'intelligence artificielle pour créer des articles Wikipédia sur les femmes afin de lutter contre les préjugés sexistes sur Wikipédia[23],[24].

Modèles génératifs

Texte

En 2022, la sortie publique de ChatGPT a inspiré davantage d'expérimentations avec l'IA et la rédaction d'articles sur Wikipédia. Un débat a été lancé sur la question de savoir si et dans quelle mesure de tels modèles linguistiques de grande envergure sont adaptés à de telles fins, compte tenu de leur tendance à générer des informations erronées qui semblent plausibles, y compris de fausses références, à générer une prose qui n'a pas un ton encyclopédique et à reproduire des biais[29],[30]. À compter de mai 2023, un projet de politique de Wikipédia sur ChatGPT et les grands modèles linguistiques (LLM) similaires recommandait aux utilisateurs qui ne sont pas familiers avec les LLM d'éviter de les utiliser en raison des risques susmentionnés, ainsi que du risque de diffamation ou de violation du droit d'auteur[30].

Autres médias

Il existe un projet Wiki pour rechercher et supprimer le texte et les images générés par l'IA, appelé WikiProject AI Cleanup[31].

Utiliser les projets Wikimedia pour l'intelligence artificielle

Le contenu des projets Wikimedia est utile en tant qu’ensemble de données pour faire progresser la recherche et les applications en matière d’intelligence artificielle. Par exemple, dans le développement de l' API Perspective de Google qui identifie les commentaires toxiques dans les forums en ligne, un ensemble de données contenant des centaines de milliers de commentaires de pages de discussion de Wikipédia avec des niveaux de toxicité étiquetés par des humains a été utilisé[33]. Les sous-ensembles du corpus de Wikipédia sont considérés comme les plus grands ensembles de données bien organisées disponibles pour la formation de l'IA[34],[35].

Un article de 2012 a révélé que plus de 1 000 articles universitaires, y compris ceux utilisant l'intelligence artificielle, examinent Wikipédia, réutilisent des informations de Wikipédia, utilisent des extensions techniques liées à Wikipédia ou effectuent des recherches sur Wikipédia[36]. Un article de 2017 décrit Wikipédia comme la mine d'or du texte généré par l'homme disponible pour l'apprentissage automatique[37].

Un projet de recherche de 2016 intitulé «One Hundred Year Study on Artificial Intelligence» a désigné Wikipédia comme l'un des premiers projets clés pour comprendre l'interaction entre les applications de l'intelligence artificielle et l'engagement humain[38].

Il existe une préoccupation concernant le manque d'attribution des articles de Wikipédia dans les modèles à grands langages comme ChatGPT[26]. Bien que la politique de licence de Wikipédia autorise quiconque à utiliser ses textes, y compris sous des formes modifiées, elle impose la condition que le crédit soit accordé, ce qui implique que l'utilisation de son contenu dans les réponses des modèles d'IA sans clarifier la source peut violer ses conditions d'utilisation[26].

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Artificial intelligence in Wikimedia projects » (voir la liste des auteurs).
  1. (en) Marr, « The Amazing Ways How Wikipedia Uses Artificial Intelligence », Forbes,
  2. Jon Gertner, « Wikipedia's Moment of Truth - Can the online encyclopedia help teach A.I. chatbots to get their facts right — without destroying itself in the process? + comment », The New York Times,‎ (lire en ligne [archive du ], consulté le )
  3. (en)  Piscopo, Alessandro, « "Wikidata: A New Paradigm of Human-Bot Collaboration?". », .
  4. (en) Simonite, « Software That Can Spot Rookie Mistakes Could Make Wikipedia More Welcoming », MIT Technology Review,
  5. Metz, « Wikipedia Deploys AI to Expand Its Ranks of Human Editors », Wired,‎ (lire en ligne [archive du ])
  6. Halfaker et Taraborelli, « Artificial intelligence service "ORES" gives Wikipedians X-ray specs to see through bad edits », Wikimedia Foundation,
  7. (en) Jesse Hicks, « This machine kills trolls: How Wikipedia’s robots and cyborgs snuff out vandalism », sur The Verge, .
  8. (en) Jenny Kleeman, « Wikipedia fights vandalism », The New Zealand Herald,‎ (lire en ligne).
  9. (en) Daniel Nasaw, « Meet the 'bots' that edit Wikipedia », sur BBC News, (consulté le )
  10. (en) John Nery, « The plot against Leni Robredo », sur opinion.inquirer.net, (consulté le )
  11. (es) Redacción QUO, « ¿CÓMO ES POSIBLE QUE, SI CUALQUIERA PUEDE EDITAR LA WIKIPEDIA, NO ESTÉ LLENA DE BURRADAS? », sur quo, (consulté le )
  12. (en) jesse.hicks, « This machine kills trolls », sur theverge, (consulté le )
  13. (en) « Meet the 'bots' that edit Wikipedia », sur bbc.com, BBC News, (consulté le )
  14. Sumit Raja, « Little about the bot that runs Wikipedia, ClueBot NG » [archive du ], sur digitfreak.com (consulté le )
  15. (en-GB) « Meet the 'bots' that edit Wikipedia », BBC News,‎ (lire en ligne, consulté le )
  16. « The Bots Who Edit Wikipedia (And The Humans Who Made Them) », MakeUseOf, (consulté le )
  17. (en) Research:Detox - Meta (lire en ligne)
  18. Ellery Wulczyn, Nithum Thain et Lucas Dixon, Proceedings of the 26th International Conference on World Wide Web, , 1391–1399 p. (ISBN 9781450349130, DOI 10.1145/3038912.3052591, arXiv 1610.08914, S2CID 6060248), « Ex Machina: Personal Attacks Seen at Scale »
  19. Jigsaw, « Algorithms And Insults: Scaling Up Our Understanding Of Harassment On Wikipedia », Medium,
  20. (en) Daisuke Wakabayashi, « Google Cousin Develops Technology to Flag Toxic Online Comments », The New York Times,‎ (lire en ligne)
  21. (en-US) Smellie, « Inside Wikipedia's Attempt to Use Artificial Intelligence to Combat Harassment », Motherboard, Vice Media,
  22. Gershgorn, « Alphabet's hate-fighting AI doesn't understand hate yet », Quartz,
  23. Simonite, « Using Artificial Intelligence to Fix Wikipedia's Gender Problem », Wired,‎ (lire en ligne)
  24. (en) Verger, « Artificial intelligence can now help write Wikipedia pages for overlooked scientists », Popular Science,
  25. (en) Costa-jussà, Cross, Çelebi et Elbayad, « Scaling neural machine translation to 200 languages », Nature, vol. 630, no 8018,‎ , p. 841–846 (ISSN 1476-4687, PMCID 11208141, DOI 10.1038/s41586-024-07335-x, Bibcode 2024Natur.630..841N)
  26. « Wikipedia's Moment of Truth », New York Times,‎ (lire en ligne, consulté le )
  27. (en) Virginie Mamadouh, Handbook of the Changing World Language Map, Springer International Publishing, , 3773–3799 p. (ISBN 978-3-030-02438-3, DOI 10.1007/978-3-030-02438-3_200), « Wikipedia: Mirror, Microcosm, and Motor of Global Linguistic Diversity » :

    « Some versions have expanded dramatically using machine translation through the work of bots or web robots generating articles by translating them automatically from the other Wikipedias, often the English Wikipedia. […] In any event, the English Wikipedia is different from the others because it clearly serves a global audience, while other versions serve more localized audience, even if the Portuguese, Spanish, and French Wikipedias also serves a public spread across different continents »

  28.  Khincha, Siddharth, Jain, Chelsi, Gupta, Vivek;, Kataria, Tushar et Zhang, Shuo, « [cs.CL. "InfoSync: Information Synchronization across Multilingual Semi-structured Tables".] », .
  29. (en) Harrison, « Should ChatGPT Be Used to Write Wikipedia Articles? », Slate Magazine, (consulté le )
  30. (en) Claire Woodcock, « AI Is Tearing Wikipedia Apart », Vice,‎ (lire en ligne)
  31. Emanuel Maiberg, « The Editors Protecting Wikipedia from AI Hoaxes », 404 Media,‎ (lire en ligne, consulté le )
  32. (en)  Villalobos Pablo, Ho Anson, Sevilla Jaime, Besiroglu Tamay, Heim Lennart et al., « "Will we run out of data? Limits of LLM scaling based on human-generated data" », .
  33. « Google's comment-ranking system will be a hit with the alt-right », Engadget,‎ (lire en ligne)
  34. « Wikipedia's Moment of Truth », New York Times (consulté le )
  35. (en) Auteur inconnu, « [1] », .
    erreur modèle {{Lien arXiv}} : renseignez un paramètre « |eprint »
    erreur modèle {{Lien arXiv}} : renseignez un paramètre « |titre »
  36. (en) Nielsen, « Wikipedia Research and Tools: Review and Comments », SSRN Working Paper Series,‎ (ISSN 1556-5068, DOI 10.2139/ssrn.2129874)
  37. Mehdi, Okoli, Mesgari et Nielsen, « Excavating the mother lode of human-generated text: A systematic review of research that uses the wikipedia corpus », Information Processing & Management, vol. 53, no 2,‎ , p. 505–529 (DOI 10.1016/j.ipm.2016.07.003, S2CID 217265814, lire en ligne)
  38. (en) « AI Research Trends - One Hundred Year Study on Artificial Intelligence (AI100) », ai100.stanford.edu
  • Portail de Wikimédia
  • Portail de l’intelligence artificielle