Intelligence artificielle pour les projets Wikimédia

L'intelligence artificielle est utilisée dans Wikipédia et d'autres projets Wikimédia dans l'objectif de développer et améliorer ces projets^[1]^,^[2]. L'interaction entre les humains et les robots dans ces projets est routinière et itérative^[3].

Utilisation de l'intelligence artificielle pour les projets Wikimedia

De nombreux projets visent à améliorer Wikipédia et ses projets frères en utilisant des outils d’intelligence artificielle.

ORES

Le projet Objective Revision Evaluation Service (ORES) est un service d'intelligence artificielle permettant d'évaluer la qualité des modifications apportées à Wikipédia^[4]^,^[5]. La Fondation Wikimedia a présenté le projet ORES en novembre 2015^[6].

Les robots wiki

La plupart des actes de vandalisme sur Wikipédia sont rapidement annulés, la plupart du temps, par des bots^[7]^,^[8].

L'un d'entre eux, ClueBot NG, est un programme permettant de lutter contre le vandalisme sur Wikipédia en anglais^[9]^,^[10]^,^[11]. Ce bot a été créé par Christopher Breneman et Cobi Carter, deux contributeurs de Wikipédia en anglais, en 2010. Il succède au ClueBot original, NG signifiant Next Generation^[12]. ClueBot NG utilise un apprentissage automatique et des statistiques bayésiennes, pour arriver à déterminer si l'une des modifications de Wikipédia en anglais doit être annulée ou pas. Il annule la modification si le programme considère qu'elle doit l'être^[13]^,^[14]. Bien que le bot ait été efficace pour aider à garder Wikipédia cohérent et soigné^[15], certains prétendent qu'il est hostile aux nouveaux contributeurs en ne pouvant pas appliquer les connaissances d'un cerveau humain à l'édition et en laissant des modèles impersonnels^[16].

Detox

Detox était un projet de Google, en collaboration avec la Fondation Wikimédia, visant à rechercher des méthodes pouvant être utilisées pour traiter les utilisateurs publiant des commentaires désobligeants dans les discussions de la communauté Wikimédia^[17]. Parmi les autres volets du projet Detox, il y a la collaboration entre la Fondation Wikimédia et Scie Sauteuse pour utiliser l'intelligence artificielle pour la recherche fondamentale et développer des solutions techniques^{[Par exemple ?]} pour résoudre le problème. En octobre 2016, ces organisations ont publié "Ex Machina: Attaques personnelles vues à grande échelle" décrivant leurs conclusions^[18]^,^[19]. Divers médias populaires ont rendu compte de la publication de cet article et ont décrit le contexte social de la recherche^[20]^,^[21]^,^[22].

Réduction des biais

En août 2018, une société appelée Primer a signalé avoir tenté d'utiliser l'intelligence artificielle pour créer des articles Wikipédia sur les femmes afin de lutter contre les préjugés sexistes sur Wikipédia^[23]^,^[24].

Modèles génératifs

Texte

En 2022, la sortie publique de ChatGPT a inspiré davantage d'expérimentations avec l'IA et la rédaction d'articles sur Wikipédia. Un débat a été lancé sur la question de savoir si et dans quelle mesure de tels modèles linguistiques de grande envergure sont adaptés à de telles fins, compte tenu de leur tendance à générer des informations erronées qui semblent plausibles, y compris de fausses références, à générer une prose qui n'a pas un ton encyclopédique et à reproduire des biais^[29]^,^[30]. À compter de mai 2023, un projet de politique de Wikipédia sur ChatGPT et les grands modèles linguistiques (LLM) similaires recommandait aux utilisateurs qui ne sont pas familiers avec les LLM d'éviter de les utiliser en raison des risques susmentionnés, ainsi que du risque de diffamation ou de violation du droit d'auteur^[30].

Autres médias

Il existe un projet Wiki pour rechercher et supprimer le texte et les images générés par l'IA, appelé WikiProject AI Cleanup^[31].

Utiliser les projets Wikimedia pour l'intelligence artificielle

Le contenu des projets Wikimedia est utile en tant qu’ensemble de données pour faire progresser la recherche et les applications en matière d’intelligence artificielle. Par exemple, dans le développement de l' API Perspective de Google qui identifie les commentaires toxiques dans les forums en ligne, un ensemble de données contenant des centaines de milliers de commentaires de pages de discussion de Wikipédia avec des niveaux de toxicité étiquetés par des humains a été utilisé^[33]. Les sous-ensembles du corpus de Wikipédia sont considérés comme les plus grands ensembles de données bien organisées disponibles pour la formation de l'IA^[34]^,^[35].

Un article de 2012 a révélé que plus de 1 000 articles universitaires, y compris ceux utilisant l'intelligence artificielle, examinent Wikipédia, réutilisent des informations de Wikipédia, utilisent des extensions techniques liées à Wikipédia ou effectuent des recherches sur Wikipédia^[36]. Un article de 2017 décrit Wikipédia comme la mine d'or du texte généré par l'homme disponible pour l'apprentissage automatique^[37].

Un projet de recherche de 2016 intitulé «One Hundred Year Study on Artificial Intelligence» a désigné Wikipédia comme l'un des premiers projets clés pour comprendre l'interaction entre les applications de l'intelligence artificielle et l'engagement humain^[38].

Il existe une préoccupation concernant le manque d'attribution des articles de Wikipédia dans les modèles à grands langages comme ChatGPT^[26]. Bien que la politique de licence de Wikipédia autorise quiconque à utiliser ses textes, y compris sous des formes modifiées, elle impose la condition que le crédit soit accordé, ce qui implique que l'utilisation de son contenu dans les réponses des modèles d'IA sans clarifier la source peut violer ses conditions d'utilisation^[26].

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Artificial intelligence in Wikimedia projects » (voir la liste des auteurs).

↑ (en) Marr, « The Amazing Ways How Wikipedia Uses Artificial Intelligence », Forbes, 17 août 2018
↑ Jon Gertner, « Wikipedia's Moment of Truth - Can the online encyclopedia help teach A.I. chatbots to get their facts right — without destroying itself in the process? + comment », The New York Times,‎ 18 juillet 2023 (lire en ligne [archive du 18 juillet 2023], consulté le 19 juillet 2023)
↑ (en) Piscopo, Alessandro, « "Wikidata: A New Paradigm of Human-Bot Collaboration?". », 1^er octobre 2018.
↑ (en) Simonite, « Software That Can Spot Rookie Mistakes Could Make Wikipedia More Welcoming », MIT Technology Review, 1^er décembre 2015
↑ Metz, « Wikipedia Deploys AI to Expand Its Ranks of Human Editors », Wired,‎ 1^er décembre 2015 (lire en ligne [archive du 2 avril 2024])
↑ Halfaker et Taraborelli, « Artificial intelligence service "ORES" gives Wikipedians X-ray specs to see through bad edits », Wikimedia Foundation, 30 novembre 2015
↑ (en) Jesse Hicks, « This machine kills trolls: How Wikipedia’s robots and cyborgs snuff out vandalism », sur The Verge, 18 février 2014.
↑ (en) Jenny Kleeman, « Wikipedia fights vandalism », The New Zealand Herald,‎ 2 avril 2007 (lire en ligne).
↑ (en) Daniel Nasaw, « Meet the 'bots' that edit Wikipedia », sur BBC News, 25 juillet 2012 (consulté le 6 septembre 2020)
↑ (en) John Nery, « The plot against Leni Robredo », sur opinion.inquirer.net, 29 mai 2018 (consulté le 19 octobre 2020)
↑ (es) Redacción QUO, « ¿CÓMO ES POSIBLE QUE, SI CUALQUIERA PUEDE EDITAR LA WIKIPEDIA, NO ESTÉ LLENA DE BURRADAS? », sur quo, 31 août 2015 (consulté le 19 octobre 2020)
↑ (en) jesse.hicks, « This machine kills trolls », sur theverge, 18 février 2014 (consulté le 1^er septembre 2020)
↑ (en) « Meet the 'bots' that edit Wikipedia », sur bbc.com, BBC News, 25 juillet 2012 (consulté le 21 juillet 2018)
↑ Sumit Raja, « Little about the bot that runs Wikipedia, ClueBot NG » [archive du 22 novembre 2013], sur digitfreak.com (consulté le 11 avril 2017)
↑ (en-GB) « Meet the 'bots' that edit Wikipedia », BBC News,‎ 18 juillet 2012 (lire en ligne, consulté le 22 juillet 2025)
↑ « The Bots Who Edit Wikipedia (And The Humans Who Made Them) », MakeUseOf, 20 juillet 2015 (consulté le 11 avril 2017)
↑ (en) Research:Detox - Meta (lire en ligne)
↑ Ellery Wulczyn, Nithum Thain et Lucas Dixon, Proceedings of the 26th International Conference on World Wide Web, 2017, 1391–1399 p. (ISBN 9781450349130, DOI 10.1145/3038912.3052591, arXiv 1610.08914, S2CID 6060248), « Ex Machina: Personal Attacks Seen at Scale »
↑ Jigsaw, « Algorithms And Insults: Scaling Up Our Understanding Of Harassment On Wikipedia », Medium, 7 février 2017
↑ (en) Daisuke Wakabayashi, « Google Cousin Develops Technology to Flag Toxic Online Comments », The New York Times,‎ 23 février 2017 (lire en ligne)
↑ (en-US) Smellie, « Inside Wikipedia's Attempt to Use Artificial Intelligence to Combat Harassment », Motherboard, Vice Media, 17 février 2017
↑ Gershgorn, « Alphabet's hate-fighting AI doesn't understand hate yet », Quartz, 27 février 2017
↑ Simonite, « Using Artificial Intelligence to Fix Wikipedia's Gender Problem », Wired,‎ 3 août 2018 (lire en ligne)
↑ (en) Verger, « Artificial intelligence can now help write Wikipedia pages for overlooked scientists », Popular Science, 7 août 2018
↑ (en) Costa-jussà, Cross, Çelebi et Elbayad, « Scaling neural machine translation to 200 languages », Nature, vol. 630, n^o 8018,‎ juin 2024, p. 841–846 (ISSN 1476-4687, PMCID 11208141, DOI 10.1038/s41586-024-07335-x, Bibcode 2024Natur.630..841N)
« Wikipedia's Moment of Truth », New York Times,‎ 29 novembre 2024 (lire en ligne, consulté le 29 novembre 2024)
↑ (en) Virginie Mamadouh, Handbook of the Changing World Language Map, Springer International Publishing, 2020, 3773–3799 p. (ISBN 978-3-030-02438-3, DOI 10.1007/978-3-030-02438-3_200), « Wikipedia: Mirror, Microcosm, and Motor of Global Linguistic Diversity » :
« Some versions have expanded dramatically using machine translation through the work of bots or web robots generating articles by translating them automatically from the other Wikipedias, often the English Wikipedia. […] In any event, the English Wikipedia is different from the others because it clearly serves a global audience, while other versions serve more localized audience, even if the Portuguese, Spanish, and French Wikipedias also serves a public spread across different continents »
↑ Khincha, Siddharth, Jain, Chelsi, Gupta, Vivek;, Kataria, Tushar et Zhang, Shuo, « [cs.CL. "InfoSync: Information Synchronization across Multilingual Semi-structured Tables".] », 2023.
↑ (en) Harrison, « Should ChatGPT Be Used to Write Wikipedia Articles? », Slate Magazine, 12 janvier 2023 (consulté le 13 janvier 2023)
(en) Claire Woodcock, « AI Is Tearing Wikipedia Apart », Vice,‎ 2 mai 2023 (lire en ligne)
↑ Emanuel Maiberg, « The Editors Protecting Wikipedia from AI Hoaxes », 404 Media,‎ 9 octobre 2024 (lire en ligne, consulté le 9 octobre 2024)
↑ (en) Villalobos Pablo, Ho Anson, Sevilla Jaime, Besiroglu Tamay, Heim Lennart et al., « "Will we run out of data? Limits of LLM scaling based on human-generated data" », 2022.
↑ « Google's comment-ranking system will be a hit with the alt-right », Engadget,‎ 1^er septembre 2017 (lire en ligne)
↑ « Wikipedia's Moment of Truth », New York Times (consulté le 29 novembre 2024)
↑ (en) Auteur inconnu, « [1] », .
erreur modèle {{Lien arXiv}} : renseignez un paramètre « |eprint »
erreur modèle {{Lien arXiv}} : renseignez un paramètre « |titre »
↑ (en) Nielsen, « Wikipedia Research and Tools: Review and Comments », SSRN Working Paper Series,‎ 2012 (ISSN 1556-5068, DOI 10.2139/ssrn.2129874)
↑ Mehdi, Okoli, Mesgari et Nielsen, « Excavating the mother lode of human-generated text: A systematic review of research that uses the wikipedia corpus », Information Processing & Management, vol. 53, n^o 2,‎ mars 2017, p. 505–529 (DOI 10.1016/j.ipm.2016.07.003, S2CID 217265814, lire en ligne)
↑ (en) « AI Research Trends - One Hundred Year Study on Artificial Intelligence (AI100) », ai100.stanford.edu

Portail de Wikimédia
Portail de l’intelligence artificielle

[1] (en) Marr, « The Amazing Ways How Wikipedia Uses Artificial Intelligence », Forbes, 17 août 2018

[NYT-20230718-2] Jon Gertner, « Wikipedia's Moment of Truth - Can the online encyclopedia help teach A.I. chatbots to get their facts right — without destroying itself in the process? + comment », The New York Times,‎ 18 juillet 2023 (lire en ligne [archive du 18 juillet 2023], consulté le 19 juillet 2023)

[3] (en) Piscopo, Alessandro, « "Wikidata: A New Paradigm of Human-Bot Collaboration?". », 1^er octobre 2018.

[4] (en) Simonite, « Software That Can Spot Rookie Mistakes Could Make Wikipedia More Welcoming », MIT Technology Review, 1^er décembre 2015

[5] Metz, « Wikipedia Deploys AI to Expand Its Ranks of Human Editors », Wired,‎ 1^er décembre 2015 (lire en ligne [archive du 2 avril 2024])

[6] Halfaker et Taraborelli, « Artificial intelligence service "ORES" gives Wikipedians X-ray specs to see through bad edits », Wikimedia Foundation, 30 novembre 2015

[7] (en) Jesse Hicks, « This machine kills trolls: How Wikipedia’s robots and cyborgs snuff out vandalism », sur The Verge, 18 février 2014.

[8] (en) Jenny Kleeman, « Wikipedia fights vandalism », The New Zealand Herald,‎ 2 avril 2007 (lire en ligne).

[9] (en) Daniel Nasaw, « Meet the 'bots' that edit Wikipedia », sur BBC News, 25 juillet 2012 (consulté le 6 septembre 2020)

[10] (en) John Nery, « The plot against Leni Robredo », sur opinion.inquirer.net, 29 mai 2018 (consulté le 19 octobre 2020)

[11] (es) Redacción QUO, « ¿CÓMO ES POSIBLE QUE, SI CUALQUIERA PUEDE EDITAR LA WIKIPEDIA, NO ESTÉ LLENA DE BURRADAS? », sur quo, 31 août 2015 (consulté le 19 octobre 2020)

[Vandalisme_sur_Wikipédia_theverge-12] (en) jesse.hicks, « This machine kills trolls », sur theverge, 18 février 2014 (consulté le 1^er septembre 2020)

[13] (en) « Meet the 'bots' that edit Wikipedia », sur bbc.com, BBC News, 25 juillet 2012 (consulté le 21 juillet 2018)

[14] Sumit Raja, « Little about the bot that runs Wikipedia, ClueBot NG » [archive du 22 novembre 2013], sur digitfreak.com (consulté le 11 avril 2017)

[15] (en-GB) « Meet the 'bots' that edit Wikipedia », BBC News,‎ 18 juillet 2012 (lire en ligne, consulté le 22 juillet 2025)

[16] « The Bots Who Edit Wikipedia (And The Humans Who Made Them) », MakeUseOf, 20 juillet 2015 (consulté le 11 avril 2017)

[17] (en) Research:Detox - Meta (lire en ligne)

[18] Ellery Wulczyn, Nithum Thain et Lucas Dixon, Proceedings of the 26th International Conference on World Wide Web, 2017, 1391–1399 p. (ISBN 9781450349130, DOI 10.1145/3038912.3052591, arXiv 1610.08914, S2CID 6060248), « Ex Machina: Personal Attacks Seen at Scale »

[19] Jigsaw, « Algorithms And Insults: Scaling Up Our Understanding Of Harassment On Wikipedia », Medium, 7 février 2017

[20] (en) Daisuke Wakabayashi, « Google Cousin Develops Technology to Flag Toxic Online Comments », The New York Times,‎ 23 février 2017 (lire en ligne)

[21] (en-US) Smellie, « Inside Wikipedia's Attempt to Use Artificial Intelligence to Combat Harassment », Motherboard, Vice Media, 17 février 2017

[22] Gershgorn, « Alphabet's hate-fighting AI doesn't understand hate yet », Quartz, 27 février 2017

[23] Simonite, « Using Artificial Intelligence to Fix Wikipedia's Gender Problem », Wired,‎ 3 août 2018 (lire en ligne)

[24] (en) Verger, « Artificial intelligence can now help write Wikipedia pages for overlooked scientists », Popular Science, 7 août 2018

[25] (en) Costa-jussà, Cross, Çelebi et Elbayad, « Scaling neural machine translation to 200 languages », Nature, vol. 630, n^o 8018,‎ juin 2024, p. 841–846 (ISSN 1476-4687, PMCID 11208141, DOI 10.1038/s41586-024-07335-x, Bibcode 2024Natur.630..841N)

[nyt180724-26] « Wikipedia's Moment of Truth », New York Times,‎ 29 novembre 2024 (lire en ligne, consulté le 29 novembre 2024)

[27] (en) Virginie Mamadouh, Handbook of the Changing World Language Map, Springer International Publishing, 2020, 3773–3799 p. (ISBN 978-3-030-02438-3, DOI 10.1007/978-3-030-02438-3_200), « Wikipedia: Mirror, Microcosm, and Motor of Global Linguistic Diversity » :
« Some versions have expanded dramatically using machine translation through the work of bots or web robots generating articles by translating them automatically from the other Wikipedias, often the English Wikipedia. […] In any event, the English Wikipedia is different from the others because it clearly serves a global audience, while other versions serve more localized audience, even if the Portuguese, Spanish, and French Wikipedias also serves a public spread across different continents »

[28] Khincha, Siddharth, Jain, Chelsi, Gupta, Vivek;, Kataria, Tushar et Zhang, Shuo, « [cs.CL. "InfoSync: Information Synchronization across Multilingual Semi-structured Tables".] », 2023.

[29] (en) Harrison, « Should ChatGPT Be Used to Write Wikipedia Articles? », Slate Magazine, 12 janvier 2023 (consulté le 13 janvier 2023)

[vice-30] (en) Claire Woodcock, « AI Is Tearing Wikipedia Apart », Vice,‎ 2 mai 2023 (lire en ligne)

[31] Emanuel Maiberg, « The Editors Protecting Wikipedia from AI Hoaxes », 404 Media,‎ 9 octobre 2024 (lire en ligne, consulté le 9 octobre 2024)

[32] (en) Villalobos Pablo, Ho Anson, Sevilla Jaime, Besiroglu Tamay, Heim Lennart et al., « "Will we run out of data? Limits of LLM scaling based on human-generated data" », 2022.

[33] « Google's comment-ranking system will be a hit with the alt-right », Engadget,‎ 1^er septembre 2017 (lire en ligne)

[18juillet2023_www.nytimes.com-34] « Wikipedia's Moment of Truth », New York Times (consulté le 29 novembre 2024)

[considerations-35] (en) Auteur inconnu, « [1] », .
erreur modèle {{Lien arXiv}} : renseignez un paramètre « |eprint »
erreur modèle {{Lien arXiv}} : renseignez un paramètre « |titre »

[36] (en) Nielsen, « Wikipedia Research and Tools: Review and Comments », SSRN Working Paper Series,‎ 2012 (ISSN 1556-5068, DOI 10.2139/ssrn.2129874)

[37] Mehdi, Okoli, Mesgari et Nielsen, « Excavating the mother lode of human-generated text: A systematic review of research that uses the wikipedia corpus », Information Processing & Management, vol. 53, n^o 2,‎ mars 2017, p. 505–529 (DOI 10.1016/j.ipm.2016.07.003, S2CID 217265814, lire en ligne)

[38] (en) « AI Research Trends - One Hundred Year Study on Artificial Intelligence (AI100) », ai100.stanford.edu

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[29]

[30]

[31]

[33]

[34]

[35]

[36]

[37]

[38]

[26]