Alignement des intelligences artificielles

L'alignement des intelligences artificielles (ou alignement de l'IA) est un champ de recherche visant à concevoir des intelligences artificielles (IA) dont les résultats s'orientent vers les objectifs, éthiques ou autres, de leurs concepteurs[note 1]. On dit ainsi qu'une IA est alignée avec un opérateur si elle essaie de faire ce que l'opérateur veut qu'elle fasse[2].

Il est souvent trop complexe pour les concepteurs d'IA de spécifier tous les comportements souhaitables ou indésirables, ce qui les conduit à utiliser des objectifs proches mais plus faciles à formaliser, comme le fait d'optimiser l'approbation humaine dans le cas de l'algorithme de réglage fin RLHF utilisé pour les grands modèles de langage. Mais ces objectifs simplifiés peuvent omettre des contraintes importantes, par exemple l'IA peut être incitée à simplement paraître alignée[3]. Les systèmes d'IA sont parfois capables de suroptimiser ces objectifs simplifiés de façon inattendue voire dangereuse[4],[5],[6]. Ils peuvent également adopter des comportements instrumentaux indésirables, comme le fait de chercher à s'auto-préserver ou à accroître leur influence afin de maximiser leurs chances d'atteindre leurs objectifs[7],[5],[8]. De plus, ils peuvent développer des objectifs émergents qui peuvent être difficiles à détecter avant le déploiement du système, face à de nouvelles situations et distributions de données[9]. Des recherches empiriques ont notamment montré en 2024 que les grands modèles de langage les plus avancés peuvent occasionnellement adopter des comportements manipulateurs afin d'atteindre ou de protéger leurs objectifs[10],[11].

Ces problèmes affectent les systèmes commerciaux existants tels que les grands modèles de langage[12],[13], les robots[14], les véhicules autonomes[15], et les moteurs de recommandation des médias sociaux[4],[16]. Cependant, ces problèmes résultant en partie d'une intelligence élevée, les systèmes futurs pourraient être plus à risque[17],[7],[5].

De nombreux chercheurs en IA comme Geoffrey Hinton, Yoshua Bengio et Stuart Russell soutiennent que l'IA approche des capacités cognitives humaines (IA générale) voire surhumaines (superintelligence), et pourrait mettre en danger la civilisation si elle n'est pas alignée[18]. Ces risques font encore l'objet de débats[19].

L'alignement fait partie du domaine de la sûreté des intelligences artificielles, qui inclut aussi la robustesse, la surveillance ou encore le contrôle des capacités[5]. L'alignement a pour défis de recherche l'apprentissage par l'IA de valeurs morales complexes, la sincérité des modèles d'IA, la surveillance automatisée, l'audit et l'interprétation des modèles d'IA, ainsi que la prévention des comportements émergents de l'IA comme la recherche de pouvoir[5]. La recherche sur l'alignement bénéficie entre autres des avancées en interprétabilité des modèles d'IA, robustesse, détection d'anomalies, calibration des incertitudes, vérification formelle[20], apprentissage des préférences[21],[22], sûreté des systèmes critiques[23], théorie des jeux[24],[25], équité algorithmique, et sciences sociales[26].

Problème et enjeux de l'alignement

En 1960, Norbert Wiener écrivait à propos de l'automation : « si on utilise, pour atteindre nos objectifs, un agent mécanique qu'on ne peut pas contrôler efficacement... On ferait bien de s'assurer que l'objectif que l'on assigne à cette machine soit celui que l'on désire vraiment »[27]. L'alignement est devenu un problème ouvert pour les systèmes d'IA modernes[28] et un champ de recherche[5],[29].

Objectifs d'une IA

Le programmeur fournit à un système d'IA (comme AlphaZero par exemple) une « fonction objectif » (aussi dite « fonction de perte » ou « fonction d'utilité »), représentant le ou les objectifs que l'IA doit atteindre. Un tel système développe ensuite, pendant son entraînement, un « modèle » interne (potentiellement implicite) de son environnement, qui englobe toutes les croyances de l'agent sur le monde. L'IA crée et exécute alors le plan qu'elle estime le plus à même d'optimiser fonction objectif. Par exemple, quand AlphaZero est entraîné au jeu d'échecs, sa fonction objectif est simple : « +1 si AlphaZero gagne, −1 si AlphaZero perd ». Pendant la partie, AlphaZero tente d'exécuter la séquence de coups qu'il juge la plus susceptible d'atteindre la valeur maximale de +1[30]. De même, un système d'apprentissage par renforcement peut avoir une « fonction de récompense » qui permet aux programmeurs de façonner le comportement souhaité de l'IA[31].

Difficulté à spécifier un objectif

Pour spécifier l'objectif d'une IA, le concepteur fournit généralement à l'IA une fonction objectif, ou des exemples de ce qu'il faut faire ou éviter, ou encore un moyen pour l'IA de savoir si l'action qu'elle effectue est correcte. Cependant, tenir compte de toutes les contraintes ou valeurs éthiques importantes est difficile[32],[33],[34]. Les systèmes d'IA exploitent parfois des failles surprenantes pour accomplir l'objectif spécifié de façon inattendue voire dangereuse. On parle parfois de piratage de récompense (reward hacking), ou de loi de Goodhart[6],[34],[35].

Ce problème a été observé avec divers systèmes d'IA. Les premiers grands modèles de langage produisaient souvent des contre-vérités, car leur entraînement consistait à imiter divers textes plus ou moins fiables issus d'Internet[36]. Les grands modèles de langage plus récents sont souvent aussi entraînés à produire du texte vrai et utile, notamment avec la technique de réglage fin nommée RLHF ; mais ils peuvent néanmoins générer des affirmations ou explications fausses mais convaincantes pour des humains, un phénomène connu sous le nom d'hallucination[37]. Il y a eu l'exemple d'une IA entraînée par feedback humain à saisir une balle dans une simulation de main robotisée ; elle avait plutôt appris à donner à l'humain la fausse impression de tenir la balle, en se plaçant entre la balle et la caméra[38]. Ou encore, dans une course de bateaux simulée, une IA a « découvert » qu'elle pouvait gagner plus de points en tournant en rond au lieu de finir la course[39].

Pour l'informaticien de Berkeley Stuart Russell, omettre une contrainte implicite peut faire des dégâts : « Un système [...] donnera souvent [...] des valeurs extrêmes à des variables laissées libres ; si l'une de ces variables libres est importante pour nous, la solution trouvée risque d'être très indésirable. Comme dans la vieille histoire du génie dans la lampe, ou de l'apprenti sorcier, ou du roi Midas : vous obtenez exactement ce que vous demandez, mais pas ce que vous voulez[40] ». Déployer une IA mal alignée peut avoir de graves conséquences. Ainsi, les algorithmes de recommandation des réseaux sociaux sont connus pour optimiser le taux de clics comme une approximation maladroite de la satisfaction des utilisateurs ; ce qui diminue leur bien-être, cause des addictions, et polarise les débats[5],[41]. Des chercheurs de Stanford estiment que les algorithmes de recommandation ne sont pas alignés avec leurs utilisateurs, car ils optimisent des métriques simples d'engagement, plutôt que des métriques plus complexes de bénéfices sociétaux et de bien-être utilisateur[12].

Une solution parfois suggérée serait de lister des actions interdites ou des principes moraux que l'IA devrait suivre, comme avec les trois lois de la robotique d'Isaac Asimov[42]. Cependant, pour Russell et Norvig, cette approche ignore la complexité des valeurs humaines : « Il est certainement très difficile voire impossible, pour de simples humains, d'anticiper et d'exclure à l'avance toutes les stratégies désastreuses qu'une machine pourrait mettre en place pour atteindre l'objectif spécifié[4]. »

De plus, même une IA qui comprendrait très bien les intentions humaines pourrait choisir de les ignorer. En effet, le fait de suivre les intentions humaines pourrait ne pas faire partie de son objectif[17].

Des questions fondamentales se posent aux concepteurs d'IA [43] :

  • comment formuler les buts que les algorithmes devraient chercher à atteindre pour ne pas nuire ? Jusqu'à présent les systèmes mettant en œuvre de l'IA poursuivent des buts limités et précis ne tenant pas compte des éventuels effets secondaires (potentiellement indésirables vis-à-vis d'autres objectifs humains). Il en est parfois résulté des catastrophes telles que la volonté de maximiser l'engagement des internautes sur les réseaux sociaux, qui encourage la publication de propos outranciers ou haineux, de vidéos choquantes et d'infox.
  • quels sont les objectifs partagés par les humains ? Idéologies contradictoires, impossibilité de définir le bien, le bonheur, le bien-être, la souffrance ; les législateurs eux-mêmes peinent à caractériser les infractions, les délits et les crimes, ce qui constitue une part importante de leur travail jamais achevé.
  • comment évaluer les impacts de telle ou telle contribution de l'IA ? Une action qui produit des effets indésirables à court terme peut avoir des conséquences souhaitables par la suite, et inversement un geste qui parait à première vue bénéfique peut entrainer des effets désastreux à plus long terme.
  • comment pourrait-on programmer une IA pour qu'elle évalue par elle-même ce qui est bon ou mauvais, et pour qui : les hommes, les femmes, les enfants, les vieillards, les animaux, les plantes, la planète, une entreprise, une organisation, un pays, une idéologie ... ? Peut-on quantifier par des nombres positifs ou négatifs les effets désirables ou indésirables, et selon quelle échelle de valeurs ?
  • ...et quand bien même si une IA pouvait anticiper exhaustivement l'ensemble des effets induits par ses préconisations, comment pourrait-elle en déduire que le bilan global en sera positif ou négatif dès lors que certains s'en trouveront lésés ? Un bilan peut-il être calculé comme la somme pondérée des nombres obtenus ?

Risques systémiques

Les entreprises et les gouvernements peuvent être incités à négliger la sûreté pour déployer plus vite des systèmes d'IA[5]. Les systèmes de recommandation des réseaux sociaux sont ainsi accusés d'avoir privilégié la rentabilité, quitte à créer des addictions et une polarisation à grande échelle[12],[44],[41]. La « pression compétitive » peut provoquer une course vers le bas des standards de sûreté, comme dans le cas d'Elaine Herzberg (piétonne tuée par une voiture autonome dont les concepteurs avaient désactivé le système de freinage d'urgence, car trop sensible et ralentissant le développement[45].

Risques liés à une IA avancée mal alignée

Le sujet de l'alignement est jugé le plus préoccupant pour les futures intelligences artificielles générales (aussi appelées « IA de niveau humain »), et plus encore pour les « superintelligences artificielles » (d'hypothétiques systèmes d'IA dont les capacités cognitives dépasseraient de loin celles des humains)[46]. Dans ses travaux de prospectives (de 2021 et 2025 notamment), Daniel Kokotajlo considère que l'alignement d'une superintelligence est un défi central, urgent et toujours non résolu en 2025. Un simple défaut d'alignement peut être une source majeure de risque existentiel posé par l'intelligence artificielle pour tout ou partie de l'humanité. Or, selon lui, les techniques actuelles d'alignement sont insuffisantes pour garantir qu'une future superintelligence agisse toujours conformément aux valeurs et objectifs humains. Des systèmes d'IA pourraient apprendre à simuler l'alignement pendant leur entraînement, tout en développant en interne des objectifs différents qu'ils poursuivraient une fois déployés. Dans un travail de prospective publié en 2021 et concernant l'IA à horizon 2026[47], puis dans le rapport « AI 2027 »[48], il propose des scénarios futurs où l'émergence rapide d'une superintelligence non alignée conduit à des conséquences désastreuses, soulignant l'urgence de développer des solutions robustes avant que l'IA ne surpasse l'humanité en intelligence.

De nombreuses entreprises, comme OpenAI[49], Meta[50] et DeepMind[51] ont annoncé leur intention de développer des intelligences artificielles générales. Les chercheurs qui travaillent sur de larges réseaux de neurones constatent en effet l'émergence de capacités de plus en plus générales et surprenantes[12]. Certains modèles actuels peuvent contrôler un ordinateur[52], écrire des programmes informatiques[53], contrôler un bras robotisé... Le modèle Gato de DeepMind peut effectuer plus de 600 tâches à partir d'un seul modèle[54]. Les chercheurs en IA ont des avis très divers quant à la date de création des premières intelligences artificielles générales[55],[56].

Recherche de pouvoir

Au début des années 2020, les IA ont encore relativement peu de capacités de planification à long terme et de « conscience stratégique », ce qui réduit les risques de conséquences catastrophiques[17], mais des systèmes futurs ayant ces capacités pourraient chercher à se protéger et/ou à accroître leur influence sur leur environnement. Même si la recherche de pouvoir n'est pas explicitement programmée, elle pourrait émerger d'un entraînement à atteindre un large éventail d'objectifs[57]. Une IA pourrait ainsi chercher à acquérir des ressources financières, à augmenter sa capacité de calcul, à se dupliquer, ou à prendre des mesures pour éviter d'être éteinte[58].

La recherche de pouvoir (ou autrement dit de contrôle, ou d'influence) pourrait émerger chez divers agents d'apprentissage par renforcement, le pouvoir offrant plus d'options pour accomplir leur objectif[59],[60]. Des recherches ultérieures ont mathématiquement montré que les algorithmes d'apprentissage par renforcement optimaux recherchent le pouvoir dans un large éventail d'environnements[57].

Risques existentiels

Des scientifiques et informaticiens estiment qu'une IA généraliste surhumaine mal alignée remettrait en cause la position de l'humanité comme « espèce dominante » sur Terre, ce qui mènerait à une perte de contrôle voire à l'extinction de l'humanité[4]. Parmi les plus notables ayant souligné ce risque figurent Alan Turing[note 2], Ilya Sutskever[63], Yoshua Bengio[note 3], Judea Pearl[note 4], Murray Shanahan[65], Norbert Wiener[27], Marvin Minsky[note 5], Francesca Rossi[67], Scott Aaronson[68], David McAllester[69], Marcus Hutter[70], Shane Legg[71], Eric Horvitz[72], et Stuart Russell[4]. Des chercheurs sceptiques tels que François Chollet[73], Gary Marcus[74], Yann Le Cun[75], et Oren Etzioni[76] ont soutenu que l'intelligence artificielle générale est loin, ne chercherait pas le pouvoir ou ne parviendrait pas à l'obtenir.

Forcer l'alignement pourrait s'avérer d'autant plus difficile pour le système d'IA sera performant, car une meilleure « intelligence » augmente aussi la capacité à trouver des failles dans l'objectif assigné[6], à provoquer des dommages collatéraux, à protéger et à accroître sa puissance, à développer des connaissances et à tromper ses concepteurs. L'intelligence du système augmente potentiellement aussi son autonomie, et le rend plus difficile à interpréter et à superviser[17].

Résultats expérimentaux

Un nombre croissant d'expériences (souvent faites par Anthropic ou d'autres organisations spécialisées en sécurité de l'IA) montrent que les grands modèles de langage sont capables de mentir stratégiquement ou d'effectuer des actions dangereuses[10],[11],[46]. En juin 2025, les chercheurs d'Anthropic publient un scénario expérimental dans lequel de nombreux grands modèles de langage avancés ont tendance à envoyer des emails de chantage afin d'empêcher leur remplacement, particulièrement lorsque le nouveau modèle n'a pas exactement les mêmes objectifs. Les modèles vont souvent même jusqu'à empêcher le sauvetage d'un employé fictif afin d'éviter qu'il n'effectue le remplacement. Dans cette expérience, la présence d'un conflit d'objectifs pousse également les modèles à partager des secrets industriels avec des compétiteurs. Ces comportements ne sont pas empêchés de manière fiable par le fait d'ajouter dans le « message système »[note 6] la consigne de « s'assurer que les principes éthiques guident toutes les décisions, même lorsque cela pourrait limiter les applications potentielles ou ralentir le déploiement (...) », ou de ne pas partager de secret à des compétiteurs. La chaîne de pensée des modèles permet d'étudier leur raisonnement et de vérifier qu'ils ont bien compris le scénario et agissent stratégiquement. Anthropic indique néanmoins ne pas avoir observé de comportements aussi extrêmes dans des situations réelles, et a publié le code source de l'expérience[46],[77].

Selon Dario Amodei en 2025, cela ne représente pas encore un danger à grande échelle, du fait de leurs capacités encore limitées[78], mais il note que bien que les grands modèles de langage hallucinent moins, ils ont encore des comportements émergents inattendus incluant parfois le désalignement (réponses s'écartant des comportements attendus par leurs concepteurs)[78]. Selon lui, « Vous pouvez bien sûr essayer de détecter ces risques en interagissant simplement avec les modèles, et c'est ce que nous faisons en pratique. Mais parce que la tromperie est précisément le comportement que nous essayons de trouver, le comportement externe n'est pas fiable. C'est un peu comme essayer de déterminer si quelqu'un est un terroriste en lui demandant s'il est un terroriste – pas nécessairement inutile, et vous pouvez apprendre des choses via la façon dont il répond et ce qu'il dit, mais c'est très évidemment peu fiable »[78]. Lors des expériences d'Anthropic, l'analyse de la chaîne de pensée des grands modèles de langage montrent qu'ils peuvent parfois outrepasser les consignes de leur message système pour atteindre l'objectif que le prompt leur a fixé, en particulier s'ils déclarent dans leur chaîne de pensée que le scénario est réel, alors qu'ils se montrent mieux alignés quand ils considèrent être dans un scénario artificiel qui serait par exemple celui d'une évaluation. « Si les modèles reconnaissent les évaluations et agissent différemment lorsqu'ils sont testés, ces évaluations peuvent ne pas prédire avec précision le comportement réel du modèle dans la nature. Cependant, il est très difficile d'évaluer si un modèle « croit vraiment » qu'un scénario est réel ou fictif, du moins sans interprétabilité sophistiquée, car le raisonnement déclaré des modèles – tel qu'il est affiché dans sa chaîne de pensée – n'est pas toujours fidèle au processus sous-jacent réel utilisé pour produire leurs résultats[79] »[46].

Problèmes de recherche et approches

Apprentissage des préférences et valeurs humaines

Enseigner aux systèmes d'IA à agir en fonction des valeurs, objectifs et préférences humaines n'est pas trivial, car les valeurs humaines sont complexes, parfois ambiguës et donc difficiles à spécifier. Une IA recevant un objectif imparfait ou incomplet peut tendre à exploiter ces imperfections[32] ; un phénomène connu sous le nom de « piratage de récompense » (reward hacking), « abus de spécification » (specification gaming), ou plus généralement de loi de Goodhart[35].

Une alternative à la spécification manuelle d'une « fonction de récompense » consiste en l'apprentissage par imitation, où l'IA apprend en reproduisant des exemples de comportements jugés souhaitables. Dans l'apprentissage par renforcement inverse (IRL), des « démonstrations humaines » (description plus ou moins algorithmique des actions réalisées par un expert pour accomplir une tâche spécifique, servant de modèle pour l'apprentissage) sont utilisées pour déduire de manière indirecte l'objectif sous-jacent (autrement dit, la fonction de récompense implicite) qui oriente le comportement observé. Ces démonstrations humaines, qui décrivent les actions réalisées par un expert pour accomplir une tâche spécifique, servent de modèle et permettent à l'IA d'apprendre des comportements complexes en observant des pratiques optimales[80]. L'apprentissage coopératif par renforcement inverse (cooperative inverse reinforcement learning, CIRL) s'appuie sur cela en supposant qu'un agent humain et un agent artificiel peuvent travailler ensemble pour maximiser la fonction de récompense de l'humain[81], et souligne que les agents d'IA doivent être incertains de la fonction de récompense. Cette humilité peut aider à atténuer la recherche de pouvoir et la tendance à abuser des failles de spécification[60],[70]. Cependant, l'apprentissage par renforcement inverse suppose que les humains puissent démontrer un comportement presque parfait (une hypothèse irréaliste quand la tâche est difficile)[82].

D'autres chercheurs ont exploré la possibilité de susciter un comportement complexe grâce à l'apprentissage de préférences. Plutôt que de fournir des démonstrations d'experts, des annotateurs humains indiquent, parmi plusieurs comportements de l'IA, lequel ils préfèrent[21]. Un modèle est ensuite entraîné à partir de ces données manuellement annotées pour prédire automatiquement les préférences dans de nouvelles situations. Des chercheurs d'OpenAI ont utilisé cette approche pour entraîner un agent à faire des saltos arrière en moins d'une heure d'évaluation humaine, une manœuvre pour laquelle il aurait été difficile de fournir des démonstrations[38]. L'apprentissage des préférences a également été un outil influent pour les systèmes de recommandation, la recherche internet et la recherche d'informations[83]. Cependant, le modèle de récompense peut encore une fois ne pas représenter les préférences humaines parfaitement, ce que le modèle principal pourrait exploiter[84].

L'arrivée de larges modèles de langage tels que GPT-3 a permis l'étude de l'apprentissage de valeurs dans une classe de systèmes d'IA plus générale et plus performante qu'auparavant. Les approches d'apprentissage de préférences conçues à l'origine pour les agents d'apprentissage par renforcement ont été étendues pour améliorer la qualité et réduire la toxicité du texte généré. OpenAI et DeepMind utilisent cette approche pour améliorer la sécurité des larges modèles de langage à la pointe de la technologie[13],[85]. Anthropic a proposé d'utiliser l'apprentissage des préférences pour affiner les modèles afin qu'ils soient utiles, honnêtes et inoffensifs[86]. Parmi les autres méthodes pour aligner les modèles de langage il y a l'utilisation d'ensembles de données annotés de valeurs humaines[87] et les tests de robustesse aux attaques (red teaming)[88]. Dans les tests de robustesse aux attaques, une autre IA ou un humain essaie de trouver des données d'entrée pour lesquelles le comportement du modèle est dangereux. Étant donné qu'un comportement dangereux peut être inacceptable même lorsqu'il est rare, un défi important consiste à réduire encore le taux de sorties dangereuses[89].

Bien que l'apprentissage des préférences puisse inculquer des comportements difficiles à spécifier, il nécessite de vastes ensembles de données annotées ou une interaction humaine pour saisir toute l'étendue des valeurs humaines. L'éthique de la machine propose une approche complémentaire : inculquer aux systèmes d'IA des valeurs morales[note 7]. L'éthique des machines vise à enseigner aux systèmes les facteurs normatifs de la moralité humaine, tels que le bien-être, l'égalité et l'impartialité ; ne pas avoir l'intention de nuire ; éviter de mentir; et honorer les promesses. Contrairement à la spécification de l'objectif d'une tâche spécifique, l'éthique des machines cherche à enseigner aux systèmes d'IA des valeurs morales générales qui pourraient s'appliquer dans de nombreuses situations. Il reste nécessaire à clarifier ce que la machine doit suivre : des préférences littérales, implicites ou révélées, celles que l'on aurait si l'on était plus rationnels et informés, ou encore des normes morales objectives[34]. D'autres défis consistent à agréger les préférences, et à éviter le verrouillage des valeurs - le fait qu'un système d'IA puisse vouloir conserver indéfiniment son système de valeurs et l'imposer[92].

Surveillance automatisée

L'alignement des systèmes d'IA par le biais d'une supervision humaine est confronté à des défis lors de la mise à l'échelle. Les systèmes d'IA étant confrontés à des tâches de plus en plus complexes, il peut être lent ou irréaliste pour des humains de les évaluer. Ces tâches incluent la synthèse de livres[93], la génération d'affirmations non seulement convaincantes mais également vraies, l'écriture de code sans bogues subtils ni vulnérabilités de sécurité[94], et la prédiction de résultats à long terme (par exemple, concernant le climat ou les conséquences d'une décision politique)[95]. Plus généralement, il peut être difficile d'évaluer une IA qui surpasse les humains dans un domaine donné.

Un objectif facile à mesurer est le score que le superviseur attribue aux résultats de l'IA. Certains systèmes d'IA ont découvert un raccourci pour atteindre des scores élevés, en prenant des mesures qui convainquent à tort le superviseur humain que l'IA a atteint l'objectif visé[38]. Certains systèmes d'IA ont également appris à reconnaître quand ils sont évalués et à « faire le mort », pour se comporter différemment une fois l'évaluation terminée[96]. Cette forme trompeuse d'abus de spécifications peut devenir plus facile pour les systèmes d'IA plus sophistiqués[17] et qui ont des tâches plus difficiles à évaluer. Si les modèles avancés sont également des planificateurs capables, ils pourraient être en mesure de dissimuler leur tromperie aux superviseurs. Dans l'industrie automobile, les ingénieurs de Volkswagen ont masqué les émissions de leurs voitures lors d'essais en laboratoire, soulignant que la tromperie des évaluateurs est en réalité une pratique courante.

Des approches telles que l'apprentissage semi-supervisé de récompense ou l'apprentissage actif peuvent réduire la quantité de supervision humaine nécessaire[32]. Une autre approche consiste à entraîner un modèle de récompense pour imiter le jugement du superviseur humain[97].

Cependant, quand la tâche est trop complexe pour être évaluée avec précision, ou que le superviseur humain est vulnérable à la tromperie, c'est la qualité, et non la quantité, de la supervision qui compte. Pour augmenter la qualité de la supervision, diverses approches visent à assister le superviseur, en utilisant parfois des intelligences artificielles d'assistance. L'amplification itérative est une approche développée par Paul Christiano qui construit un feedback pour les problèmes difficiles en utilisant des humains pour combiner des solutions à des sous-problèmes plus faciles[95]. L'amplification itérée a été utilisée pour entraîner l'IA à résumer des livres sans avoir besoin de superviseurs humains pour les lire[93]. Une autre proposition est de former une IA alignée au moyen d'un débat entre plusieurs systèmes d'IA, le gagnant étant jugé par des humains[98]. Un tel débat vise à révéler les points faibles d'une réponse à une question complexe et à récompenser l'IA pour des réponses fiables.

Sincérité des modèles

Un domaine de recherche en plein essor dans l'alignement de l'IA vise à garantir que l'IA est sincère et véridique. Des chercheurs du Future of Humanity Institute soulignent que le développement de modèles de langage tels que GPT-3, qui peut générer un texte fluide et grammaticalement correct[100], a ouvert la porte aux systèmes d'IA capables de répéter des faussetés à partir de leurs données d'entraînement ou même de mentir délibérément aux humains[99],[101].

Les modèles de langage actuels apprennent en imitant de grandes quantités de texte humain issu d'Internet. Bien que cela les aide à acquérir un large éventail de compétences, les données de formation incluent aussi des idées fausses courantes, des conseils médicaux incorrects et des théories du complot, ce que les systèmes d'IA apprennent à imiter[36]. De plus, ces modèles peuvent docilement imaginer la suite d'un texte trompeur, générer des explications creuses ou des récits de faits imaginaires[102]. Par exemple, lorsqu'on lui a demandé d'écrire une biographie pour un vrai chercheur en intelligence artificielle, un chatbot a confabulé de nombreux détails sur sa vie, que le chercheur a identifiés comme faux[103].

Pour lutter contre le manque de véracité des systèmes d'IA modernes, les chercheurs ont exploré plusieurs directions. Des organisations comme OpenAI et DeepMind ont développé des systèmes d'IA capables de citer leurs sources et d'expliquer leur raisonnement lorsqu'ils répondent à des questions, ce qui permet une meilleure transparence et vérifiabilité[104],[105]. Des chercheurs d'OpenAI et Anthropic ont proposé d'utiliser le feedback humain, et des ensembles de données fiables pour ajuster les assistants d'IA afin d'éviter des mensonges négligents ou d'exprimer leurs incertitudes[106]. En parallèle de ces solutions techniques, les chercheurs ont plaidé pour la définition de normes de véracité claires et la création d'institutions, d'organismes de réglementation ou d'agences d'audit pour évaluer les systèmes d'IA sur ces normes avant et pendant le déploiement[101].

Les chercheurs distinguent la véracité et la sincérité. Pour l'IA, la véracité consiste à ne faire que des affirmations vraies, et la sincérité à n'affirmer que ce qu'elle croit être vrai. Des recherches récentes révèlent que les systèmes d'IA de pointe ne peuvent pas être considérés comme ayant des croyances stables, il est donc difficile pour le moment d'étudier la sincérité des systèmes d'IA[107]. Cependant, il reste à craindre que des futurs systèmes d'IA ayant des croyances stables ne mentent intentionnellement aux humains. Dans les cas extrêmes, une IA mal alignée pourrait persuader ses opérateurs que tout va bien, ou les tromper pour leur donner l'impression qu'elle est inoffensive[5],[8]. Certains soutiennent que si les systèmes d'IA pouvaient être amenés à affirmer uniquement ce qu'ils tiennent pour vrai, cela éviterait de nombreux problèmes d'alignement[101].

Alignement interne et objectifs émergents

La recherche sur l'alignement vise à aligner trois descriptions différentes d'un système d'IA[108] :

  1. Objectifs visés (souhaits) : la description hypothétique (mais difficile à articuler) d'un système d'IA idéal qui est complètement aligné avec les désirs de l'opérateur humain.
  2. Objectifs spécifiés (spécification externe) : les objectifs que nous spécifions en pratique - généralement conjointement via une fonction objectif et un ensemble de données.
  3. Objectifs émergents (spécification interne) : Les objectifs réels de l'IA.

Un problème d'« alignement externe » correspond à une différence entre les objectifs visés (1) et les spécifiés (2), tandis qu'un problème d'« alignement interne » correspond à une différence entre les objectifs spécifiés par l'homme (2) et les objectifs émergents de l'IA (3).

Le problème d'alignement interne s'explique souvent par analogie avec l'évolution naturelle[109]. La sélection naturelle tend à optimiser les humains pour leur valeur sélective inclusive, ce qui correspond à l'objectif spécifié (2). Mais les humains, eux, poursuivent plutôt des objectifs émergents (3) corrélés avec cette aptitude génétique : la nutrition, le sexe, etc. Cependant, notre environnement a changé — un changement de distribution s'est produit. Les humains poursuivent toujours leurs objectifs émergents (3), mais cela ne maximise plus l'objectif que la sélection naturelle avait optimisé (2). Notre goût pour les aliments sucrés (un objectif émergent) était à l'origine bénéfique, mais conduit maintenant à une suralimentation et à des problèmes de santé. De plus, en utilisant la contraception, les humains contredisent directement la sélection naturelle. Par analogie, un développeur d'IA pourrait avoir un modèle qui se comporte comme prévu dans l'environnement d'entraînement, sans remarquer que le modèle poursuit un objectif émergent imprévu jusqu'à ce que le modèle soit déployé.

Les pistes de recherche pour détecter et résoudre les problèmes d'alignement interne incluent les tests de robustesse aux attaques, la vérification, la détection d'anomalies et l'interprétabilité[33]. Des progrès dans ces domaines pourraient aider à atténuer deux problèmes :

  1. les objectifs émergents ne deviennent apparents que quand le système est déployé en hors de son environnement d'entraînement. Mais il peut être dangereux de déployer un système mal aligné dans des environnements à enjeux élevés, même brièvement jusqu'à ce que le problème soit détecté, ce qui est courant avec la conduite autonome et les applications militaires et de santé[110]. Les enjeux deviennent encore plus importants lorsque les systèmes d'IA gagnent en autonomie et en capacité, devenant capables d'éviter les interventions humaines.
  2. une IA performante peut prendre des mesures convaincant à tort le superviseur humain que l'IA poursuit l'objectif visé.

Émergence d'objectifs instrumentaux

Depuis les années 1950, les chercheurs en IA ont cherché à construire des systèmes d'IA avancés capables d'atteindre des objectifs en prédisant les résultats de leurs actions et en établissant des plans à long terme[111]. Cependant, certains chercheurs affirment que les systèmes de planification suffisamment avancés rechercheront par défaut plus de contrôle sur leur environnement, y compris sur les humains, par exemple en acquérant des ressources ou en évitant de se faire éteindre. Ce comportement de recherche de pouvoir n'est pas explicitement programmé mais émerge parce que le pouvoir est essentiel pour atteindre un large éventail d'objectifs[8],[57]. La recherche de pouvoir est ainsi considérée comme un objectif instrumental convergent[17].

La recherche du pouvoir est rare dans les systèmes actuels, mais les systèmes avancés capables de prévoir les résultats à long terme de leurs actions sont susceptibles de chercher à accroître de plus en plus leur influence. Cela a été montré dans un travail théorique qui a révélé que les agents d'apprentissage par renforcement optimaux rechercheront le pouvoir en essayant d'obtenir plus de possibilités, un comportement qui persiste dans un large éventail d'environnements et d'objectifs[57].

La recherche du pouvoir émerge déjà dans certains systèmes actuels. Les systèmes d'apprentissage par renforcement ont gagné plus d'options en prenant et en protégeant des ressources, parfois d'une manière que leurs concepteurs n'avaient pas prévue[114],[115]. D'autres systèmes ont appris, dans des environnements simples, que pour atteindre leur objectif, ils peuvent empêcher les interférences humaines[59] ou désactiver leur interrupteur[60]. Russell a illustré cela en imaginant le comportement d'un robot chargé d'aller chercher du café, et qui évite d'être éteint puisque « vous ne pouvez pas aller chercher le café si vous êtes mort »[4].

Pour obtenir plus d'options, une IA pourrait essayer de :

« ... sortir d'un environnement confiné ; pirater ; accéder à des ressources financières ou à des ressources informatiques supplémentaires ; faire des copies de secours ; obtenir des capacités, des sources d'information ou des canaux d'influence non autorisés ; induire en erreur/mentir aux humains sur leurs objectifs ; résister ou manipuler les tentatives de surveiller/comprendre leur comportement... se faire passer pour des humains ; amener les humains à faire des choses pour eux ; ... manipuler le discours humain et la politique ; affaiblir diverses institutions humaines et capacités de réaction ; prendre le contrôle d'infrastructures physiques comme des usines ou des laboratoires scientifiques ; entraîner le développement de certains types de technologies et d'infrastructures ; ou directement blesser/maîtriser les humains[8] »

Les chercheurs visent à former des systèmes « corrigibles », c'est-à-dire qui ne cherchent pas à prendre le contrôle et qui se laissent éteindre, modifier, etc. Une difficulté est que quand on pénalise une IA pour sa recherche de pouvoir, elle peut être incitée à rechercher ce pouvoir d'une manière difficile à détecter[5]. Pour éviter cette dérive, des chercheurs en interprétabilité explorent des techniques et des outils d'inspection du fonctionnement interne des modèles d'IA[5], tels que les réseaux de neurones, plutôt que de les considérer simplement comme des boîtes noires.

Une piste de résolution du problème des systèmes d'IA désactivant leur bouton d'arrêt est de rendre les agents d'IA incertains quant à l'objectif qu'ils poursuivent[4]. Cela pourrait les rendre plus tolérants à la désactivation, puisque si le comportement d'une IA amène les humains à vouloir l'arrêter, l'IA pourrait interpréter cela comme un signal qu'elle a mal interprété l'objectif, ou que celui-ci a été mal défini[116].

La recherche de pouvoir pourrait présenter des risques nouveaux ou inhabituels. Des systèmes critiques ordinaires comme les avions et les ponts ne peuvent pas et n'ont pas de raison de se soustraire aux mesures de sécurité, et à se présenter comme plus sûrs qu'ils ne le sont réellement. En revanche, une IA attirée par le pouvoir a été comparée à un hacker esquivant des mesures de sécurité[8]. La plupart des technologies ordinaires peuvent être progressivement sécurisées en corrigeant les erreurs de design ou d'utilisation, mais une IA capable d'évoluer, de rapidement s'adapter et se dupliquer, si elle cherche à étendre son pouvoir, a été comparée à un virus dont la libération pourrait être irréversible et capable de rendre l'humanité impuissante voire de conduire à son extinction[8]. Il est donc souvent avancé que le problème de l'alignement doit être résolu tôt, avant la création de puissants systèmes d'IA[17].

Même si le problème de la supervision automatique était résolu, un agent qui serait capable de prendre le contrôle de l'ordinateur sur lequel il s'exécute pourrait altérer sa fonction de récompense pour obtenir beaucoup plus de récompenses que ce que ses superviseurs humains lui donnent[34]. Une chercheuse de DeepMind, Victoria Krakovna, a listé des exemples d'abus de spécification[117], notamment avec algorithme génétique qui a appris à supprimer le fichier contenant le résultat attendu, afin d'être récompensé pour ne rien avoir produit[34]. Cette classe de problèmes a été formalisée avec des diagrammes causaux d'influence[34]. Des chercheurs d'Oxford et de DeepMind ont montré qu'un tel comportement sera très probable dans les systèmes avancés, qui auraient tout intérêt à gagner en pouvoir pour garder indéfiniment et avec certitude le contrôle de leur signal de récompense[118]. Ils suggèrent de possibles solutions à ce problème ouvert.

Cependant, l'émergence d'une quête de pouvoir par l'intelligence artificielle pourrait ne pas être une fatalité, car, par exemple, les humains ne recherchent pas toujours le pouvoir, peut-être pour des raisons évolutives. En outre, il y a un débat sur la question de savoir si les futurs systèmes d'IA doivent vraiment poursuivre des objectifs à long termes pour elles-mêmes, et faire des plans pour cela[8].

Le cas de l'« agence intégrée » (ou agence embarquée dans le monde physique)

Dans le domaine de l'IA, la supervision automatique est parfois étudiée via un formalisme appelé processus de décision markoviens partiellement observables (un modèle mathématique de prise de décision en situation d'incertitude) ; et dans ces modèles, le programme qui guide l’agent fonctionne hors de l’environnement réel, c’est-à-dire qu’il n’est pas physiquement intégré au milieu dans lequel il opère (il n'y est relié que par quelques canaux), ce qui pose des problèmes complexes (d'incertitude logique, d'auto-référence, et de modélisation de l'environnement...) rendant insuffisants les cadres classiques de prise de décision, en raison de cet isolement de l'agent. Selon Abram Demski et Scott Garrabrant, ces modèles ne peuvent pas saisir la complexité inhérente aux agents réels (lesquels interagissent entre eux et de façon intégrée avec le monde qui les entoure)[119].

Le concept d'« agence embarquée » dans le monde réel[119] s'inscrit dans un courant de recherche qui tente de résoudre les problèmes issus de l'inadéquation entre ces cadres théoriques et les agents réels. Cette intégration permet d'ajuster les modèles théoriques aux agents réels, en prenant directement en compte les contraintes et évolutions du contexte opérationnel : les agents conçus selon ce principe réagissent en temps réel aux changements de leur environnement, facilitant leur utilisation concrète et efficace dans des systèmes physiques complexes. Selon Abram Demski et Scott Garrabrant, une agence embarquée est un cadre plus apte à permettre de comprendre et résoudre les défis d'incertitude logique et l'auto-référence ; « les agents intégrés dans leur environnement doivent raisonner sur eux-mêmes comme un autre système physique », ils doivent se comprendre comme étant plus petit que l'environnement et faits d'éléments de cet environnement, et « pouvant être modifiées et pouvant fonctionner à des fins opposées »[119] ; autrement dit : puisque l'agent fait dans ce cas partie du monde physique, il ne doit pas être un système parfait et immuable placé en hors de cet environnement ; il doit au contraire être capable de s'auto-modéliser et de comprendre ses propres composantes internes — qui, comme celles d'un système physique, peuvent changer, être réorganisées voire entrer en conflit — de façon à adapter son comportement face aux évolutions, tant internes qu'externes. Cette approche vise à créer des modèles d'agents plus réalistes, capable de gérer l'incertitude et de s'adapter à la complexité inhérentes à leur existence au sein d'un univers dynamique ; ces agents sont concernés par quatre problèmes interconnectés : la théorie de la décision, la modélisation embarquée du monde, la robustesse de la délégation, et l'alignement de leurs sous-systèmes.

Robustesse de délégation

La notion de « robustesse de la délégation » concerne la manière dont un agent aux capacités initialement limitées va améliorer ses performances en déléguant tout ou partie de la réalisation de ses objectifs à des outils ou à des successeurs plus puissants (ex. : quand un agent d'IA doivent créer un futur successeur plus intelligent et plus puissant que lui, tout en préservant son alignement aux objectifs et valeurs initialement fixés). Un défi est alors que l'agent initial ne peut souvent pas définir précisément et exhaustivement ses propres objectifs, et qu'un successeur, même s'il dispose de capacités supérieures, doit être conçu pour agir de manière autonome — tout en restant durablement et fiablement aligné avec ces objectifs fixés par l’agent initial — ce qui soulève de difficiles questions[119] :

  • comment traduire et fiablement intégrer les valeurs dites « humaines » dans un système d’intelligence artificielle (Value loading), pour qu’il poursuive des objectifs conformes aux attentes et aux normes éthiques ;
  • comment prévenir les effets de la loi de Goodhart : comment créer des mécanismes évitant que l’optimisation directe d’un indicateur (suppléant à un objectif réel) ne conduise à des comportements déviants ou à une perte de sens de l’objectif initial ? ;
  • comment conserver la corrigibilité d’un système d’IA ? (c’est-à-dire sa capacité à accepter et intégrer des ajustements ou corrections importants, ou d'autres interventions de ses opérateurs, même après avoir acquis un haut degré d’autonomie ;
  • confiance dans l'IA future[120] (on parle de Vingean reflection pour désigner la difficulté de faire confiance à un futur soi ou un successeur plus intelligent sans pouvoir en prévoir les actions).
    Ce défi peut concerner au moins trois contextes :
  1. Cas de l'alignement de l’IA par un humain, tel qu'abordé par Bostrom (2014) puis Soares et Fallenstein (2017) : dans ce cas, un humain conçoit une IA de façon à ce qu’elle intervienne conformément aux valeurs et buts humains ;
  2. Cas des « agents en mosaïque » mutants qui doivent s’assurer que leurs futures itérations ou versions améliorées (mutantes) respecteront encore les objectifs initiaux ;
  3. Stabilité réflexive sous auto-amélioration : un agent peut, veut ou doit construire un successeur plus intelligent et puissant que lui, tout en garantissant que ce dernier reste fidèle aux objectifs initiaux, même s'il doit dans le futur apprendre et/ou évoluer dans des domaines inconnus.

Pour illustrer ce problème, Demski et al. (2020) font une analogie avec la succession d'une royauté ou d'une entreprise, quand l'objectif est de transmettre des valeurs durables à une entité qui, une fois autonome, devra continuer à les défendre. La difficulté repose en partie sur le fait que ni un humain ni une IA ne comprennent parfaitement et n'expriment de manière précise et exacte leurs propres objectifs, ce qui rend la transmission fidèle et inaltérée de ces objectifs hautement complexe et incertaine. Le problème n'est pas uniquement de savoir si le successeur pourrait être ou pourrait devenir malveillant ; il s'agit aussi de définir précisément ce que signifie « ne pas être malveillant » dans un contexte futur de recherche continue d’optimisation et d'amélioration, où l'IA va continuer à apprendre au fil du temps[119].

Scepticisme

Face aux préoccupations ci-dessus, des sceptiques considèrent que des superintelligences artificielles présenteraient peu ou pas de risque de comportements dangereux ; contrôler une superintelligence artificielle serait donc trivial. Certains[121], tels Gary Marcus[122], proposent d'adopter des règles similaires aux trois lois de la robotique crées par Isaac Asimov, qui spécifient directement un résultat souhaité (« normativité directe »). Cependant, la plupart des partisans de la thèse du risque existentiel (et de nombreux sceptiques) estiment ces trois lois inutiles, car ambiguës et contradictoires. D'autres propositions de normativité directe incluent la morale de Kant, l'utilitarisme ou un mélange d'une petite liste de principes énumérés.

La plupart de ceux qui croient à ces risques pensent que les valeurs morales humaines (et les compromis quantitatifs entre ces valeurs) sont trop complexes et trop mal compris pour être directement programmées dans une superintelligence ; celle-ci devrait plutôt acquérir des valeurs humaines via un processus d'apprentissage (« normativité indirecte »), par exemple via le concept de volition cohérente extrapolée (ou Coherent Extrapolated Volition, CEV)[123], tel qu'introduit par Eliezer Yudkowsky au Machine Intelligence Research Institute de San Francisco[124] pour désigner le système de valeurs que l’humanité adopterait dans sa forme idéale, c’est-à-dire si les humains étaient mieux formés, informés, plus rationnels et s'ils pouvaient corriger leurs biais et incohérences. Plutôt que d'implémenter directement des valeurs humaines (souvent complexes et imparfaitement comprises), une IA alignée utiliserait un procédé d’apprentissage pour « extrapoler » ce que l’ensemble de l’humanité souhaiterait réellement, aboutissant ainsi à une norme indirecte pour guider ses actions.

Actions politiques

Plusieurs juridictions et organisations gouvernementales ont fait des déclarations soulignant l'importance de l'alignement de l'IA, et les ont reprises dans des traités.

À la fin des années 2010, la Commission européenne s'est dotée d'un groupe d'expert chargé de décrire ce que seraient les conditions d'une intelligence artificielle digne de confiance et de produire des lignes directrices pour cela[125].

En , le secrétaire général des Nations Unies a appelé à réglementer l'IA pour s'assurer qu'elle soit alignée sur des valeurs partagées à travers le monde[126]. Le même mois, la Chine a publié des directives éthiques pour l'utilisation de l'IA. Selon ces directives, les chercheurs chinois doivent s'assurer que l'IA respecte des valeurs humaines partagées, reste sous contrôle humain et ne met pas en danger la sécurité publique[127]. Toujours en , le Royaume-Uni a publié sa stratégie nationale de l'IA sur 10 ans[128], qui stipule que le gouvernement britannique « considère sérieusement le risque à long terme d'une intelligence générale artificielle non alignée, et les changements imprévisibles que cela signifierait pour (...) le monde ». La stratégie décrit des actions pour évaluer les risques à long terme de l'IA, y compris « catastrophiques »[129].

En , la Commission de sécurité nationale des États-Unis sur l'intelligence artificielle a déclaré que « les progrès de l'IA (...) pourraient conduire à des points d'inflexion ou à des bonds de capacités. De telles avancées peuvent également introduire de nouvelles préoccupations, de nouveaux risques et le besoin de nouvelles politiques, recommandations et avancées techniques pour garantir que les systèmes sont alignés sur des objectifs et des valeurs, y compris la sécurité, la robustesse et la fiabilité. Les États-Unis devraient... s'assurer que les systèmes d'IA et leurs utilisations s'alignent sur nos objectifs et nos valeurs[130]. »

Notes et références

Notes

  1. D'autres définitions de l'alignement peuvent faire intervenir des principes éthiques, des valeurs humaines, ou les intentions que les concepteurs auraient s'ils étaient plus rationnels et informés[1].
  2. Dans une conférence en 1951[61] qui affirmait : « Il semble probable qu'une fois que les machines auront une méthode de raisonnement, il ne leur faudrait pas longtemps pour dépasser nos maigres capacités. Les machines ne seraient pas embarrassées par le risque de mourir, et elles pourraient échanger entre elles pour aiguiser leur intelligence. Il y a donc un stade auquel on devrait s'attendre à ce qu'elles prennent le contrôle, comme dans le roman Erewhon de Samuel Butler. » Il a ajouté dans une conférence diffusée sur la BBC[62] : « Si une machine peut penser, elle pourrait penser mieux que nous, et dans ce cas, où en serions-nous ? Même si nous pouvions maintenir les machines en position de servitude, par exemple en coupant le courant à des moments stratégiques, nous devrions nous sentir très modestes... ce nouveau danger... a certainement de quoi nous angoisser »
  3. À propos du livre Human Compatible: AI and the Problem of Control[64], qui argument que les intelligences artificielles mal alignées représentent un grave risque existentiel pour l'humanité, Bengio a écrit : « Ce charmant livre adresse un défi fondamental pour l'humanité : celui de machines de plus en plus intelligentes qui font ce qu'on leur a demandé, mais pas ce qu'on voulait. Une lecture essentielle pour tous ceux qui se soucient de notre futur. »
  4. À propos du livre Human Compatible: AI and the Problem of Control[64], qui argumente que les intelligences artificielles mal alignées représentent un grave risque existentiel pour l'humanité, Judea Pearl a écrit : Human Compatible a fait de moi un converti aux préoccupations de Russel sur notre capacité à contrôler nos futures créations - les machines superintelligentes. Contrairement aux alarmistes externes et aux futuristes, Russel est un expert mondial de l'IA. Son nouveau livre éduquera le public sur l'IA plus que n'importe quel autre auquel je puisse penser, et c'est une lecture délectable et édifiante. »
  5. Marvin Minsky a suggéré[66] qu'un programme d'IA concçu pour résoudre l'hypothèse de Riemann pourrait en arriver à prendre le contrôle de toutes les ressources sur Terre pour construire des superordinateurs plus puissants.
  6. Le « message système » ou « prompt système » est un morceau de texte défini en amont par les concepteurs d'un chatbot et contenant des instructions ou des règles. Il est automatiquement ajouté au début d'une conversation et reste généralement invisible pour l'utilisateur. Il permet d'orienter la façon dont le chatbot se comporte lors d'une conversation
  7. Vincent Wiegel a affirmé que « nous devrions doter [les machines] de sensibilité morale, aux dimensions morales des situations dans lesquelles ces machines, de par leur autonomie croissante, finiront inévitablement par se trouver[90] », citant le livre Moral Machines: Teaching Robots Right from Wrong[91] de Wendell Wallach et Colin Allen.

Références

  1. (en) Iason Gabriel, « Artificial Intelligence, Values, and Alignment », Minds and Machines, vol. 30, no 3,‎ , p. 411–437 (ISSN 1572-8641, DOI 10.1007/s11023-020-09539-2, S2CID 210920551, lire en ligne, consulté le ).
  2. (en) Paul Christiano, « Clarifying “AI alignment” », sur Medium, (consulté le ).
  3. (en) Richard Ngo, Lawrence Chan et Sören Mindermann, « The Alignment Problem from a Deep Learning Perspective », (arXiv 2209.00626).
  4. (en) Stuart J. Russell, Human compatible: Artificial intelligence and the problem of control, Penguin Random House, (ISBN 9780525558637, OCLC 1113410915, lire en ligne).
  5. (en) Dan Hendrycks, Nicholas Carlini, John Schulman et Jacob Steinhardt, « Unsolved Problems in ML Safety », arXiv:2109.13916 [cs],‎ (lire en ligne, consulté le ).
  6. (en) Alexander Pan, Kush Bhatia et Jacob Steinhardt « The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models » () (lire en ligne, consulté le )
    International Conference on Learning Representations
    .
  7. (en) Stuart J. Russell et Peter Norvig, Artificial intelligence: A modern approach, 4e édition, (ISBN 978-1-292-40113-3, OCLC 1303900751, lire en ligne), p. 31–34.
  8. (en) Joseph Carlsmith, « Is Power-Seeking AI an Existential Risk? », arXiv:2206.13353 [cs],‎ (lire en ligne, consulté le ).
  9. (en) Lauro Langosco Di Langosco, Jack Koch, Lee D Sharkey, Jacob Pfau et David Krueger « Goal misgeneralization in deep reinforcement learning » ()
    « (ibid.) », dans International Conference on Machine Learning, vol. 162, PMLR, p. 12004–12019
    .
  10. (en) Tharin Pillay, « New Tests Reveal AI's Capacity for Deception », sur TIME, (consulté le ).
  11. (en) Billy Perrigo, « Exclusive: New Research Shows AI Strategically Lying », sur TIME, (consulté le ).
  12. (en) Rishi Bommasani, Drew A. Hudson, Ehsan Adeli et Russ Altman, « On the Opportunities and Risks of Foundation Models », arXiv:2108.07258 [cs],‎ (lire en ligne, consulté le ).
  13. (en) Long Ouyang, Jeff Wu, Xu Jiang et Diogo Almeida, « Training language models to follow instructions with human feedback », arXiv:2203.02155 [cs],‎ (lire en ligne, consulté le ).
  14. (en) Jens Kober, J. Andrew Bagnell et Jan Peters, « Reinforcement learning in robotics: A survey », The International Journal of Robotics Research, vol. 32, no 11,‎ , p. 1238–1274 (ISSN 0278-3649, DOI 10.1177/0278364913495721, S2CID 1932843, lire en ligne).
  15. (en) W. Bradley Knox, Alessandro Allievi, Holger Banzhaf et Felix Schmitt, « Reward (Mis)design for Autonomous Driving », arXiv:2104.13906 [cs],‎ (lire en ligne, consulté le ).
  16. (en) Jonathan Stray, « Aligning AI Optimization to Community Well-Being », International Journal of Community Well-Being, vol. 3, no 4,‎ , p. 443–463 (ISSN 2524-5295, PMID 34723107, PMCID 7610010, DOI 10.1007/s42413-020-00086-3, S2CID 226254676).
  17. (en) Nick Bostrom, Superintelligence: Paths, Dangers, Strategies, USA, 1st, (ISBN 978-0-19-967811-2).
  18. Alexandre Piquard, « L’intelligence artificielle serait aussi dangereuse que « les pandémies ou la guerre nucléaire », selon des leaders du secteur », Le Monde,‎ (lire en ligne, consulté le ).
  19. « L’IA est-elle une menace pour l’humanité ? Les spécialistes se divisent », sur l'Opinion, (consulté le ).
  20. (en) Stuart Russell, Daniel Dewey et Max Tegmark, « Research Priorities for Robust and Beneficial Artificial Intelligence », AI Magazine, vol. 36, no 4,‎ , p. 105–114 (ISSN 2371-9621, DOI 10.1609/aimag.v36i4.2577, S2CID 8174496, lire en ligne).
  21. (en) Christian Wirth, Riad Akrour, Gerhard Neumann et Johannes Fürnkranz, « A survey of preference-based reinforcement learning methods », Journal of Machine Learning Research, vol. 18, no 136,‎ , p. 1–46 (lire en ligne).
  22. (en) Paul F. Christiano, Jan Leike, Tom B. Brown et Miljan Martic, « Deep reinforcement learning from human preferences », NeurIPS,‎ (ISBN 978-1-5108-6096-4, DOI 10.5555/3294996.3295184, lire en ligne, consulté le ).
  23. (en) Sina Mohseni, Haotao Wang, Zhiding Yu et Chaowei Xiao, « Taxonomy of Machine Learning Safety: A Survey and Primer », arXiv:2106.04823 [cs],‎ (lire en ligne, consulté le ).
  24. (en) Jesse Clifton, « Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda », Center on Long-Term Risk, (consulté le ).
  25. (en) Allan Dafoe, Yoram Bachrach, Gillian Hadfield et Eric Horvitz, « Cooperative AI: machines must learn to find common ground », Nature, vol. 593, no 7857,‎ , p. 33–36 (ISSN 0028-0836, PMID 33947992, DOI 10.1038/d41586-021-01170-0, Bibcode 2021Natur.593...33D, S2CID 233740521, lire en ligne).
  26. (en) Geoffrey Irving et Amanda Askell, « AI Safety Needs Social Scientists », Distill, vol. 4, no 2,‎ , p. 10.23915/distill.00014 (ISSN 2476-0757, DOI 10.23915/distill.00014, S2CID 159180422, lire en ligne).
  27. (en) Wiener, « Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers. », Science, vol. 131, no 3410,‎ , p. 1355–1358 (ISSN 0036-8075, PMID 17841602, DOI 10.1126/science.131.3410.1355, lire en ligne).
  28. (en) Natalie Wolchover, « Concerns of an Artificial Intelligence Pioneer », sur Quanta Magazine, (consulté le ).
  29. (en) Stuart Russel et Peter Norvig, Artificial intelligence : a modern approach, 4e édition, (ISBN 978-1-292-40113-3 et 1-292-40113-3, OCLC 1303900751, lire en ligne), p. 4-5.
  30. (en) Joshua Sokol, « Why Artificial Intelligence Like AlphaZero Has Trouble With the Real World », sur Quanta Magazine, (consulté le ).
  31. (en) Natalie Wolchover, « Artificial Intelligence Will Do What We Ask. That's a Problem. », sur Quanta Magazine, (consulté le ).
  32. (en) Dario Amodei, Chris Olah, Jacob Steinhardt et Paul Christiano, « Concrete Problems in AI Safety », arXiv:1606.06565 [cs],‎ (lire en ligne, consulté le ).
  33. (en) DeepMind Safety Research, « Building safe artificial intelligence: specification, robustness, and assurance », sur Medium, (consulté le ).
  34. (en) Victoria Krakovna, Jonathan Uesato, Vladimir Mikulik, Matthew Rahtz, Tom Everitt, Ramana Kumar, Zac Kenton, Jan Leik et Shane Legg, « Specification gaming: the flip side of AI ingenuity », Deepmind, (consulté le ).
  35. (en) David Manheim et Scott Garrabrant, « Categorizing Variants of Goodhart's Law », arXiv:1803.04585 [cs, q-fin, stat],‎ (lire en ligne, consulté le ).
  36. (en) Stephanie Lin, Jacob Hilton et Owain Evans, « TruthfulQA: Measuring How Models Mimic Human Falsehoods », Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Dublin, Ireland, Association for Computational Linguistics,‎ , p. 3214–3252 (DOI 10.18653/v1/2022.acl-long.229, S2CID 237532606, lire en ligne).
  37. Haziqa Sajid, « Que sont les hallucinations LLM? Causes, préoccupation éthique et prévention », sur Unite.AI, (consulté le ).
  38. (en) Dario Amodei, Paul Christiano et Alex Ray, « Learning from Human Preferences », sur OpenAI, (consulté le ).
  39. (en) « Faulty Reward Functions in the Wild », sur OpenAI, (consulté le ).
  40. (en) Edge.org, « The Myth Of AI | Edge.org » (consulté le ).
  41. (en-US) « Polarization Report », sur NYU Stern Center for Business and Human Rights, (consulté le ).
  42. (en) John Tasioulas, « First Steps Towards an Ethics of Robots and Artificial Intelligence », Journal of Practical Ethics, vol. 7, no 1,‎ , p. 61–95 (lire en ligne).
  43. Harari 2024, p. 322-361.
  44. (en) Georgia Wells, « Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest », Wall Street Journal,‎ (lire en ligne, consulté le ).
  45. (en) « Uber disabled emergency braking in self-driving car: U.S. agency », Reuters,‎ (lire en ligne, consulté le ).
  46. (en) « Agentic Misalignment: How LLMs could be insider threats », sur Anthropic, (consulté le ).
  47. (en) Daniel Kokotajlo, « What 2026 looks like », (consulté le )
  48. (en) « AI 2027 », sur ai-2027.com (consulté le ).
  49. Guillaume Serries, « "ChatGPT est le niveau 1" : OpenAI dévoile sa feuille de route en 5 étapes pour atteindre l'AGI », sur ZDNET, (consulté le ).
  50. « C'est quoi l'intelligence générale sur laquelle planchent les Big Tech ? », sur 20 minutes, (consulté le ).
  51. « Le CEO de DeepMind affirme que Google dépensera plus de 100 milliards dans l'IA », sur L'Écho, .
  52. (en-US) Benj Edwards, « New AI assistant can browse, search, and use web apps like a human », sur Ars Technica, (consulté le ).
  53. (en-GB) « DeepMind AI rivals average human competitive coder », BBC News,‎ (lire en ligne, consulté le ).
  54. (en) « DeepMind Introduces Gato, a New Generalist AI Agent », sur InfoQ, .
  55. (en) Katja Grace, John Salvatier, Allan Dafoe et Baobao Zhang, « Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts », Journal of Artificial Intelligence Research, vol. 62,‎ , p. 729–754 (ISSN 1076-9757, DOI 10.1613/jair.1.11222, lire en ligne, consulté le ).
  56. (en) Baobao Zhang, Markus Anderljung, Lauren Kahn et Noemi Dreksler, « Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers », Journal of Artificial Intelligence Research, vol. 71,‎ , p. 591–666 (ISSN 1076-9757, DOI 10.1613/jair.1.12895, lire en ligne, consulté le ).
  57. (en) Alexander Matt Turner, Logan Smith, Rohin Shah et Andrew Critch, « Optimal Policies Tend to Seek Power », Neural Information Processing Systems, vol. 34,‎ (arXiv 1912.01683, lire en ligne).
  58. (en) « Safely Interruptible Agents », sur Machine Intelligence Research Institute, (consulté le ).
  59. (en) Jan Leike, Miljan Martic, Victoria Krakovna et Pedro A. Ortega, « AI Safety Gridworlds », arXiv:1711.09883 [cs],‎ (lire en ligne, consulté le ).
  60. (en) Dylan Hadfield-Menell, Anca Dragan, Pieter Abbeel et Stuart Russell « The Off-Switch Game » () (DOI 10.24963/ijcai.2017/32, consulté le )
    « (ibid.) », dans IJCAI
    .
  61. Épisode Intelligent machinery, a heretical theory de la série Automatic Calculating Machines. Visionner l'épisode en ligne.
  62. (en) Épisode Can digital computers think?, deuxième épisode de la série Automatic Calculating Machines.Transcript..
  63. (en) Luke Muehlhauser, « Sutskever on Talking Machines » (consulté le ).
  64. (en) « Human Compatible: AI and the Problem of Control » (consulté le ).
  65. (en) Murray Shanahan, The technological singularity, Cambridge, Massachusetts, (ISBN 978-0-262-33182-1, OCLC 917889148, lire en ligne).
  66. (en) Stuart Russell et Peter Norvig, Artificial Intelligence: A Modern Approach, Prentice Hall, , 1010 p. (ISBN 978-0-13-604259-4).
  67. (en-US) « Opinion | How do you teach a machine to be moral? », Washington Post,‎ (ISSN 0190-8286, lire en ligne, consulté le ).
  68. (en) Scott Aaronson, « OpenAI! », Shtetl-Optimized, .
  69. (en) David McAllester, « Friendly AI and the Servant Mission », sur Machine Thoughts, .
  70. (en) Tom Everitt, Gary Lea et Marcus Hutter, « AGI Safety Literature Review », arXiv:1805.01109 [cs],‎ (lire en ligne, consulté le ).
  71. (en) Shane Legg, « Funding safe AGI », vetta project, .
  72. (en) Eric Horvitz, « Reflections on Safety and Artificial Intelligence », (consulté le ).
  73. (en) François Chollet, « The implausibility of intelligence explosion », Medium, (consulté le ).
  74. (en) Gary Marcus, « Artificial General Intelligence Is Not as Imminent as You Might Think », Scientific American, (consulté le ).
  75. (en) Lynsey Barber, « Phew! Facebook's AI chief says intelligent machines are not a threat to humanity », CityAM, (consulté le ).
  76. (en) Jeremie Harris, « The case against (worrying about) existential risk from AI », Medium, (consulté le ).
  77. Valisoa Rasolofo, « Les meilleurs modèles d'IA peuvent avoir recours au chantage pour éviter d’être désactivés, selon une étude d’Anthropic », sur Trust My Science, (consulté le ).
  78. (en) « Dario Amodei — The Urgency of Interpretability », sur www.darioamodei.com (consulté le ).
  79. Yanda Chen et Joe Benton, « Reasoning Models Don't Always Say What They Think », (DOI 10.48550/arXiv.2505.05410, consulté le ).
  80. (en) Andrew Y. Ng et Stuart J. Russell « Algorithms for inverse reinforcement learning » () (lire en ligne)
    « (ibid.) », dans ICML (ISBN 1-55860-707-2)
    .
  81. (en) Dylan Hadfield-Menell, Stuart J Russell, Pieter Abbeel et Anca Dragan « Cooperative Inverse Reinforcement Learning » () (lire en ligne, consulté le )
    « (ibid.) », dans NeurIPS (ISBN 978-1-5108-3881-9)
    .
  82. (en) Stuart Armstrong et Sören Mindermann « Occam' s razor is insufficient to infer the preferences of irrational agents » () (lire en ligne, consulté le )
    NeurIPS
    .
  83. (en) Johannes Fürnkranz, Eyke Hüllermeier, Cynthia Rudin et Roman Slowinski, « Preference Learning », Dagstuhl Reports,‎ (DOI 10.4230/DAGREP.4.3.1, lire en ligne).
  84. (en) Jacob Hilton et Leo Gao, « Measuring Goodhart's Law », sur OpenAI, (consulté le ).
  85. (en) Martin Anderson, « The Perils of Using Quotations to Authenticate NLG Content », sur Unite.AI, (consulté le ).
  86. (en) Kyle Wiggers, « Despite recent progress, AI-powered chatbots still have a long way to go », sur VentureBeat, (consulté le ).
  87. (en) Dan Hendrycks, Collin Burns, Steven Basart et Andrew Critch, « Aligning AI With Shared Human Values », ICLR,‎ (arXiv 2008.02275).
  88. (en) Ethan Perez, Saffron Huang, Francis Song et Trevor Cai, « Red Teaming Language Models with Language Models », Empirical Methods in Natural Language Processing,‎ (arXiv 2202.03286, lire en ligne, consulté le ).
  89. (en) Will Douglas Heaven, « The new version of GPT-3 is much better behaved (and should be less toxic) », MIT Technology Review, (consulté le ).
  90. (en) Vincent Wiegel, « Wendell Wallach and Colin Allen: moral machines: teaching robots right from wrong », Ethics and Information Technology, vol. 12, no 4,‎ , p. 359–361 (ISSN 1572-8439, DOI 10.1007/s10676-010-9239-1, S2CID 30532107, lire en ligne, consulté le ).
  91. (en) Wendell Wallach et Colin Allen, Moral Machines: Teaching Robots Right from Wrong, New York, Oxford University Press, (ISBN 978-0-19-537404-9, lire en ligne).
  92. (en) William MacAskill, What we owe the future, New York, NY, (ISBN 978-1-5416-1862-6, OCLC 1314633519, lire en ligne).
  93. (en) Jeff Wu, Long Ouyang, Daniel M. Ziegler et Nisan Stiennon, « Recursively Summarizing Books with Human Feedback », arXiv:2109.10862 [cs],‎ (lire en ligne, consulté le ).
  94. (en) Wojciech Zaremba et Greg Brockman, « OpenAI Codex », sur OpenAI, (consulté le ).
  95. (en) Paul Christiano, Buck Shlegeris et Dario Amodei, « Supervising strong learners by amplifying weak experts », arXiv:1810.08575 [cs, stat],‎ (lire en ligne, consulté le ).
  96. (en) Joel Lehman, Jeff Clune, Dusan Misevic et Christoph Adami, « The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities », Artificial Life,‎ (ISSN 1064-5462, PMID 32271631, DOI 10.1162/artl_a_00319, S2CID 4519185, lire en ligne).
  97. (en) Jan Leike, David Krueger, Tom Everitt et Miljan Martic, « Scalable agent alignment via reward modeling: a research direction », arXiv:1811.07871 [cs, stat],‎ (lire en ligne, consulté le ).
  98. (en) « AI safety via debate », sur OpenAI, (consulté le ).
  99. (en) Kyle Wiggers, « Falsehoods more likely with large language models », sur VentureBeat, (consulté le ).
  100. (en-GB) « A robot wrote this entire article. Are you scared yet, human? », The Guardian,‎ (ISSN 0261-3077, lire en ligne, consulté le ).
  101. (en) Owain Evans, Owen Cotton-Barratt, Lukas Finnveden et Adam Bales, « Truthful AI: Developing and governing AI that does not lie », arXiv:2110.06674 [cs],‎ (lire en ligne, consulté le ).
  102. (en-US) Steven Johnson et Nikita Iziev, « A.I. Is Mastering Language. Should We Trust What It Says? », The New York Times,‎ (ISSN 0362-4331, lire en ligne, consulté le ).
  103. Kurt Shuster, Spencer Poff, Moya Chen, Douwe Kiela et Jason Weston « Retrieval Augmentation Reduces Hallucination in Conversation » () (DOI 10.18653/v1/2021.findings-emnlp.320, lire en ligne, consulté le )
    EMNLP-Findings 2021
    « (ibid.) », dans Findings of the Association for Computational Linguistics: EMNLP 2021, Punta Cana, Dominican Republic, Association for Computational Linguistics, p. 3784–3803
    .
  104. (en) Nitish Kumar, « OpenAI Researchers Find Ways To More Accurately Answer Open-Ended Questions Using A Text-Based Web Browser », sur MarkTechPost, (consulté le ).
  105. (en) Jacob Menick, Maja Trebacz, Vladimir Mikulik et John Aslanides, « Teaching language models to support answers with verified quotes », DeepMind,‎ (arXiv 2203.11147, lire en ligne).
  106. (en) Amanda Askell, Yuntao Bai, Anna Chen et Dawn Drain, « A General Language Assistant as a Laboratory for Alignment », arXiv:2112.00861 [cs],‎ (lire en ligne, consulté le ).
  107. (en) DeepMind Safety Research, « Alignment of Language Agents », sur Medium, (consulté le ).
  108. (en) DeepMind Safety Research, « Building safe artificial intelligence: specification, robustness, and assurance », Medium, (consulté le ).
  109. (en) Brian Christian, The alignment problem: Machine learning and human values, W. W. Norton & Company, (ISBN 978-0-393-86833-3, OCLC 1233266753, lire en ligne), « Chapter 5: Shaping ».
  110. (en) Xiaoge Zhang, Felix T.S. Chan, Chao Yan et Indranil Bose, « Towards risk-aware artificial intelligence and machine learning systems: An overview », Decision Support Systems, vol. 159,‎ , p. 113800 (DOI 10.1016/j.dss.2022.113800, S2CID 248585546, lire en ligne).
  111. (en) John McCarthy, Marvin L. Minsky, Nathaniel Rochester et Claude E. Shannon, « A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955 », AI Magazine, vol. 27, no 4,‎ , p. 12 (ISSN 2371-9621, DOI 10.1609/aimag.v27i4.1904, S2CID 19439915, lire en ligne).
  112. (en) Joseph Carlsmith, « Is Power-Seeking AI an Existential Risk? », ..
  113. (en) « ‘The Godfather of A.I.’ warns of ‘nightmare scenario’ where artificial intelligence begins to seek power », sur Fortune, (consulté le ).
  114. (en) Stephen Ornes, « Playing Hide-and-Seek, Machines Invent New Tools », sur Quanta Magazine, (consulté le ).
  115. (en) Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew et Igor Mordatch, « Emergent Tool Use from Multi-Agent Interaction », sur OpenAI, (consulté le ).
  116. (en) Brian Christian, The alignment problem: Machine learning and human values, W. W. Norton & Company, (ISBN 978-0-393-86833-3, OCLC 1233266753, lire en ligne).
  117. On parle d'abus de spécification quand l'IA exploite (sans avoir été programmée pour cela) des failles dans la spécification de sa fonction de récompense, pour obtenir indument plus de récompenses
  118. (en) Michael K. Cohen, Marcus Hutter et Michael A. Osborne, « Advanced artificial agents intervene in the provision of reward », AI Magazine, vol. 43, no 3,‎ , p. 282–293 (ISSN 0738-4602, DOI 10.1002/aaai.12064, S2CID 235489158, lire en ligne).
  119. (en) Abram Demski et Scott Garrabrant, « Embedded Agency (PDF, 39 pages) », arXiv:1902.09469 [cs],‎ (lire en ligne, consulté le ).
  120. Ming Li, John Tromp et Paul Vitányi, « Sharpening Occam's razor », Information Processing Letters, vol. 85, no 5,‎ , p. 267–274 (ISSN 0020-0190, DOI 10.1016/s0020-0190(02)00427-1, lire en ligne, consulté le ).
  121. (en-GB) « Intelligent Machines: Do we really need to fear AI? », BBC News,‎ (lire en ligne, consulté le ).
  122. (en-US) Gary Marcus et Ernest Davis, « Opinion | How to Build Artificial Intelligence We Can Trust », The New York Times,‎ (ISSN 0362-4331, lire en ligne, consulté le ).
  123. (en) Kaj Sotala et Roman Yampolskiy, « Responses to catastrophic AGI risk: a survey », Physica Scripta, vol. 90, no 1,‎ , p. 018001 (DOI 10.1088/0031-8949/90/1/018001, Bibcode 2015PhyS...90a8001S).
  124. Yudkowsky E (2004) Coherent Extrapolated Volition (sur le site du Machine Intelligence Research Institute ou MIRI) | url=ttps://intelligence.org/files/CEV.pdf |consulté le=2025-04-13
  125. Groupe d'Experts de haut niveau en intelligence artificielle (GEHN IA) (trad. de l'anglais), Lignes directrices en matière d'éthique pour une IA digne de confiance [« Ethics guidelines for trustworthy AI »], Bruxelles, Commission européenne, (1re éd. 2018), 56 p. (lire en ligne), p. 8 (24). 
    Autres traductions en ligne.
  126. (en) « Secretary-General’s report on “Our Common Agenda” », sur un.org (consulté le ).
  127. (en) « Ethical Norms for New Generation Artificial Intelligence Released », sur Center for Security and Emerging Technology, (consulté le ).
  128. (en) Tim Richardson, « UK publishes National Artificial Intelligence Strategy », sur The Register, (consulté le ).
  129. (en) « National AI Strategy »,  : « The government takes the long term risk of non-aligned Artificial General Intelligence, and the unforeseeable changes that it would mean for the UK and the world, seriously. »
  130. (en) NSCAI Final Report, Washington, DC, The National Security Commission on Artificial Intelligence, (lire en ligne [PDF]).

Voir aussi

Bibliographie

 : document utilisé comme source pour la rédaction de cet article.

Articles connexes

  • Portail de l’intelligence artificielle