American Invitational Mathematics Examination

L'AIME (acronyme de American Invitational Mathematics Examination) est une épreuve de mathématiques de 15 questions à réponse entière et de difficulté croissante, d'une durée de trois heures, destinée aux élèves ayant obtenu un score élevé aux concours AMC 10 ou AMC 12. Elle vise à évaluer des compétences avancées en résolution de problèmes, au-delà du programme scolaire standard[1]. L'AIME est aussi, depuis 2023, utilisé pour tester le niveau de certaines intelligences artificielles.

Historique

L'AIME a été créée en 1983 pour compléter le processus de sélection de l'équipe olympique américaine, qui peut ensuite participer aux Olympiades internationales de mathématiques.

Initialement réservée aux meilleurs candidats de l'AHSME (ancien nom de l'AMC 12), elle s'est élargie en 2010 aux meilleurs 2,5 % des participants à l'AMC 10.

Format

  • Nombre de questions : L'épreuve comporte 15 exercices incluant l'algèbre, la géométrie, la combinatoire, la théorie des nombres et les probabilités. Ces exercises sont présentés en ordre de difficulté croissante. Les premiers sont généralement abordables pour un bon lycéen, tandis que les derniers sont très complexes et peuvent nécessiter des raisonnements originaux.
  • Format des réponses : Chaque question appelle une réponse sous la forme d'un nombre entier entre 0 et 999. Il n'y a pas de choix multiples, ni de démonstrations à rédiger. Par exemple, si la réponse est 72, on l'écrit simplement « 072 ».
  • Barème : Une bonne réponse rapporte 1 point. Il n'y a ni points négatifs, ni points partiels, ce qui signifie qu'aucune pénalité n'est appliquée en cas d'erreur ou de réponse vide.
  • Matériel autorisé : L'usage de la calculatrice est strictement interdit. Les participants doivent résoudre tous les problèmes de tête ou à l'aide de papier et stylo.
  • Score maximal : Le total possible est de 15 points (ce qui correspond à un sans-faute). La plupart des candidats obtiennent entre 2 et 7 bonnes réponses.

Sélection et suite

Les scores de l'AIME sont combinés à ceux de l'AMC pour calculer un indice permettant d'accéder à l'USAMO ou à l'USAJMO (version junior). L'indice est calculé selon la formule : Indice = score AMC + 10 × score AIME.

Comparaison avec d'autres concours

Concours Pays Niveau Format Objectif
AIME États-Unis Lycée Réponses entières Sélection USAMO
TFJM² France Lycée Travail en équipe, exposé oral Raisonnement collaboratif
EGMO Europe Lycée (filles) Problèmes ouverts Olympiade européenne
IMO International Lycée 6 problèmes en 2 jours Compétition mondiale

Utilisation des questions pour l'évaluation de l'intelligence artificielle

Depuis 2024, l'AIME est aussi utilisé comme benchmark pour évaluer les capacités de raisonnement mathématique de grands modèles d'IA généraliste. Plusieurs laboratoires, dont Anthropic, OpenAI et Epoch AI (institut de recherche indépendant qui étudie l’évolution des IA, leur impact sociétal et les tendances technologiques associées), ont testé leurs modèles sur les épreuves de l'AIME 2024 et 2025, en raison de la difficulté croissante et de la diversité des problèmes proposés[2].

Les résultats montrent que certains modèles récents, comme *o3 Mini* ou *Gemini 2.5 Pro*, atteignent des taux de réussite supérieurs à 85 %, dépassant largement la moyenne humaine. Toutefois, les questions ayant déjà été publiées, certaines pourraient avoir été vues par des IA durant leur entraînement, ce qui limite la portée des conclusions. o3 a en outre bénéficié de meilleurs conditions pour passer ce test[3]. Enfin, les candidats humains n'ont pas le droit à la calculatrice, alors que ces IA en disposent nativement.

L'AIME n'est pas utilisée seule pour évaluer les IA, plusieurs autres benchmarks sont utilisés pour évaluer les capacités de raisonnement mathématique (ou d'autres compétences des modèles d'intelligence artificielle) :

  • MATH : une base de données de plus de 12 500 problèmes de mathématiques de niveau lycée à universitaire, couvrant l'algèbre, la géométrie, les probabilités et l'analyse. Il est conçu pour tester la résolution symbolique et la rigueur logique[4] ;
  • GPQA (Graduate-level Physics and Quantitative Aptitude) : un ensemble de questions scientifiques de niveau master ou doctorat, utilisé pour tester la compréhension conceptuelle et la capacité à résoudre des problèmes complexes dans des domaines comme la physique, la chimie ou les mathématiques appliquées[5] ;
  • ARC-AGI : conçu par François Chollet, ce benchmark évalue la capacité d'un modèle à résoudre des tâches abstraites inédites, en s'appuyant sur le raisonnement analogique, la généralisation et la composition de règles. Il est considéré comme l'un des tests les plus exigeants pour les systèmes d'IA généraliste[6].

Ces benchmarks permettent de comparer les performances des modèles sur des tâches mathématiques variées, allant de la résolution symbolique à l'abstraction cognitive ; ils sont devenus des références dans l'évaluation des grands modèles de langage les plus avancés.

Références

  1. (en) « American Invitational Mathematics Examination », sur Art of Problem Solving (consulté le ).
  2. (en) « AIME Benchmark », sur VALS AI, (consulté le ).
  3. (en) Yoshua Bengio (dir.) et al., International AI Safety Report, , 298 p. (présentation en ligne, lire en ligne [PDF]), p. 11.
    Voir légende du schéma 1.
  4. (en) Dan Hendrycks et al., « Measuring Mathematical Problem Solving With the MATH Dataset », sur arXiv, (consulté le ).
  5. (en) « GPQA Benchmark », sur Anthropic (consulté le ).
  6. Laurent Delattre, « ARC-AGI-2 et l'utilité des Benchmarks IA pour les DSI », sur IT for Business, (consulté le ).

Articles connexes

  • Portail des mathématiques
  • Portail de l’éducation
  • Portail des États-Unis