EmoDB
EmoDB (abréviation de Berlin Database of Emotional Speech) est une base de données audio créée en 2005 par des chercheurs de l'université technique de Berlin. Les données d'EmoDB sont destinées à l'étude et à l'entraînement des systèmes de reconnaissance des émotions dans la parole. Elle est largement utilisée dans le domaine de l'informatique affective et de la reconnaissance vocale. C'est l'équivalent « audio » de la base de données AffectNet qui est, elle, la base de données d'images présentant des émotions sur des visages, complémentaire de la première pour entraîner des intelligences artificielles à reconnaître des émotions à partir de l'image, de la vidéo et de la parole.
Historique
La base a été développée entre 1997 et 1999 dans le cadre d'un projet de recherche[1] dirigé par Walter F. Sendlmeier, linguiste et chercheur allemand spécialisé dans dans l’étude de la voix, de la parole et de leurs effets perceptifs et émotionnels, au sein des sciences de la communication et ayant longtemps dirigé le Fachgebiet Kommunikationswissenschaft (Département de sciences de la communication de la Technische Universität Berlin). Il a créé cette base avec Felix Burkhardt, Astrid Paeschke, Miriam Rolfes et Benjamin Weiss[1].
Leur projet[1] visait à permettre d'analyser les caractéristiques sonores et phonétiques de la parole émotionnelle, ici simulée par des comédiens professionnels[2].
Contenu
EmoDB contient[3] :
- 535 enregistrements audio en allemand, produits par 10 comédiens (5 hommes, 5 femmes) ;
- 7 émotions simulées : colère, peur, joie, tristesse, dégoût, ennui, et neutralité ;
- des phrases standardisées issues de la communication quotidienne ;
- des fichiers d'annotation phonétique et syllabique.
Les fichiers audio sont au format WAV (16 kHz, 16 bits, mono), accompagnés de métadonnées précises sur les émotions et les locuteurs.
Applications
EmoDB a été utilisée dans :
- la reconnaissance automatique des émotions dans la parole ;
- l'analyse phonétique des émotions simulées ; elle a par exemple permis d'isoler des expressions phonétiques spécifiques aux émotions sur la base d'analyses phonétiques des phénomènes d'épenthèse, d'élision de segments de mots ou de phrases, de changement dans la durée des voyelles et des consonnes, d'extension temporelle de certaines phrases, la structure de l'accent, l'isochronie, la sonorisation, l'assimilation progressive de l'absence de voix et la position des formants. Les phénomènes de réduction et d'élaboration identifiés seront classés en phonétique de l'allemand en référence au mécanisme de génération et aux corrélats acoustiques qui en résultent[4] ;
- l'entraînement de modèles de deep learning pour la classification vocale ;
- la synthèse vocale émotionnelle.
Conditions d'utilisation
La base est disponible gratuitement pour un usage académique et non commercial. Elle est publiée sous licence CC0-1.0 et peut être téléchargée via la bibliothèque Python audb[5].
Devenir
Le portail EmoDB est aujourd'hui peu actif et il n'est plus mis à jour par l'Université, mais son contenu est toujours accessible. Ce travail reste une référence historique dans le domaine de la reconnaissance automatique des émotions d'après la voix (c'est l'une des premières bases de données émotionnelles vocales simulées en chambre anéchoïque par des comédiens professionnels) ; il a servi de référence pour les études sur les émotions vocales en allemand, et elle a influencé la conception de bases plus récentes comme IEMOCAP ou MSP-IMPROV (qui intègrent des émotions plus naturelles ou spontanées).
En 2025 et depuis la création d'EmoDB, d'autres bases de données vocale émotionnelle de ce type ont été construites, dont la plus grandes connue serait BASE TTS, développée par Amazon, contenant 100 000 heures de données vocales du domaine public en anglais, allemand, néerlandais, espagnol. Initialement conçue pour la synthèse vocale émotionnelle, ses données peuvent aussi être utilisées pour la reconnaissance émotionnelle. Elle dépasse les bases classiques comme LibriTTS, VCTK ou IEMOCAP, tant en volume qu'en diversité d'enregistrements.
Notes et références
- Projet de recherche SE462/3-1 financé par la DFG (Deutsche Forschungsgemeinschaft) ou Fondation allemande pour la recherche.
- ↑ (en) Felix Burkhardt, Astrid Paeschke, Miriam Rolfes, Walter F. Sendlmeier et Benjamin Weiss, « A database of German emotional speech », Proceedings of INTERSPEECH, Lisbonne, ISCA, vol. 5, , p. 1517–1520.
- ↑ (en) « EmoDB Dataset » [archive du ], sur kaggle.com (consulté le ).
- ↑ « Projet de recherche sur la parole émotionnelle », sur TU Berlin (consulté le ).
- ↑ « GitHub – audeering/emodb », sur GitHub (consulté le ).
Voir aussi
Articles connexes
- Phonétique
- Reconnaissance des émotions
- Informatique affective
- Intelligence émotionnelle
- Informatique affective
- Traitement du signal
- Base de données
- AffectNet
Liens externes
- « Page officielle de téléchargement », sur TU Berlin (consulté le )
- « Emo-DB », sur emodb.bilderbar.info (consulté le ).
- Portail de la psychologie
- Portail des sciences
- Portail de l’intelligence artificielle
- Portail de l’informatique
- Portail des années 2020
- Portail de l’imagerie numérique