Modèle texte-vidéo

Un modèle texte-vidéo est un modèle d'apprentissage automatique qui utilise une description en langage naturel comme entrée pour produire une vidéo pertinente par rapport au texte d'entrée[1]. Ces modèles sont utilisés dans le domaine de l'intelligence artificielle générative.

Les avancées pendant les années 2020 dans la génération de vidéos de haute qualité conditionnées par du texte sont en grande partie conduites par le développement de modèles de diffusion vidéo[2].

Modèles

Il existe différents modèles, y compris des modèles open source.

CogVideo est le premier modèle texte-vidéo à être développé, avec sa version de démonstration de codes open source présentée pour la première fois sur GitHub en 2022[3]. Le modèle utilise 9,4 milliards de paramètres et n'accepte que du texte en langue chinoise[4].

Cette même année, Meta Platforms lance un modèle texte-vidéo partiel appelé « Make-A-Video »[5],[6],[7], et Google ainsi que Brain (puis Google DeepMind) introduisent Imagen Video, un modèle texte-vidéo avec un U-Net 3D[8],[6],[9],[10],[11]

En mars 2023, un article de recherche intitulé « VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation » est publié, présentant une approche novatrice de la génération vidéo[12]. Le modèle VideoFusion décompose le processus de diffusion en deux composantes : le bruit de base et le bruit résiduel, qui sont partagés entre les images pour assurer une cohérence temporelle. En utilisant un modèle de diffusion d'image pré-entraîné comme générateur de base, le modèle génère efficacement des vidéos de haute qualité et cohérentes. Le réglage fin du modèle pré-entraîné sur des données vidéo comble l'écart de domaine entre les images et les vidéos, renforçant ainsi la capacité du modèle à produire des séquences vidéo réalistes et cohérentes[12].

Le même mois, Adobe Inc. introduit Firefly AI dans le cadre de ses fonctionnalités[13].

En janvier 2024, Google annonce le développement d'un modèle texte-vidéo nommé Lumiere, qui doit intégrer des capacités avancées d'édition vidéo[14].

Matthias Niessner et Lourdes Agapito chez l'entreprise d'IA Synthesia travaillent au développement de techniques de rendu neuronal 3D qui synthétisent des vidéos réalistes en utilisant des représentations neuronales 2D et 3D de la forme, de l'apparence et du mouvement pour une synthèse vidéo contrôlable des avatars[15].

En juin 2024, Luma Labs lance son outil vidéo Dream Machine[16],[17]. Ce même mois[18], Kuaishou étend l'utilisation de son modèle texte-vidéo Kling AI à l'international.

En juillet 2024, le propriétaire de TikTok ByteDance lance Jimeng AI en Chine, via sa filiale Faceu Technology[19]. En septembre 2024, l'entreprise chinoise d'IA MiniMax présente son modèle video-01, rejoignant d'autres entreprises établies de modèles d'IA telles que Zhipu AI, Baichuan et Moonshot AI, qui contribuent à l'implication de la Chine dans la technologie de l'IA[20].

Des approches alternatives aux modèles texte-vidéo incluent[21] Google avec Phenaki, Hour One, Colossyan[4], le Gen-3 Alpha de Runway[22],[23] et Sora d'OpenAI[24],[25]. Plusieurs autres modèles texte-vidéo, tels que Plug-and-Play, Text2LIVE et TuneAVideo, émergent[26]. Google se prépare également à lancer un outil de génération vidéo nommé Veo pour YouTube Shorts en 2025[27]. Le développeur de FLUX.1, Black Forest Labs, annonce son modèle texte-vidéo SOTA[28].

Architecture et entraînement

Il existe plusieurs architectures utilisées pour créer des modèles texte-vidéo. Similaires aux modèles Text-to-Image, ces modèles peuvent être entraînés à l'aide de réseaux de neurones récurrents (RNN) tels que les réseaux LSTM, utilisés pour les modèles de transformation de pixels et les modèles de génération vidéo stochastiques, qui contribuent respectivement à la cohérence et au réalisme[29].

Une alternative consiste à utiliser des modèles transformateurs. Les réseaux antagonistes génératifs (GAN) et les Auto-encodeurs variationnels (VAE) — qui contribuent à la prédiction du mouvement humain[30] — et les modèles de diffusion sont également utilisés pour développer les aspects de génération d'images du modèle[31].

Les ensembles de données texte-vidéo utilisés pour entraîner les modèles incluent, sans s'y limiter, WebVid-10M, HDVILA-100M, CCV, ActivityNet et Panda-70M[32],[33]. Ces ensembles de données contiennent des millions de vidéos originales d'intérêt, des vidéos générées, des vidéos sous-titrées et des informations textuelles qui aident à entraîner les modèles pour plus de précision.

Les ensembles de données texte-vidéo utilisés pour entraîner les modèles incluent, sans s'y limiter, PromptSource, DiffusionDB et VidProM[32],[33]. Ces ensembles de données offrent la gamme d'entrées textuelles nécessaires pour apprendre aux modèles à interpréter une variété d'invites textuelles. Le processus de génération vidéo implique la synchronisation des entrées textuelles avec les images vidéo, garantissant ainsi l'alignement et la cohérence de l'ensemble de la séquence[33]. Ce processus prédictif voit sa qualité diminuer à mesure que la longueur de la vidéo augmente en raison de limitations en ressources[33].

Limitations

Malgré l'évolution rapide des modèles texte-vidéo dans leurs performances, une limitation majeure est qu'ils sont très gourmands en ressources informatiques, ce qui limite leur capacité à fournir des rendus de haute qualité et de longue durée[29],[31]. De plus, ces modèles nécessitent une grande quantité de données d'entraînement spécifiques pour pouvoir générer des rendus de haute qualité et cohérents, ce qui pose la question de leur accessibilité[31],[29].

En outre, les modèles peuvent mal interpréter les invites textuelles, produisant des vidéos qui s'écartent du sens voulu. Cela survient en raison de limitations dans la capture du contexte sémantique contenu dans le texte, ce qui affecte la capacité du modèle à associer la vidéo générée au message souhaité par l'utilisateur[31],[33].

Éthique

Le déploiement des modèles texte-vidéo soulève des considérations éthiques liées à la génération de contenu. Ces modèles ont le potentiel de créer un contenu inapproprié ou non autorisé, incluant du matériel explicite, de la violence graphique, de la désinformation et des ressemblances avec de vraies personnes sans leur consentement[34].

Assurer que le contenu généré par l'IA respecte les normes établies en matière d'utilisation sûre et éthique est essentiel, car le contenu généré par ces modèles n'est pas toujours facilement identifiable comme nuisible ou trompeur. La capacité de l'IA à reconnaître et à filtrer les contenus NSFW ou protégés par le droit d'auteur reste un défi permanent, avec des implications tant pour les créateurs que pour le public[34].

Impacts et applications

Les modèles texte-vidéo offrent une vaste gamme d'applications susceptibles de bénéficier à divers domaines, de l'éducation et la promotion aux industries créatives. Ces modèles simplifient la création de contenu pour les vidéos de formation, les avant-premières de films, les ressources pour les jeux et les visualisations, facilitant ainsi la génération d'un contenu dynamique et de haute qualité[31]. Ces fonctionnalités apportent des avantages économiques et personnels aux utilisateurs.

Le long-métrage The Reality of Time, premier film au monde à intégrer entièrement l'IA générative pour la vidéo, est achevé en 2024. Narré en partie par John de Lancie, célèbre pour son rôle emblématique de « Q » dans Star Trek: The Next Generation, sa production utilise des outils d'IA avancés, notamment Runway Gen-3 Alpha et Kling 1.6, comme décrit dans le livre Cinematic A.I. Ce livre explore les limites de la génération IA texte-vidéo, les défis de sa mise en œuvre, et comment les techniques image-vidéo sont employées pour de nombreuses séquences clés du film[réf. souhaitée].

Comparaison des modèles existants

Modèle/Produit Entreprise Année de sortie Statut Caractéristiques clés Capacités Tarification Durée vidéo Langues supportées
Synthesia Synthesia 2019 Sorti Avatars IA, support multilingue pour plus de 60 langues, options de personnalisation[35] Spécialisé dans les avatars IA réalistes pour la formation en entreprise et le marketing[35] Basé sur un abonnement, à partir d'environ 30 $/mois Variable selon l'abonnement 60+
Vexub Vexub 2023 Sorti Génération de vidéo à partir d'un prompt texte, axée sur le format storytelling pour les réseaux sociaux[36] Crée des vidéos IA (1 à 15 min) à partir de textes, avec options de montage et de voix[36] Basé sur un abonnement, plusieurs formules disponibles Jusqu'à ~15 minutes 70+ langues
InVideo AI InVideo 2021 Sorti Création vidéo assistée par IA, grande bibliothèque de contenus, avatars IA parlants[35] Conçu pour le contenu des réseaux sociaux avec des modèles spécifiques à chaque plateforme[35] Plan gratuit disponible, plans payants à partir de 16 $/mois Variable selon le type de contenu Plusieurs (non spécifié)
Fliki Fliki AI 2022 Sorti texte-vidéo avec avatars et voix IA, support étendu des langues et voix[35] Supporte plus de 65 avatars IA et plus de 2000 voix en 70 langues[35] Plan gratuit disponible, plans payants à partir de 30 $/mois Variable selon l'abonnement 70+
Runway Gen-2 Runway AI 2023 Sorti Génération vidéo multimodale à partir de texte, d'images ou de vidéos[37] Visuels de haute qualité, divers modes tels que la stylisation et le storyboard[37] Essai gratuit, plans payants (détails non spécifiés) Jusqu'à 16 secondes Plusieurs (non spécifié)
Pika Labs Pika Labs 2024 Beta Génération vidéo dynamique, personnalisation de la caméra et du mouvement[38] Convivial, axé sur une génération dynamique naturelle[38] Actuellement gratuit en version bêta Flexible, supporte des vidéos plus longues avec continuation d'images Plusieurs (non spécifié)
Runway Gen-3 Alpha Runway AI 2024 Alpha Fidélité visuelle améliorée, humains photoréalistes, contrôle temporel précis[39] Génération vidéo ultra-réaliste avec key-framing précis et personnalisation de niveau industriel[39] Essai gratuit disponible, tarification sur mesure pour les entreprises Jusqu'à 10 secondes par clip, extensible Plusieurs (non spécifié)
OpenAI Sora OpenAI 2024 Alpha Compréhension approfondie du langage, visuels cinématographiques de haute qualité, vidéos multi-plans[40] Capable de créer des vidéos détaillées, dynamiques et émotionnellement expressives ; encore en développement avec des mesures de sécurité[40] Tarification non encore dévoilée Devrait générer des vidéos plus longues ; durée exacte à déterminer Plusieurs (non spécifié)

Voir aussi

Références

  1. (en) Artificial Intelligence Index Report 2023 (rapport), Stanford Institute for Human-Centered Artificial Intelligence, p. 98 (lire en ligne)
    « Multiple high quality text-to-video models, AI systems that can generate video clips from prompted text, were released in 2022. »
  2. (en) Andrew Melnik, Michal Ljubljanac, Cong Lu, Qi Yan, Weiming Ren et al., « Video Diffusion Models: A Survey », .
  3. CogVideo, THUDM, (lire en ligne)
  4. Ben Wodecki, « Text-to-Video Generative AI Models: The Definitive List », sur AI Business, Informa, (consulté le )
  5. (en) Teli Davies, « Make-A-Video: Meta AI's New Model For Text-To-Video Generation », sur Weights & Biases, (consulté le )
  6. (en) Jim Clyde Monge, « This AI Can Create Video From Text Prompt », sur Medium, (consulté le )
  7. « Meta's Make-A-Video AI creates videos from text », sur www.fonearena.com (consulté le )
  8. « google: Google takes on Meta, introduces own video-generating AI », The Economic Times,‎
  9. « Nuh-uh, Meta, we can do text-to-video AI, too, says Google », sur The Register (consulté le )
  10. (en) « Papers with Code - See, Plan, Predict: Language-guided Cognitive Planning with Video Prediction », sur paperswithcode.com (consulté le )
  11. (en) « Papers with Code - Text-driven Video Prediction », sur paperswithcode.com (consulté le )
  12. Zhengxiong Luo et al., VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation,
  13. « Adobe launches Firefly Video model and enhances image, vector and design models. Adobe Newsroom », Adobe Inc., (consulté le )
  14. Bob Yirka, « Google announces the development of Lumiere, an AI-based next-generation text-to-video generator. », sur Tech Xplore, (consulté le )
  15. « Text to Speech for Videos », sur Synthesia.io (consulté le )
  16. (en-US) Michael Nuñez, « Luma AI debuts 'Dream Machine' for realistic video generation, heating up AI media race », sur VentureBeat, (consulté le )
  17. (en) Charlie Fink, « Apple Debuts Intelligence, Mistral Raises $600 Million, New AI Text-To-Video », sur Forbes (consulté le )
  18. (en-US) Carl Franzen, « What you need to know about Kling, the AI video generator rival to Sora that's wowing creators », sur VentureBeat, (consulté le )
  19. « ByteDance joins OpenAI's Sora rivals with AI video app launch », Reuters, (consulté le )
  20. « Chinese ai "tiger" minimax launches text-to-video-generating model to rival OpenAI's sora », sur Yahoo! Finance, (consulté le )
  21. Text2Video-Zero, Picsart AI Research (PAIR), (lire en ligne)
  22. (en-US) Jonathan Kemper, « Runway's Sora competitor Gen-3 Alpha now available », sur THE DECODER, (consulté le )
  23. « Generative AI's Next Frontier Is Video », Bloomberg.com,‎
  24. (en) « OpenAI teases 'Sora,' its new text-to-video AI model », sur NBC News, (consulté le )
  25. (en-US) Chris Kelly, « Toys R Us creates first brand film to use OpenAI's text-to-video tool », sur Marketing Dive, Informa, (consulté le )
  26. Jiayao Jin et al., 2023 2nd International Conference on Computing, Communication, Perception and Quantum Technology (CCPQT) : Text to Video: Enhancing Video Generation Using Diffusion Models and Reconstruction Network, IEEE, , p. 108–114 (ISBN 979-8-3503-4269-7, lire en ligne)
  27. Emily Dreibelbis Forlini, « Google's veo text-to-video AI generator is coming to YouTube shorts », sur PC Magazine, (consulté le )
  28. (en-US) « Announcing Black Forest Labs », sur Black Forest Labs, (consulté le )
  29. Rishika Bhagwatkar et al., 2020 International Conference on Power, Instrumentation, Control and Computing (PICC) : A Review of Video Generation Approaches, IEEE, , p. 1–5 (ISBN 978-1-7281-7590-4, lire en ligne)
  30. Taehoon Kim et al., 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) : Human Motion Aware Text-to-Video Generation with Explicit Camera Control, IEEE, , p. 5069–5078 (ISBN 979-8-3503-1892-0, lire en ligne)
  31. Aditi Singh, 2023 4th International Conference on Artificial Intelligence, Robotics and Control (AIRC) : A Survey of AI Text-to-Image and AI Text-to-Video Generators, IEEE, , p. 32–36 (ISBN 979-8-3503-4824-8, lire en ligne)
  32. (en) Yibo Miao, Yifan Zhu, Yinpeng Dong, Lijia Yu, Jun Zhu et al., « T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models », .
  33. Ji Zhang et al., 2018 24th International Conference on Pattern Recognition (ICPR) : From Text to Video: Exploiting Mid-Level Semantics for Large-Scale Video Classification, IEEE, , p. 1695–1700 (ISBN 978-1-5386-3788-3, lire en ligne)
  34. Yibo Miao et al., T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models,
  35. (en) « Top AI Video Generation Models of 2024 », sur Deepgram (consulté le )
  36. « Vexub – Générateur IA de vidéos », sur Vexub (consulté le )
  37. (en) « Runway Research | Gen-2: Generate novel videos with text, images or video clips », sur runwayml.com (consulté le )
  38. (en-US) Shubham Sharma, « Pika Labs' text-to-video AI platform opens to all: Here's how to use it », sur VentureBeat, (consulté le )
  39. (en) « Runway Research | Introducing Gen-3 Alpha: A New Frontier for Video Generation », sur runwayml.com (consulté le )
  40. « Sora | OpenAI », sur openai.com (consulté le )
  • Portail de l’intelligence artificielle
  • Portail de l’imagerie numérique
  • Portail du cinéma