OpenAI promet un bond en avant dans la création vidéo par IA

vendredi 25 octobre 2024
35

Les modèles d’intelligence artificielle (IA) ont fait d’immenses progrès dans la création de contenus visuels, mais la génération de vidéos reste un processus complexe et gourmand en ressources. Les modèles les plus avancés nécessitent en effet souvent des centaines d’étapes pour produire une vidéo de qualité. Face à ce défi, Cheng Lu et Yang Song, deux chercheurs d’OpenAI, ont développé un modèle révolutionnaire de cohérence en temps continu (sCM) capable de produire des vidéos cinquante fois plus rapidement que les modèles actuels. Leurs travaux pourraient ouvrir la voie à des applications d’IA générative en temps réel, une avancée aux implications prometteuses pour le futur des médias.

Les modèles de diffusion : un pilier de l’IA générative

Pour comprendre cette innovation, il est utile de revenir brièvement sur ce qu’est un modèle de diffusion, l’un des types de modèles les plus utilisés en IA générative. Ces modèles, parfois appelés modèles génératifs basés sur les scores, fonctionnent en trois étapes essentielles : un processus direct, un processus inverse et une phase d’échantillonnage. Le modèle apprend à générer un contenu visuel en s’entraînant sur de grandes quantités de données qu’il analyse et décompose pour les reconstruire en une nouvelle création cohérente et réaliste.

Dans un modèle de diffusion typique, le processus d’échantillonnage est toutefois lent, car il nécessite d’ajuster chaque détail du contenu généré. Cela demande alors des centaines d’itérations et des quantités importantes de puissance de calcul, d’où les délais souvent observés dans les systèmes IA. Ce processus est d’autant plus exigeant pour la vidéo où la cohérence d’une image à l’autre est essentielle pour garantir un rendu fluide.

Un modèle révolutionnaire qui réduit les étapes à deux seulement

La grande avancée réalisée par les ingénieurs d’OpenAI réside dans leur capacité à condenser le processus de diffusion en seulement deux étapes, une simplification qui change fondamentalement la rapidité de génération. Alors que d’autres modèles prennent plusieurs secondes, voire plus pour produire des vidéos de qualité, le modèle sCM de Lu et Song parvient à cette performance en une fraction de seconde. En ne conservant que deux étapes essentielles, le modèle préserve la qualité du contenu généré tout en accélérant considérablement le processus, ce qui réduit la complexité et la puissance de calcul nécessaire.

Pour obtenir cette rapidité, le modèle sCM utilise plus de 1,5 milliard de paramètres qui permettent au système d’analyser et de créer des vidéos avec une précision incroyable. De plus, il peut fonctionner sur des équipements standard de l’industrie, comme le GPU A100, ce qui le rend beaucoup plus accessible que des modèles qui nécessitent du matériel spécialisé et coûteux.

OpenAI vidéos — Illustration de l’échantillonnage du modèle de diffusion (rouge) et de l’échantillonnage du modèle de cohérence (bleu). Crédit : OpenAI

Les implications et applications potentielles du modèle d’OpenAi

Le modèle sCM d’OpenAI ouvre la voie à des applications génératives en temps réel, un domaine dans lequel l’IA pourrait transformer des industries entières, du divertissement aux communications numériques. Dans le domaine de la création de contenu, ce modèle pourrait permettre aux créateurs de générer des vidéos personnalisées rapidement, ce qui ouvre des perspectives pour le marketing, l’éducation et les médias sociaux. Imaginez un monde où les créateurs de contenu peuvent produire des vidéos de haute qualité en quelques secondes sans avoir besoin de compétences techniques avancées ni de ressources informatiques onéreuses.

En outre, le modèle est beaucoup moins énergivore que les systèmes actuels, une économie de ressources particulièrement précieuse dans un contexte où la consommation énergétique des applications d’IA est en plein essor. Les chercheurs espèrent également que ce modèle facilitera les avancées en réalité augmentée (AR) et réalité virtuelle (VR) où des images et des vidéos en temps réel pourraient être intégrées de manière plus fluide et réaliste dans les environnements virtuels.

Retrouver cet article sur Sciencepost