Meta lance un modèle text-to-video alors qu’OpenAI ne donne plus de nouvelles de Sora

le 31/10/2024

Avec sa famille de modèles de fondation Movie Gen, la maison-mère de Facebook met une claque à OpenAI et à son outil de génération de vidéos Sora. Les vidéos générées peuvent durer jusqu’à 16 secondes, précise Meta. Pour l’heure, aucune date de sortie n’est prévue, le modèle étant destiné à la recherche.

Meta travaille d’arrache-pied pour développer des modèles d’intelligence artificielle qui se démarquent de ses concurrents. Son ultime découverte : une famille de modèles de fondation baptisée Movie Gen, incluant notamment un modèle text-to-video. Pour l’heure à destination du monde de la recherche, ce modèle pourrait bien être la prochaine révolution en matière de création vidéo. Meta précise que le modèle a été entraîné sur une combinaison d’ensembles de données sous licence et accessibles au public.

Un modèle de génération audio à 13 milliards de paramètres

Concernant les capacités audio, c’est un autre modèle de génération audio qui a été développé. Comportant 13 milliards de paramètres, il peut prendre une vidéo et des invites textuelles facultatives et générer un son de haute qualité jusqu’à 45 secondes, y compris le son ambiant, les effets sonores (Foley) et la musique de fond instrumentale, le tout synchronisé avec le contenu vidéo. En outre, Meta introduit une technique d’extension audio qui peut générer un son cohérent pour des vidéos de longueurs variables.