Phenaki

Phenaki est un modèle révolutionnaire capable de produire des vidéos réalistes à partir de textes. Découvrez ses fonctionnalités et son potentiel.
Phenaki : Un Modèle de Génération de Vidéos Réalistes

Phenaki : Un Modèle de Génération de Vidéos à partir de Textes

Phenaki est un modèle innovant capable de créer des vidéos réalistes en fonction d'une séquence de prompts textuels. La génération de vidéos à partir de textes représente un défi considérable en raison du coût informatique, du nombre limité de données de haute qualité textes-vidéos et de la longueur variable des vidéos.

Pour résoudre ces problèmes, Phenaki introduit un nouveau modèle causal pour l'apprentissage de la représentation vidéo. Ce modèle compresse la vidéo en une petite représentation de jetons discrets. Le tokenizer utilise une attention causale dans le temps, ce qui lui permet de fonctionner avec des vidéos de longueur variable.

Pour générer des jetons vidéo à partir de textes, un transformateur masqué bidirectionnel conditionné sur des jetons de texte pré-calculés est utilisé. Les jetons vidéo générés sont ensuite dé-tokenisés pour créer la vidéo réelle.

En ce qui concerne les problèmes de données, il est démontré comment l'entraînement conjoint sur un grand corpus de paires image-texte ainsi que sur un plus petit nombre d'exemples vidéo-texte peut entraîner une généralisation au-delà de ce qui est disponible dans les ensembles de données vidéo.

Comparé aux méthodes de génération de vidéos précédentes, Phenaki peut générer des vidéos de longueur arbitraire conditionnées par une séquence de prompts (c'est-à-dire du texte variable dans le temps ou une histoire) dans un domaine ouvert.

À notre connaissance, c'est la première fois qu'un article étudie la génération de vidéos à partir de prompts variables dans le temps. De plus, l'encodeur-décodeur vidéo proposé surpasse toutes les bases de référence par trame actuellement utilisées dans la littérature en termes de qualité spatio-temporelle et du nombre de jetons par vidéo.

Outils IA en Vedette

NarrateVideoAI

NarrateVideoAI

NarrateVideoAI est un outil d'animation vocale AI qui crée des voix-off professionnels rapidement.

8Arc

8Arc

8Arc, l'outil de ouf! Transforme les textes en films et permet aux utilisateurs de créer du contenu cinématographique de malade.

Videvo

Videvo

Videvo est une plateforme offrant des vidéos, des sons et des templates pour vos projets

Lumana

Lumana

Lumana est une plateforme de sécurité vidéo IA pour améliorer la sécurité et les opérations.

Submagic

Submagic

Submagic est un outil AI qui permet de créer des vidéos courtes captivantes 10 fois plus vite.

Lumiere3D

Lumiere3D

Lumiere3D est un outil de création de vidéos 3D sans code, accessible via navigateur.

Mochi 1 AI

Mochi 1 AI

Mochi 1 AI est un générateur de vidéos IA qui crée des vidéos de qualité à partir de textes.

Mobby Download

Mobby Download

Mobby Download est un outil puissant pour télécharger et éditer des vidéos YouTube.

Genmo

Genmo

Genmo est un modèle de génération vidéo open source offrant une qualité exceptionnelle

SumyAI

SumyAI

SumyAI est un outil puissant qui transforme les vidéos YouTube en résumés, fils et posts, offrant des insights multipliés.

Overvoice

Overvoice

Overvoice est un outil AI qui simplifie la création de voice-overs et augmente les taux de conversion.

ClipMove

ClipMove

ClipMove est un outil AI pour créer rapidement du contenu vidéo attrayant.

MukuAI

MukuAI

MukuAI est un outil d'IA qui crée des vidéos publicitaires UGC 100x plus vite et augmente le ROAS en moyenne.

VisCap.ai

VisCap.ai

VisCap.ai est un système optimisé pour créer des annonces vidéo et améliorer l'expérience utilisateur.

Kill Frames

Kill Frames

Kill Frames est un éditeur de montage AI qui transforme vos gameplays en montages épiques.

Pipeless Agents

Pipeless Agents

Pipeless Agents permet de transformer les flux vidéo en données exploitables et d'automatiser des tâches.

Sora

Sora

Sora, c'est l'IA qui déchire pour créer du contenu vidéo de ouf!

Wefaceswap

Wefaceswap

Wefaceswap est un service de faceswap AI pour créer du contenu créatif

DubTitles

DubTitles

DubTitles est un outil AI qui génère des sous-titres précis pour vos vidéos YouTube et podcasts.

Storykit

Storykit

Storykit est une plateforme de vidéo automatisation pour créer des vidéos plus efficacement.