Phenaki: Modelo de Geração de Vídeos Realistas a Partir de Texto

Phenaki: Geração de Vídeos a Partir de Texto

Phenaki é um modelo inovador capaz de realizar a síntese de vídeos realistas a partir de uma sequência de prompts textuais. A geração de vídeos a partir de texto apresenta desafios significativos, como o alto custo computacional, a quantidade limitada de dados de alta qualidade texto-vídeo e a variação no comprimento dos vídeos.

Para lidar com esses problemas, Phenaki introduz um novo modelo causal para aprender a representação de vídeo, que comprime o vídeo em uma pequena representação de tokens discretos. Este tokenizador utiliza atenção causal no tempo, permitindo trabalhar com vídeos de comprimento variável.

Para gerar tokens de vídeo a partir de texto, é utilizado um transformador mascarado bidirecional condicionado a tokens de texto pré-computados. Os tokens de vídeo gerados são subsequentemente des-tokenizados para criar o vídeo real.

Além disso, Phenaki demonstra como o treinamento conjunto em um grande corpus de pares imagem-texto, bem como um número menor de exemplos vídeo-texto, pode resultar em uma generalização além do que está disponível nos conjuntos de dados de vídeo.

Em comparação com os métodos anteriores de geração de vídeos, Phenaki pode gerar vídeos arbitrariamente longos condicionados a uma sequência de prompts (ou seja, texto variável no tempo ou uma história) em domínio aberto. Além disso, o codificador-decodificador de vídeo proposto supera todas as bases line por quadro atualmente utilizadas na literatura em termos de qualidade espaço-temporal e número de tokens por vídeo.

Phenaki

Phenaki: Geração de Vídeos a Partir de Texto

Categorias Relacionadas ao Phenaki

Geração de Vídeo

Mais Ferramentas de IA

Ferramentas de IA em Destaque

NarrateVideoAI

8Arc

Videvo

Lumana

Submagic

Lumiere3D

Mochi 1 AI

Mobby Download

Genmo

SumyAI

Overvoice

ClipMove

MukuAI

VisCap.ai

Kill Frames

Pipeless Agents

Sora

Wefaceswap

DubTitles

Storykit