Phenaki: Geração de Vídeos a Partir de Texto
Phenaki é um modelo inovador capaz de realizar a síntese de vídeos realistas a partir de uma sequência de prompts textuais. A geração de vídeos a partir de texto apresenta desafios significativos, como o alto custo computacional, a quantidade limitada de dados de alta qualidade texto-vídeo e a variação no comprimento dos vídeos.
Para lidar com esses problemas, Phenaki introduz um novo modelo causal para aprender a representação de vídeo, que comprime o vídeo em uma pequena representação de tokens discretos. Este tokenizador utiliza atenção causal no tempo, permitindo trabalhar com vídeos de comprimento variável.
Para gerar tokens de vídeo a partir de texto, é utilizado um transformador mascarado bidirecional condicionado a tokens de texto pré-computados. Os tokens de vídeo gerados são subsequentemente des-tokenizados para criar o vídeo real.
Além disso, Phenaki demonstra como o treinamento conjunto em um grande corpus de pares imagem-texto, bem como um número menor de exemplos vídeo-texto, pode resultar em uma generalização além do que está disponível nos conjuntos de dados de vídeo.
Em comparação com os métodos anteriores de geração de vídeos, Phenaki pode gerar vídeos arbitrariamente longos condicionados a uma sequência de prompts (ou seja, texto variável no tempo ou uma história) em domínio aberto. Além disso, o codificador-decodificador de vídeo proposto supera todas as bases line por quadro atualmente utilizadas na literatura em termos de qualidade espaço-temporal e número de tokens por vídeo.