Phenaki: Das innovative Videogenerierungsmodell

Phenaki: Ein bahnbrechendes Modell für die Videogenerierung

Phenaki ist eine beeindruckende Entwicklung in der Welt der Videogenerierung. Dieses Modell hat die Fähigkeit, realistische Videos basierend auf einer Sequenz textueller Prompts zu erstellen. Die Herausforderung bei der Erzeugung von Videos aus Text liegt in der hohen Rechenleistung, der begrenzten Menge an hochwertigen Text-Video-Daten und der variablen Länge der Videos. Phenaki löst diese Probleme, indem es ein neues kausales Modell für das Lernen von Videorepräsentationen einführt, das das Video in eine kleine Darstellung diskreter Token komprimiert. Dieser Tokenizer verwendet kausale Aufmerksamkeit in der Zeit, wodurch er mit Videos unterschiedlicher Länge arbeiten kann.

Um Video-Token aus Text zu generieren, wird ein bidirektionaler maskierter Transformer verwendet, der an vorberechneten Text-Token bedingt ist. Die erzeugten Video-Token werden anschließend de-tokenisiert, um das tatsächliche Video zu erstellen. Um Datenprobleme zu lösen, wird gezeigt, wie das gemeinsame Training an einem großen Korpus von Bild-Text-Paaren sowie einer kleineren Anzahl von Video-Text-Beispielen zu einer Verallgemeinerung führen kann, die über das hinausgeht, was in den Video-Datasets verfügbar ist.

Im Vergleich zu früheren Videogenerierungsmethoden kann Phenaki beliebig lange Videos basierend auf einer Sequenz von Prompts (z. B. zeitvariablen Text oder einer Geschichte) in einem offenen Bereich generieren. Dies ist, soweit wir wissen, das erste Mal, dass ein Papier die Generierung von Videos aus zeitvariablen Prompts untersucht. Darüber hinaus übertrifft der vorgeschlagene Video-Encoder-Decoder alle derzeit in der Literatur verwendeten Frame-basierten Baselines in Bezug auf die raum-zeitliche Qualität und die Anzahl der Token pro Video.

Phenaki

Phenaki: Ein bahnbrechendes Modell für die Videogenerierung

Verwandte Kategorien von Phenaki

Videoerstellung

Mehr KI-Tools

Ausgewählte KI-Tools

NarrateVideoAI

8Arc

Videvo

Lumana

Submagic

Lumiere3D

Mochi 1 AI

Mobby Download

Genmo

SumyAI

Overvoice

ClipMove

MukuAI

VisCap.ai

Kill Frames

Pipeless Agents

Sora

Wefaceswap

DubTitles

Storykit