Parti: Pathways Autoregressive Text-to-Image Model
Parti ist ein bahnbrechendes autoregressives Text-to-Image-Modell. Es erreicht eine hohe Fidelity bei der fotorealistischen Bildgenerierung und unterstützt die Synthese von inhaltsreichen Bildern, die komplexe Kompositionen und weltliches Wissen beinhalten.
Das Modell behandelt die Text-to-Image-Generierung als ein Sequenz-zu-Sequenz-Modellierungsproblem, ähnlich wie bei der Maschinenübersetzung. Dadurch kann es von Fortschritten in großen Sprachmodellen profitieren, insbesondere von den Fähigkeiten, die durch die Skalierung von Daten und Modellgrößen freigesetzt werden. Parti verwendet den leistungsstarken Bildtokenizer ViT-VQGAN, um Bilder als Sequenzen diskreter Token zu kodieren und nutzt dessen Fähigkeit, solche Bildtokensequenzen als hochwertige, visuell vielfältige Bilder zu rekonstruieren.
Beobachtet wurden konsistente Qualitätsverbesserungen durch die Skalierung des Parti-Encoders und -Decoders bis zu 20 Milliarden Parametern. Zudem erzielte es einen state-of-the-art Zero-Shot FID-Score von 7,23 und einen feinabgestimmten FID-Score von 3,22 auf MS-COCO. Es zeigte auch Wirksamkeit in einer Vielzahl von Kategorien und Schwierigkeitsaspekten in der Analyse auf Localized Narratives und PartiPrompts, einem neuen ganzheitlichen Benchmark mit über 1600 englischen Aufforderungen, der als Teil dieser Arbeit veröffentlicht wurde.
Allerdings hat das Modell auch seine Grenzen. Beispielsweise kann es bei der Behandlung von Negation oder Abwesenheitsindikationen Schwierigkeiten haben. Trotzdem eröffnet Parti viele neue Möglichkeiten für die Erstellung einzigartiger und ästhetisch ansprechender Bilder und trägt zur Verbesserung der menschlichen Kreativität und Produktivität bei.