Parti : Un Modèle de Génération d'Images à partir de Texte
Parti est un modèle de génération d'images à partir de texte innovant. Il atteint une haute fidélité et une génération d'images photoréalistes. Il traite la génération d'images à partir de texte comme un problème de modélisation séquence à séquence, similaire à la traduction automatique. Ceci lui permet de bénéficier des avancées des grands modèles de langage.
Le modèle utilise le puissant image tokenizer ViT-VQGAN pour encoder les images en séquences de jetons discrets et peut reconstruire ces séquences en images de haute qualité et variées. On observe des améliorations constantes en augmentant l'échelle du codeur-décodeur de Parti jusqu'à 20 milliards de paramètres.
Parti est mis en œuvre dans Lingvo et est mis à l'échelle avec GSPMD sur le matériel TPU v4 pour l'entraînement et l'inférence. Des comparaisons détaillées des modèles de différentes échelles montrent des améliorations substantielles en termes de capacités et de qualité d'image.
PartiPrompts (P2) est un ensemble riche de plus de 1600 invites en anglais, utile pour mesurer les capacités du modèle. Cependant, le modèle a des limites, et l'article discute de ces défis, des modes d'échec actuels et des opportunités de travail futur.
Les modèles de génération d'images à partir de texte présentent de nombreuses opportunités et risques, notamment en matière de biais et de sécurité, de communication visuelle, de désinformation, de créativité et d'art. Pour ces raisons, les auteurs ont décidé de ne pas publier les modèles, le code ou les données de Parti pour l'utilisation publique sans des garanties supplémentaires.