Parti: Um Modelo Inovador de Geração de Texto para Imagem
Parti é um modelo autoregressivo de geração de texto para imagem que alcança uma alta fidelidade na geração de imagens fotorrealistas e suporta a síntese de conteúdo rico, envolvendo composições complexas e conhecimento do mundo. Ele trata a geração de texto para imagem como um problema de modelagem sequência para sequência, semelhante à tradução automática, permitindo que se beneficie dos avanços em grandes modelos de linguagem.
O modelo utiliza o poderoso tokenizador de imagem, ViT-VQGAN, para codificar imagens como sequências de tokens discretos e aproveita sua capacidade de reconstruir tais sequências de tokens de imagem como imagens de alta qualidade e visualmente diversas. Foram observados resultados impressionantes, como melhorias consistentes na qualidade ao escalar o codificador-decodificador do Parti até 20 bilhões de parâmetros, e pontuações FID de ponta.
Além disso, o Parti é implementado em Lingvo e escalado com GSPMD em hardware TPU v4 para treinamento e inferência, permitindo treinar um modelo de 20 bilhões de parâmetros que atinge desempenho recorde em vários benchmarks. Ele também demonstra eficácia em uma ampla variedade de categorias e aspectos de dificuldade em análises em Localized Narratives e PartiPrompts.
No entanto, o modelo tem limitações, como o tratamento inadequado de negação ou indicação de ausência. Além disso, os modelos de geração de texto para imagem apresentam riscos e oportunidades, como impacto em vieses e segurança, comunicação visual, desinformação, criatividade e arte. Por essas razões, os autores decidiram não liberar os modelos, código ou dados do Parti para uso público sem medidas de segurança adicionais.