DreamFusion : La synthèse Text-to-3D via la diffusion 2D
DreamFusion est une innovation dans le domaine de la création 3D. Il s'appuie sur un modèle de diffusion 2D text-to-image pré-entraîné pour réaliser la synthèse Text-to-3D. Ce processus contourne les limitations liées aux données 3D étiquetées et aux architectures de désennoiement 3D.
L'outil introduit une perte basée sur la distillation de la densité de probabilité, permettant l'utilisation d'un modèle de diffusion 2D en tant que antécédent pour l'optimisation d'un générateur d'images paramétrique. Grâce à une procédure similaire à DeepDream, un modèle 3D initialisé aléatoirement (un Neural Radiance Field ou NeRF) est optimisé via la descente de gradient afin que ses rendus 2D à partir d'angles aléatoires obtiennent une faible perte.
Le modèle 3D résultant du texte donné peut être visualisé sous n'importe quel angle, éclairé de manière arbitraire ou composé dans n'importe quel environnement 3D. DreamFusion n'exige pas de données d'entraînement 3D et n'apporte aucune modification au modèle de diffusion d'image, démontrant l'efficacité des modèles de diffusion d'image pré-entraînés en tant qu'antécédents.
Avec DreamFusion, on peut générer des objets 3D re-éclairables avec une apparence, une profondeur et des normales de haute fidélité. Les objets sont représentés sous forme d'un Neural Radiance Field et tirent parti d'un antécédent text-to-image pré-entraîné tel que Imagen.
Comment fonctionne DreamFusion? Lorsqu'un texte est donné, DreamFusion utilise un modèle génératif text-to-image appelé Imagen pour optimiser une scène 3D. Il propose Score Distillation Sampling (SDS), une méthode pour générer des échantillons à partir d'un modèle de diffusion en optimisant une fonction de perte. SDS permet d'optimiser des échantillons dans un espace de paramètres arbitraire, tel qu'un espace 3D, tant que nous pouvons nous ramener aux images de manière différentiable. Nous utilisons une paramétrisation de scène 3D similaire aux Neural Radiance Fields (NeRFs) pour définir ce mappage différentiable. SDS seul produit une apparence de scène raisonnable, mais DreamFusion ajoute des régularisateurs et des stratégies d'optimisation supplémentaires pour améliorer la géométrie. Les NeRFs entraînés résultants sont cohérents, avec des normales, une géométrie de surface et une profondeur de haute qualité, et sont re-éclairables avec un modèle d'ombrage Lambertien.