Wav2Lip : Synchronisation Labiale Précise pour les Vidéos
Wav2Lip est un outil impressionnant pour la génération de synchronisation labiale. Il est basé sur le papier "A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild", publié à ACM Multimedia 2020.
Fonctionnalités clés :
- Permet de synchroniser les vidéos avec n'importe quel discours avec une grande précision.
- Fonctionne pour n'importe quelle identité, voix et langue.
- Dispose d'un code d'entraînement complet, d'un code d'inférence et de modèles pré-entraînés.
Utilisation de base :
- Pour utiliser les modèles pré-entraînés (inférence), vous pouvez utiliser la commande :
python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source>
. Le résultat est enregistré par défaut dansresults/result_voice.mp4
.
Prérequis :
- Python 3.6
- ffmpeg :
sudo apt-get install ffmpeg
- Installation des packages nécessaires via
pip install -r requirements.txt
.
Entraînement :
- L'outil est entraîné sur le dataset LRS2. Il existe des étapes spécifiques pour la préparation de ce dataset et l'entraînement des modèles, y compris l'entraînement d'un discriminateur d'expert de synchronisation labiale et du modèle Wav2Lip.
Évaluation :
- Des instructions pour l'évaluation sont disponibles dans le dossier
evaluation/
.
En somme, Wav2Lip offre une solution innovante et précise pour la génération de synchronisation labiale dans les vidéos.