RoBERTa : Un système de pré-entraînement NLP optimisé
RoBERTa est une méthode innovante pour le pré-entraînement des systèmes de traitement du langage naturel (NLP). Il s'appuie sur la stratégie de masquage de langage de BERT, mais apporte des modifications importantes aux hyperparamètres clés. Par exemple, RoBERTa supprime l'objectif de pré-entraînement de la phrase suivante de BERT et s'entraîne avec des mini-batches et des taux d'apprentissage beaucoup plus importants.
Ce système, implémenté en PyTorch, explore également l'entraînement sur une quantité de données d'un ordre de grandeur supérieure à celle de BERT, pendant une durée plus longue. Il utilise des ensembles de données NLP non annotés existants ainsi que CC-News, un ensemble nouveau tiré d'articles de presse publics.
Les résultats montrent que RoBERTa produit des performances de pointe sur le benchmark NLP largement utilisé, General Language Understanding Evaluation (GLUE). Il a atteint la première place sur le tableau de classement GLUE, avec un score de 88,5, égalant la performance du précédent leader, XLNet-Large.
En somme, RoBERTa démontre l'importance des choix de conception inexplorés auparavant dans l'entraînement de BERT et contribue à démêler les contributions relatives de la taille des données, du temps d'entraînement et des objectifs de pré-entraînement.