RoBERTa: Um método inovador para pré-treinamento de sistemas NLP
RoBERTa é uma abordagem revolucionária no campo do processamento de linguagem natural (NLP). Ele se baseia na estratégia de mascaramento de linguagem do BERT, mas com modificações importantes nos hiperparâmetros.
No RoBERTa, implementado em PyTorch, foram removidos o objetivo de pré-treinamento de próxima sentença do BERT e foram treinados com lotes menores e taxas de aprendizado maiores. Isso permitiu ao RoBERTa melhorar o objetivo de modelagem de linguagem mascarada em comparação com o BERT e resultou em um melhor desempenho em tarefas subsequentes.
Além disso, o RoBERTa foi treinado com uma quantidade de dados muito maior do que o BERT por um período mais longo. Isso incluiu o uso de conjuntos de dados NLP existentes e CC-News, um conjunto novo extraído de artigos de notícias públicas.
Com essas mudanças de design, o modelo alcançou um desempenho de ponta nas tarefas MNLI, QNLI, RTE, STS-B e RACE, além de uma melhora considerável no benchmark GLUE. Com uma pontuação de 88,5, o RoBERTa alcançou a posição de liderança no ranking GLUE, igualando o desempenho do líder anterior, XLNet-Large.
Esses resultados destacam a importância de escolhas de design anteriormente inexploradas no treinamento do BERT e ajudam a desvendar as contribuições relativas do tamanho dos dados, do tempo de treinamento e dos objetivos de pré-treinamento.