O BERT: Uma Revolução no Pré-Treinamento de Processamento de Linguagem Natural
No mundo do processamento de linguagem natural (PNL), a falta de dados de treinamento é um baita desafio. Mas o BERT vem pra mudar isso! Ele usa uma quantidade absurda de texto não anotado da web pra pré-treinar modelos de representação de linguagem. Isso permite que o modelo seja adaptado pra tarefas de PNL com poucos dados e traz melhorias bem legais na precisão. O BERT se baseia em trabalhos anteriores de representações contextuais pré-treinadas, mas é o primeiro modelo de representação de linguagem não supervisionado e bidirecional. Isso quer dizer que ele representa cada palavra usando tanto o contexto anterior quanto o próximo, começando lá de baixo de uma rede neural profunda. É bem foda! Pra evitar que as palavras que estão sendo previstas sejam influenciadas por elas mesmas num modelo bidirecional, a gente usa uma técnica de mascaramento de algumas palavras no input. Além disso, o BERT aprende a modelar as relações entre as frases através de uma tarefa simples de pré-treinamento. Com a ajuda das Cloud TPUs, os pesquisadores conseguiram fazer experiências, debugar e ajustar os modelos rapidinho. Isso foi fundamental pra conseguir ir além das técnicas de pré-treinamento que já existiam. O BERT conseguiu resultados de topo em 11 tarefas de PNL, passando as pontuações anteriores e até a pontuação humana em alguns casos. Os modelos que foram liberados podem ser ajustados pra uma variedade de tarefas de PNL em poucas horinhas. Por enquanto, os modelos liberados são só em inglês, mas a gente espera que modelos pré-treinados em várias línguas sejam lançados num futuro próximo.