Vicuna: Um Chatbot de Código Aberto de Excelência
O avanço rápido dos grandes modelos de linguagem (LLMs) revolucionou os sistemas de chatbot, trazendo níveis de inteligência sem precedentes, como visto no ChatGPT da OpenAI. Inspirado pelo projeto Meta LLaMA e Stanford Alpaca, apresentamos o Vicuna-13B, um chatbot de código aberto apoiado por um conjunto de dados aprimorado e uma infraestrutura fácil de usar e escalável.
O Vicuna-13B é treinado por meio do ajuste fino de um modelo base LLaMA em conversas compartilhadas por usuários coletadas do ShareGPT.com. Após o ajuste fino com 70K conversas do ChatGPT compartilhadas pelos usuários, descobrimos que o Vicuna se torna capaz de gerar respostas mais detalhadas e bem estruturadas em comparação com o Alpaca, com a qualidade comparável ao ChatGPT.
Para garantir a qualidade dos dados, convertemos o HTML de volta para markdown e filtramos algumas amostras inadequadas ou de baixa qualidade. Além disso, dividimos conversas longas em segmentos menores que se encaixam na duração máxima do contexto do modelo.
A avaliação preliminar usando o GPT-4 como juiz mostra que o Vicuna-13B atinge mais de 90%* da qualidade do OpenAI ChatGPT e do Google Bard, superando outros modelos como o LLaMA e o Stanford Alpaca em mais de 90%* dos casos. O custo de treinamento do Vicuna-13B é de cerca de $300. O código e os pesos, juntamente com um demo online, estão disponíveis publicamente para uso não comercial.
No entanto, avaliar chatbots nunca é uma tarefa simples. Com os recentes avanços no GPT-4, estamos curiosos se suas capacidades atingiram um nível semelhante ao humano que poderia permitir um framework de avaliação automatizado para a geração de benchmarks e avaliações de desempenho. Nossa descoberta inicial indica que o GPT-4 pode produzir classificações altamente consistentes e avaliações detalhadas ao comparar as respostas dos chatbots, mas este framework proposto ainda não é uma abordagem rigorosa. A construção de um sistema de avaliação para chatbots continua sendo uma questão aberta que requer mais pesquisas.