Vicuna: Ein vielversprechender Open-Source-Chatbot
Vicuna ist ein Open-Source-Chatbot, der in der Welt der Sprachmodelle Aufmerksamkeit erregt. Durch die Feinabstimmung eines LLaMA-Basismodells auf nutzergeteilte Gespräche von ShareGPT hat es eine beachtliche Leistung erzielt. Die vorläufige Bewertung mit GPT-4 als Richter zeigt, dass Vicuna in mehr als 90%* der Fälle die Qualität von OpenAI ChatGPT und Google Bard erreicht und andere Modelle wie LLaMA und Stanford Alpaca in mehr als 90%* der Fälle übertrifft. Allerdings ist die Bewertung von Chatbots keine einfache Aufgabe. Die rasante Entwicklung von GPT-4 hat die Frage aufgeworfen, ob seine Fähigkeiten ein menschähnliches Niveau erreicht haben, das ein automatisiertes Bewertungsframework für die Leistungsbewertung ermöglichen könnte. Unsere ersten Erkenntnisse deuten darauf hin, dass GPT-4 in der Lage ist, hochkonsistente Ränge und detaillierte Bewertungen zu erstellen, wenn es die Antworten von Chatbots vergleicht. Allerdings hat GPT-4 Schwierigkeiten bei der Beurteilung von Coding-/Mathe-Aufgaben.
Kernmerkmale von Vicuna
- Durch die Nutzung von etwa 70.000 nutzergeteilten Gesprächen hat Vicuna die Fähigkeit entwickelt, detailliertere und besser strukturierte Antworten zu geben als Alpaca.
- Um die Datenqualität zu sichern, werden HTML in Markdown konvertiert und ungeeignete oder minderwertige Samples herausgefiltert.
- Die Länge der Gespräche wird in kleinere Segmente aufgeteilt, um die maximale Kontextlänge des Modells zu berücksichtigen.
Training und Serving von Vicuna
- Das Training von Vicuna erfolgt mit PyTorch FSDP auf 8 A100 GPUs innerhalb eines Tages.
- Für das Serving wird ein leichtgewichtiges verteiltes Serving-System implementiert, das die Kosten reduzieren soll.
Bewertung eines Chatbots
- Die Bewertung von AI-Chatbots ist eine herausfordernde Aufgabe, da Spracheverständnis, Logik und Kontextbewusstsein geprüft werden müssen. Aktuelle offene Benchmarks reichen möglicherweise nicht mehr aus, da SOTA-Chatbots die in ihnen verwendeten Evaluierungsdatasets leicht beantworten können. Um diese Probleme anzugehen, wird ein Bewertungsrahmen basierend auf GPT-4 vorgeschlagen, um die Leistungsbewertung von Chatbots zu automatisieren.