BLOOM: Die weltgrößte offene mehrsprachige Sprachmodell
Große Sprachmodelle (LLMs) haben einen bedeutenden Einfluss auf die KI-Forschung. Diese leistungsstarken, allgemeinen Modelle können eine Vielzahl neuer Sprachaufgaben aus den Anweisungen eines Nutzers übernehmen. Allerdings finden es akademische Einrichtungen, gemeinnützige Organisationen und kleinere Forschungsinstitute schwer, LLMs zu erstellen, zu untersuchen oder sogar zu nutzen, da nur wenige industrielle Labors mit den notwendigen Ressourcen und exklusiven Rechten einen vollständigen Zugriff haben. Heute stellen wir BLOOM vor, das erste in völliger Transparenz trainierte mehrsprachige LLM, um diesen Status Quo zu ändern - das Ergebnis der größten Zusammenarbeit von KI-Forschern, die jemals an einem einzigen Forschungsprojekt beteiligt waren. Mit seinen 176 Milliarden Parametern kann BLOOM Text in 46 natürlichen Sprachen und 13 Programmiersprachen generieren. Für fast alle von ihnen, wie Spanisch, Französisch und Arabisch, ist BLOOM das erste Sprachmodell mit über 100 Milliarden Parametern, das jemals erstellt wurde. Dies ist der Höhepunkt eines Jahres Arbeit, an dem über 1000 Forscher aus 70+ Ländern und 250+ Institutionen beteiligt waren. Die endgültige Trainingsphase dauerte 117 Tage (11. März - 6. Juli) und wurde am Jean-Zay-Supercomputer im Süden von Paris, Frankreich, durchgeführt, dank eines Rechenzuschusses in Höhe von geschätzten 3 Millionen Euro von französischen Forschungsagenturen CNRS und GENCI. Forscher können nun BLOOM herunterladen, ausführen und untersuchen, um die Leistung und das Verhalten der kürzlich entwickelten großen Sprachmodelle bis in ihre tiefsten internen Abläufe zu erforschen. Allgemeiner gesagt, jeder Einzelne oder jede Institution, die die Bedingungen der Verantwortungsvollen KI-Lizenz des Modells (die während des BigScience-Projekts selbst entwickelt wurde) akzeptiert, kann das Modell auf einem lokalen Rechner oder einem Cloud-Anbieter nutzen und darauf aufbauen - da es in das Hugging Face-Ökosystem eingebettet ist, ist es so einfach wie es mit transformers zu importieren und mit accelerate auszuführen. In diesem Geist der Zusammenarbeit und kontinuierlichen Verbesserung veröffentlichen wir auch erstmals die Zwischenspeicherpunkte und Optimiererzustände des Trainings. Haben Sie nicht 8 A100s zum Spielen? Wir finalisieren eine Inferenz-API für die groß angelegte Nutzung auch ohne dedizierte Hardware oder Engineering. In der Zwischenzeit können Sie für schnelle Tests, Prototypen und kleinere Anwendungen bereits mit einer frühen Version auf dem HF-Hub spielen. Dies ist erst der Anfang. Die Fähigkeiten von BLOOM werden sich weiter verbessern, wenn die Werkstatt weiterhin an dem Modell experimentiert und bastelt. Wir haben begonnen, es so anleitbar zu machen, wie unser früherer Versuch T0++ war, und planen, weitere Sprachen hinzuzufügen, das Modell in eine besser nutzbare Version mit dem gleichen Leistungsniveau zu komprimieren und es als Ausgangspunkt für komplexere Architekturen zu verwenden... Alle Experimente, die Forscher und Praktiker schon immer durchführen wollten, beginnen nun mit der Kraft eines Modells mit mehr als 100 Milliarden Parametern und sind jetzt möglich. BLOOM ist der Samen einer lebendigen Modellfamilie, die wir wachsen lassen wollen, und nicht nur ein einmaliges Modell, und wir sind bereit, die Bemühungen der Gemeinschaft zur Erweiterung zu unterstützen.