Conformer-2: Die fortschrittliche Spracherkennungs-Lösung
Conformer-2 ist ein bahnbrechendes AI-Modell für die automatische Spracherkennung. Es wurde mit 1,1 Millionen Stunden englischen Audio-Daten trainiert und baut auf dem Erfolg von Conformer-1 auf. Durch die Erhöhung der Trainingsdatenmenge und die Verwendung von Modell-Ensembles konnte Conformer-2 Verbesserungen in mehreren Bereichen erzielen.
Überblick: Conformer-2 zielt darauf ab, die Leistung in der Spracherkennung zu verbessern und ist für Anwendungen in verschiedenen Bereichen geeignet. Es bietet eine höhere Genauigkeit bei der Erkennung von alphanumerischen Zeichen, Eigennamen und eine bessere Robustheit gegenüber Rauschen.
Kernfunktionen: Das Modell nutzt Techniken wie Modell-Ensembles und Daten- und Modellparameter-Skalierung, um bessere Ergebnisse zu erzielen. Durch die Verwendung mehrerer starke Lehrer zur Erzeugung von Labels wird eine robustere Modellleistung erreicht. Zudem wurde die Menge der Trainingsdaten auf 1,1 Millionen Stunden englischen Audio-Daten erhöht, was zu verbesserten Leistungen führt.
Grundlegende Verwendung: Benutzer können Conformer-2 über die API nutzen. Es gibt eine neue API-Parameter, der es ermöglicht, eine Schwelle für den Anteil an Sprache in einem Audiofile festzulegen. Dadurch können Kosten bei Dateien, die keine Transkription erfordern, kontrolliert werden. Zudem ist Conformer-2 über den Playground einfach zu testen und für die Integration in Produkte steht der Support durch das Sales-Team zur Verfügung.