Common Voice
Mozilla veröffentlicht riesigen Sprachdatensatz
von
Stefan
Bordel - 30.11.2017
Foto: Mozilla
Mozilla hat einen riesigen Sprachdatensatz veröffentlicht, der nun Entwicklern frei zur Verfügung steht. Die Sammlung wurde im Rahmen des Common-Voice-Projekts erhoben.
Common Voice: Über den Dienst haben Freiwillige Sprachmaterial für eine freie Sprachdatenbank beigesteuert.
(Quelle: Mozilla )
Die Daten sollen Entwicklern als Grundlage für eine freie Spracherkennung dienen. Bislang fehlen vielen Forschern und Start-ups die notwendige Daten, um effizient an qualitativ hochwertigen Spracherkennungssystemen arbeiten zu können. Die derzeit verfügbaren Sprachdaten seien für dieses Vorhaben nicht ausreichend und gleichzeitig zu kostspielig. Diese Probleme sollen dank der neuen Sprachdatenbank der Vergangenheit angehören. Mozilla nutzt den Datensatz außerdem zur Entwicklung einer offenen Speech-To-Text-Engine, die sich als freie Alternative zu den Lösungen von Google, Microsoft und Co. etablieren soll.
Mozilla DeepSpeech
Neben den Common-Voice-Daten hat Mozilla des Weiteren die Open-Source-Spracherkennungs-Engine DeepSpeech veröffentlicht. Für diese hat das Machine-Learning-Team des Firefox-Entwicklers die DeepSpeech-Architektur des chinesischen Internet-Konzerns Baidu auf Googles AI-Bibliothek TensorFlow implementiert. Die Verarbeitung der Datensätze über diese Lösung erfolgte durch ein Rechnercluster mit insgesamt 20 Grafikkarten vom Typ Titan X / XPs. Die Hardware war eine ganze Woche mit der Berechnung der Daten beschäftigt, bis die Engine für die gewünschte Leistung trainiert war. Die fertige Engine erreicht dank des Trainings eine Fehlerquote bei der Spracherkennung von lediglich 6,5 Prozent. Zum Vergleich: Die menschliche Fehlerquote soll bei 5,83 Prozent liegen.
Das fertig trainierte Modell von DeepSpeech steht ebenfalls zum freien Download bereit. Die Engine kann auf herkömmlichen PCs für die Spracherkennung in Echtzeit eingesetzt werden. Sämtliche Berechnungen erfolgen dabei lokal ohne Cloud-Anbindung. Künftig wolle man die Effizienz von DeepSpeech weiter erhöhen, damit die Lösung schließlich auch auf mobilen Geräten oder Entwicklerboards wie dem Raspberry Pi lauffähig ist.