Base TTS soll das größte bisher existente Sprachmodell sein und wurde mit über 100.000 Stunden Sprachdaten trainiert.
Fast jeder kennt elektronische Ansagen. Ganz egal ob in der Straßenbahn, am Anrufbeantworter oder in der automatischen Textausgabe auf Webseiten. Für gewöhnlich sind diese Stimmen für Unternehmen eine kostengünstige Möglichkeit, Audiodaten bereitzustellen. Doch da sie mitnichten an echte menschliche Stimmen herankommen, sind die Einsatzgebiete begrenzt. Ein Forschungsteam von Amazons Wissenschaftsabteilung Amazon Science stellte jetzt ein neues Modell vor, welches menschliche Emotionen wiedergeben können soll, wie kein anderes zuvor.
Kommentar schreiben