Logo von heise online

Suche
Abonnieren

Tägliche Top-News bei WhatsApp, Facebook Messenger, Telegram & Insta

preisvergleich_weiss

Recherche in 1.684.056 Produkten

Jan Mahn 72

Google-Forscher veröffentlichen bessere Sprachsynthese

Google

Bild: dpa, Jussi Nukari

Forscher von Google und der University of California haben mit Tacotron 2 eine Infrastruktur aus neuronalen Netzen entwickelt, die Text in natürlich klingende Sprachausgabe verwandelt.

Unter dem Namen Tacotron 2 haben Sprachsynthese-Forscher von Google einen neuen Ansatz zur Umwandlung von Text in gesprochene Sprache entwickelt und in einem wissenschaftlichen Paper (PDF) vorgestellt. Zum Einsatz kommt das neuronale Netzwerk namens WaveNet, das bereits in Google Assistant eingesetzt wird; neu ist die Art der Daten, mit denen es gefüttert wird.

Anzeige

Tacotron 2 verwandelt die eingegebenen Texte im ersten Schritt in ein Tonhöhendiagramm (Mel-Spektogramm). Dabei berücksichtigt es unter anderem die Position der Wörter im Satz und berechnet jeweils Wahrscheinlichkeiten für mögliche Aussprache. Dieses Spektogramm nutzt WaveNet, um daraus Töne zu generieren. Die Forscher berichten, durch die Wahl von Mel-Spektogrammen als Zwischenstufe den Verlust im Vergleich zu anderen Darstellungen zu verringern. Trainiert wurde mit einem Datensatz aus 24 Stunden Tonmaterial, das von einer professionellen Sprecherin in amerikanischem Englisch eingesprochen wurde.

Zur Messung der Qualität der generierten Audiodaten ließen die Forscher 100 zufällig ausgewählte Sequenzen von Menschen auf einer Skala von 1 bis 5 bewerten und generierten daraus den sogenannten "Mean Opinion Score" (MOS). Tacotron 2 erreichte einen Wert von 4,525 – echte menschliche Sprachaufnahmen erreichen einen Wert von 4,58.

Neben dem Paper veröffentlichten die Forscher auch Tondateien, die Tacotron 2 auf Basis von ihm unbekannten Texten erstellt hat. Die Beispiele zeigen, dass das System auch mit Tippfehlern umgehen kann und Wörter in den Kontext eines Satzes einordnet.

Bisher handelt es sich nur um eine wissenschaftliche Vorarbeit, die noch nicht in Google-Produkten verbaut ist. Zwischen der Veröffentlichung von WaveNet und dem Einsatz im Google-Assistant verging mehr als ein Jahr. (jam)

72 Kommentare

Themen:

Anzeige
  1. MetaMind-KI fasst Texte zusammen

    MetaMind-KI fasst Texte zusammen

    Salesforce MetaMind hat ein KI-Verfahren vorgestellt, das automatisiert Texte zusammenfasst. Der neue Ansatz kombiniert rekurrente neuronale Netze mit zwei Aufmerksamkeitsfunktionen und Reinforcement-Learning. Das funktioniert besser als frühere Systeme.

  2. Maschinelle Übersetzer: DeepL macht Google Translate Konkurrenz

    DeepL Übersetzer macht Google Translate Konkurrenz

    Linguee heißt jetzt DeepL und geht mit einem neuen maschinellen Übersetzer auf den Markt. Der basiert auf tiefen Convolutional Networks und dürfte effizienter übersetzen als Google Translate, das rekurrente Netze einsetzt.

  3. Warum Google seine Audio-Captchas ändern musste

    Katze, darüber "reCpatcha - Tough on bots - Easy on humans"

    Jüngst hat Google seine Audio-Captchas von vorgelesenen Ziffern auf Satzfetzen mit Störgeräuschen umgestellt. Der Grund dafür wurde auf der WOOT '17 in Vancouver offenbart.

  4. Wissenschaftliche Studien werden immer unlesbarer

    Wissenschaftliche Paper immer unlesbarer

    Mit Hilfe von Lesbarkeitsformeln haben Forscher untersucht, wie sich die Verständlichkeit wissenschaftlicher Texte über die letzten 130 Jahre entwickelt hat.

  1. Kompliziert, komplizierter, wissenschaftlicher Text

    Wissenschaftliche Paper immer unlesbarer

    Eine schwedisch-deutsche Wissenschaftlergruppe hat eine große Anzahl Forschungsarbeiten auf ihre Verständlichkeit geprüft. Der Trend geht zu immer mehr Komplexität.

  2. Historisches SETI-Signal ohne Kosmogramm

    Heute vor 40 Jahren traf das mysteriöse "Wow!-Signal", das manche für den Fetzen einer intelligenten Funknachricht aus dem All halten, auf eine der Antennen des "Großen Ohrs" in Ohio

  3. Die Neuerungen von Linux 4.9

    Linux-Kernel 4.9

    Das XFS-Dateisystem kann jetzt doppelt gespeicherte Daten zusammenführen und große Dateien in Sekundenbruchteilen kopieren. Linux 4.9 verbessert zudem die Sicherheit. Neue Möglichkeiten zur Performance-Analyse erleichtern System- und Programmoptimierung.

  1. Klein und open: Daihatsus Beitrag zum Thema Fahrspaß

    „Oh Gott, der ist ja noch kleiner als ich dachte“, schießt es mir beim ersten Anblick des Daihatsu Copen „100th Anniversary“ durch den Kopf. Skeptisch beäuge ich den nur 3,39 Meter langen Japaner von allen Seiten

  2. Fahrbericht: Ford Expedition 2018

    Ford Expedition

    In den USA herrschen, was die richtige Fahrzeuggröße angeht, vielfach andere Vorstellungen als in Europa. Ein Ausflug mit dem für europäische Verhältnisse riesigen, auf dem US-Markt recht populären Ford Expedition 2018 zeigt dies eindrücklich

  3. Klartext: *Brrzzz*

    Subaru BRZ

    Vor allem als Schreiber sollte man sich wo immer möglich die Zeit nehmen, ein eigenes Urteil zu bilden. Das Beispiel Subaru BRZ zeigt den Grund dafür genauso wie den Grund, warum ebendies in der Praxis nie passiert

  4. Außenminister Gabriel: Europa muss globale Rolle bei Technologie-Revolution spielen

    Europa, EU

    Derzeit gewinnen die USA und China den globalen Technologie-Wettlauf, mahnt Sigmar Gabriel. Der Außenminister will, dass die Europäer auf der Weltbühne aktiver werden, um ihre Zukunft selbst zu bestimmen. Derzeit sieht er nur eine "fragmentierte Union".

Anzeige