Logo von heise online

Suche
Abonnieren

Tägliche Top-News bei WhatsApp, Facebook Messenger, Telegram & Insta

preisvergleich_weiss

Recherche in 1.735.396 Produkten

Jan Mahn 72

Google-Forscher veröffentlichen bessere Sprachsynthese

Google

Bild: dpa, Jussi Nukari

Forscher von Google und der University of California haben mit Tacotron 2 eine Infrastruktur aus neuronalen Netzen entwickelt, die Text in natürlich klingende Sprachausgabe verwandelt.

Unter dem Namen Tacotron 2 haben Sprachsynthese-Forscher von Google einen neuen Ansatz zur Umwandlung von Text in gesprochene Sprache entwickelt und in einem wissenschaftlichen Paper (PDF) vorgestellt. Zum Einsatz kommt das neuronale Netzwerk namens WaveNet, das bereits in Google Assistant eingesetzt wird; neu ist die Art der Daten, mit denen es gefüttert wird.

Anzeige

Tacotron 2 verwandelt die eingegebenen Texte im ersten Schritt in ein Tonhöhendiagramm (Mel-Spektogramm). Dabei berücksichtigt es unter anderem die Position der Wörter im Satz und berechnet jeweils Wahrscheinlichkeiten für mögliche Aussprache. Dieses Spektogramm nutzt WaveNet, um daraus Töne zu generieren. Die Forscher berichten, durch die Wahl von Mel-Spektogrammen als Zwischenstufe den Verlust im Vergleich zu anderen Darstellungen zu verringern. Trainiert wurde mit einem Datensatz aus 24 Stunden Tonmaterial, das von einer professionellen Sprecherin in amerikanischem Englisch eingesprochen wurde.

Zur Messung der Qualität der generierten Audiodaten ließen die Forscher 100 zufällig ausgewählte Sequenzen von Menschen auf einer Skala von 1 bis 5 bewerten und generierten daraus den sogenannten "Mean Opinion Score" (MOS). Tacotron 2 erreichte einen Wert von 4,525 – echte menschliche Sprachaufnahmen erreichen einen Wert von 4,58.

Neben dem Paper veröffentlichten die Forscher auch Tondateien, die Tacotron 2 auf Basis von ihm unbekannten Texten erstellt hat. Die Beispiele zeigen, dass das System auch mit Tippfehlern umgehen kann und Wörter in den Kontext eines Satzes einordnet.

Bisher handelt es sich nur um eine wissenschaftliche Vorarbeit, die noch nicht in Google-Produkten verbaut ist. Zwischen der Veröffentlichung von WaveNet und dem Einsatz im Google-Assistant verging mehr als ein Jahr. (jam)

72 Kommentare

Themen:

Anzeige
  1. Künstliche Intelligenz: Google Brain verfasst selbstständig Wikipedia-Artikel

    Künstliche Intelligenz: Google Brain Software verfasst selbstständig Wikipedia-Artikel

    Sind Wikipedia-Autoren bald arbeitslos? Geht es nach dem Google Brain Team, dann könnte das in Zukunft der Fall sein. Ihre intelligente Software aggregiert Informationen aus mehreren Texten und kann daraus einen neuen Lexikon-Eintrag schreiben.

  2. MetaMind-KI fasst Texte zusammen

    MetaMind-KI fasst Texte zusammen

    Salesforce MetaMind hat ein KI-Verfahren vorgestellt, das automatisiert Texte zusammenfasst. Der neue Ansatz kombiniert rekurrente neuronale Netze mit zwei Aufmerksamkeitsfunktionen und Reinforcement-Learning. Das funktioniert besser als frühere Systeme.

  3. Maschinelle Übersetzer: DeepL macht Google Translate Konkurrenz

    DeepL Übersetzer macht Google Translate Konkurrenz

    Linguee heißt jetzt DeepL und geht mit einem neuen maschinellen Übersetzer auf den Markt. Der basiert auf tiefen Convolutional Networks und dürfte effizienter übersetzen als Google Translate, das rekurrente Netze einsetzt.

  4. Warum Google seine Audio-Captchas ändern musste

    Katze, darüber "reCpatcha - Tough on bots - Easy on humans"

    Jüngst hat Google seine Audio-Captchas von vorgelesenen Ziffern auf Satzfetzen mit Störgeräuschen umgestellt. Der Grund dafür wurde auf der WOOT '17 in Vancouver offenbart.

  1. Kompliziert, komplizierter, wissenschaftlicher Text

    Wissenschaftliche Paper immer unlesbarer

    Eine schwedisch-deutsche Wissenschaftlergruppe hat eine große Anzahl Forschungsarbeiten auf ihre Verständlichkeit geprüft. Der Trend geht zu immer mehr Komplexität.

  2. Historisches SETI-Signal ohne Kosmogramm

    Heute vor 40 Jahren traf das mysteriöse "Wow!-Signal", das manche für den Fetzen einer intelligenten Funknachricht aus dem All halten, auf eine der Antennen des "Großen Ohrs" in Ohio

  3. Die Neuerungen von Linux 4.9

    Linux-Kernel 4.9

    Das XFS-Dateisystem kann jetzt doppelt gespeicherte Daten zusammenführen und große Dateien in Sekundenbruchteilen kopieren. Linux 4.9 verbessert zudem die Sicherheit. Neue Möglichkeiten zur Performance-Analyse erleichtern System- und Programmoptimierung.

  1. Test: Skoda Karoq 2.0 TDI

    Skoda Karoq

    Der neue Skoda Karoq ist eine Mixtur bekannter Zutaten, die einigen Konkurrenten schwer zu schaffen machen wird. Das Kompakt-SUV überrascht an keiner Stelle und wird vielleicht gerade deshalb gefragt sein. Im Test die sicher beliebte Kombination 2.0 TDI, DSG und Allradantrieb

  2. Kommt nach Nahles erneut Gabriel?

    Die Chancen, dass die neue Vorsitzende das Grundproblem der Partei löst, stehen schlecht

Anzeige