Logo von heise online

Suche
Abonnieren

Tägliche Top-News bei WhatsApp, Facebook Messenger, Telegram & Insta

preisvergleich_weiss

Recherche in 1.733.931 Produkten

Tilman Wittenhorst 33

Google-KI beherrscht selektives Hören

Google-KI beherrscht selektives Hören

Bild: Miki Rubinstein (Screenshot aus Video "Looking to Listen: Stand-up")

Softwareentwickler bei Google haben ein Verfahren entwickelt, das aus der Tonspur eines Videos die Worte eines bestimmten Sprechers extrahiert. So lassen sich andere Redner oder Hintergrundgeräusche ausblenden.

Softwareentwickler bei Google haben ein Deep-Learning-Modell entwickelt, das aus Videos einzelne Sprecher isolieren kann. Dazu beobachtet das System die Mundbewegungen der gewünschten Person und extrahiert aus den Audiodaten nur deren Worte, während andere Geräusche und Sprecher ausgeblendet sind – vergleichbar dem sogenannten Cocktail-Party-Effekt (auch selektives Hören), bei dem das menschliche Gehirn durch Konzentration auf einen Sprecher einer Unterhaltung auch in einer relativ lauten Umgebung folgen kann. Darüber berichten die Forscher in einem Google-Research-Blogbeitrag.

Anzeige
Die Google-Forscher füttern ihr Modell für Sprachseparierung mit Bild- und Tondaten, in denen zwei Personen reden (a). Bei der Verarbeitung (b) werden die Worte den jeweiligen Sprechern zugeordnet, in der Ausgabe lässt sich dann unerwünschter Ton ausblenden (c). (Bild:  looking-to-listen.github.io)

Die insgesamt acht Autoren stellen in ihrem Paper "Look to Listen at the Cocktail Party" einen neuen Ansatz vor, Sprache eines Sprechers von anderer Sprache und Hintergrundgeräuschen zu isolieren (dort finden sich auch mehr Details dazu, wie Audio- und Videostreams zerlegt und verbunden werden). Geräuschunterdrückung etwa bei Kopfhörern und Headsets ist bereits praxistauglich und teilweise auch in Smartphones zu finden. Googles Ansatz kombiniert das Verfahren jedoch mit Videodaten, analysiert die Mundbewegungen eines Sprechers und bringt sie mit den dazu passenden Teilen des Audiotracks in Verbindung.

Für das Anlernen ihres Modells sichteten die Autoren zunächst etwa 100 000 Videos mit Vorträgen und Gesprächen, aus denen sie 2000 Stunden mit klar vernehmbarer Sprache ohne Störgeräusche auswählten. Diese Ausschnitte wiederum reicherten sie mit Gesichtern und zugehöriger Sprache aus anderen Quellen an und kreierten so eine "künstliche Cocktailparty". Damit trainierten sie ihre KI auf Basis eines Convolutional Neural Networks, so dass das System die Audio-Streams anhand ihrer Sprecher separieren konnte. Das zugehörige Framework AVSpeech soll später veröffentlicht werden.

Anwendungsbereiche für diese Technik sehen die Entwickler mehrere: Verbesserung und Erkennung von Sprache in einem Video, Unterstützung für Gehörgeschädigte oder verbesserte Video-Konferenzen. Ihre Arbeit führen die Entwickler in mehreren Videos vor: unter anderem anhand zweier Comedians, die auf einer Bühne lautstark "aneinander vorbei" reden; am Beispiel eines Videochats, bei dem eine zweite Person im Bildhintergrund telefoniert; und an einer Person in einer Kantine mit zahlreichen Hintergrundgeräuschen.

(tiw)

33 Kommentare

Themen:

Anzeige
  1. Chrome bringt nervige Autoplay-Videos zum Schweigen

    Chrome bringt nervige Autoplay-Videos zum Schweigen

    Im Netz nerven Videos, die automatisch losplärren. Deshalb wird sie Chrome künftig zum Schweigen bringen: Ab Januar blockiert der Browser die Autoplay-Funktion. Doch es gibt einige Ausnahmen.

  2. Google Home in Deutschland: Eine ernstzunehmende Konkurrenz für Amazons Echo

    Google Home: Speech- und Ear-on

    Googles smarter Lautsprecher ist jetzt auch hierzulande verfügbar – und spricht Deutsch. c't hat den Assistant, den Funktionsumfang und den Sound unter die Lupe genommen.

  3. YouTube erprobt Live-Videobearbeitung mit künstlicher Intelligenz

    Youtube erprobt Live-Videobearbeitung per künstlicher Intelligenz

    Die YouTube-App kann mit KI-Hilfe den Hintergrund eines Videos austauschen. Das funktioniert sogar in Echtzeit – allerdings derzeit nur in einem geschlossenen Beta-Test.

  4. Build 2017: Automatisierte Video-Überwachung für Jedermann

    Build 2017: Automatisierte Video-Überwachung und Auswertung für Jedermann

    Microsofts Video Indexer durchsucht Videos automatisch nach Personen, Sprache und Inhalten. Der Service lässt sich kinderleicht von jedem nutzen. Microsoft sieht ihn als Beitrag zur Demokratisierung der Überwachungswerkzeuge.

  1. Chatten in der YouTube-App - so geht's

    Seit einiger Zeit ist es möglich in der YouTube-App zu chatten. Wie das geht, erfahren Sie in diesem tipps+tricks-Artikel.

  2. Google-Kalender teilen - so geht's

    Sie möchten Ihren Google-Kalender für andere Nutzer freigeben? Wir erklären Ihnen, wie Sie dafür vorgehen müssen.

  3. Vom iPhone zu Android: So gelingt der Smartphone-Wechsel

    Sie haben keine Lust mehr auf das iPhone und wollen ins Android-Lager wechseln? Wir zeigen, wie Sie problemlos umziehen.

  1. Erste Ausfahrt: Mercedes A 200

    Mercedes A-Klasse

    Die vierte A-Klasse ist ein hervorragendes Auto geworden, wie eine erste Ausfahrt zeigt. Eindrucksvoll ist der Vorsprung im Bereich Infotainment. Ein Modell für die breite Masse ist es aber nicht, denn Mercedes langt selbst für Kleinigkeiten heftig zu

  2. Batteriesystem und Ladestrategie beim Audi e-tron

    Audi e-tron

    Der erste rein elektrische Audi hat eine Batterie mit großer Kapazität. Und er kann sehr schnell laden. Wie das Konzept im Detail funktioniert, haben die Ingenieure des e-tron jetzt in einem Workshop erklärt: Das unausgesprochene Ziel ist, einen neuen Maßstab zu setzen und Tesla zu übertreffen

  3. Geladene vs getankte Kilowattstunden

    alternative Antriebe, Elektroautos

    In meinem 40-Liter-Benzintank gebiete ich über gut 360 kWh Energie – was also darf ich dann von einem 35-kWh-Akku im neuen e-Golf erwarten? An jeder Raststätte eine Stunde Kaffee trinken neben der Ladesäule? Vergleichende Betrachtungen zum Energieverbrauch von Benzin- und Elektroautos

  4. Google will mit "Chat" die SMS ersetzen und pausiert die Entwicklung von "Allo"

    Google will mit "Chat" die SMS ersetzen und pausiert die Entwicklung von "Allo"

    Die Chat-App "Allo" ist ein Flop, deshalb hat Google die Entwicklung vorerst pausiert. Die Zukunft gehört dem RCS-Standard: Unter dem simplen Namen "Chat" soll er bald die SMS ersetzen.

Anzeige