Logo von Technology Review

Suche
preisvergleich_weiss

Recherche in 2.116.269 Produkten

TR Online 4

Computer versteht verlorene Sprachen

Computer versteht verlorene Sprachen

Ausgrabungsstätte.

Bild: Norbert Nagel / Wikipedia / cc-by-sa-3.0

Mittels künstlicher Intelligenz können Maschinen heute Texte übersetzen, ohne ihre Bedeutung zu verstehen. Mit zusätzlichen Tricks funktioniert das sogar bei Sprachen, die längst nicht mehr verwendet werden.

Im Jahr 1886 entdeckte der britische Archäologe Arthur Evans einen alten Stein mit einer merkwürdigen Inschrift in einer unbekannten Sprache. Er stammte von der Insel Kreta. Sofort fuhr Evans dorthin, um nach weiteren Hinweisen zu suchen. Bald fand er viele Steine und Tafeln mit ähnlichen Schriften, die er auf rund 1400 v. Chr. datierte.

Damit handelte es sich mit um die ältesten Formen von Schrift, die je gefunden wurden. Für Evans ergab sich ihre lineare Form aus grob eingekratzten Strich-Bildern als frühe Form von Kunst, was deren Bedeutung in der Geschichte der Linguistik begründete.

Später fanden Evans und andere heraus, dass die Steine und Tafeln in zwei unterschiedlichen Schriften beschrieben waren. Die älteste, genannt Linearschrift A, stammte aus der Zeit zwischen 1800 und 1400 v. Chr., als die Insel von der minoischen Zivilisation der Bronzezeit beherrscht wurde. Die zweite Schrift, Linearschrift B, ist etwas neuer und erschien erst 1400 v. Chr., als die Insel von Mykänen vom griechischen Festland erobert wurde.

Enorme Leistung

Viele Jahre lang versuchten Evans und andere Forscher, die alten Schriften zu entziffern, doch die verlorenen Sprachen widersetzten sich ihren Bemühungen. Bis 1953 blieb das Problem ungelöst, dann knackte der Amateurlinguist Michael Ventris den Code für Linearschrift B.

Seine Lösung basierte auf zwei wichtigen Durchbrüchen. Erstens nahm Ventris an, dass es sich bei vielen der wiederholten Worte im Vokabular von Linearschrift B um Orte auf der Insel Kreta handelte, was sich als korrekt erwies.

Zweitens arbeitete er mit der Hypothese, dass die Schrift eine frühe Form von Altgriechisch wiedergab. Dadurch konnte er rasch auch den Rest der Schrift entschlüsseln. Und damit zeigte er, dass Altgriechisch viele Jahrhunderte früher zum ersten Mal schriftlich aufgetaucht war als bis dahin vermutet. Die Arbeit von Ventris war eine enorme Leistung. Doch die noch ältere Schrift Linearschrift A ist bis heute eines der großen ungelösten Probleme in der Linguistik.

Linguistik revolutioniert

Anzeige

Dass die aktuellen Fortschritte bei Maschinen-Übersetzungen hier helfen könnten, kann man sich leicht vorstellen. Innerhalb weniger Jahre wurde das Feld der Linguistik schließlich revolutioniert durch die Verfügbarkeit von riesigen annotierten Datenbanken und Techniken, wie Maschinen daraus lernen können. Maschinelle Übersetzungen von einer Sprache in eine andere sind damit fast schon Routine geworden. Diese Methoden sind zwar nicht perfekt, doch sie haben eine vollkommen neue Möglichkeit gebracht, über Sprache nachzudenken.

Gebrauch davon machen unter anderem Jiaming Luo und Regina Barzilay vom MIT und Yuan Calo vom KI-Labor von Google in Kalifornien. Zusammen haben die Forscher ein Maschinenlern-System entwickelt, das in der Lage sein soll, verlorene Sprachen zu entziffern. Und sie haben es genutzt, um Linearschrift B zu verstehen – das erste Mal, dass dies automatisch geschah. Der Ansatz, den sie dabei nutzten, unterschied sich aber sehr von dem bei normalen Maschinen-Übersetzungen.

Weitere Texte zum Thema Linguistik:

Dazu etwas Hintergrund. Die große Idee bei Maschinen-Übersetzungen ist, dass Worte unabhängig von der jeweiligen Sprache auf bestimmte Weise in Zusammenhang miteinander stehen. Also werden diese Zusammenhänge zunächst für eine einzelne Sprache kartiert. Dazu braucht man eine riesige Text-Datenbank. Eine Maschine durchsucht diesen Text, um zu erfassen, wie häufig die unterschiedliche Worte neben allen anderen erscheinen. Dieses Häufigkeitsmuster ist eine eindeutige Signatur, die das Wort in einem mehrdimensionalen Parameter-Raum definiert. Man kann es sich wie einen Vektor in diesem Raum vorstellen. Und dieser Vektor schränkt relativ genau ein, wie das jeweilige Wort in einer Maschinen-Übersetzung interpretiert wird.

Maschinen suchen nach Parameter-Räumen

Die Vektoren gehorchen einfachen mathematischen Regeln. Ein vereinfachtes Beispiel: König – Mann + Frau = Königin. Einen Satz kann man sich als Sammlung von solchen Vektoren vorstellen, die aufeinander folgen und eine Art Bahn durch den mehrdimensionalen Raum bilden.

Die entscheidende Erkenntnis für Maschinen-Übersetzungen ist, dass Worte unterschiedlicher Sprachen in ihren jeweiligen Parameter-Räumen dieselben Plätze einnehmen. Dadurch ist es möglich, eine vollständige Sprache eins zu eins auf eine andere abzubilden. Das Übersetzen von Sätzen bedeutet bei diesem Prozess, ähnliche Wege durch die Räume zu finden. Die Maschine muss dabei nie wirklich wissen, was die Sätze eigentlich bedeuten.

Für diesen Prozess ist man auf große Datensammlungen angewiesen. Jedoch hat ein Team deutscher Forscher vor einigen Jahren gezeigt, wie es auch anders gehen könnte: Mit deutlich kleineren Datenbanken ließen sich in einem ansonsten ähnlichen Ansatz auch deutlich seltenere Sprachen übersetzen. Der Trick dabei ist, die Auswahlmöglichkeiten der Maschine auf eine Weise einzuschränken, für die keine Datenbank erforderlich ist.

Erster Versuch

Luo und Kollegen sind jetzt noch einen Schritt weitergegangen, indem sie Maschinen für die Übersetzung von Sprachen nutzen, die komplett verloren waren. Als Beschränkung verwendeten sie dabei Wissen darüber, wie sich Sprachen im Lauf der Zeit weiterentwickeln. Die Überlegung: Jegliche Sprache kann sich nur auf bestimmte Weisen verändern. So erscheinen die Symbole in verwandten Sprachen mit ähnlichen Verteilungen, verwandte Worte behalten dieselbe Buchstabenabfolge und so weiter. Wenn diese Regeln die Maschine einschränken, wird die Entschlüsselung von Sprachen deutlich einfacher, soweit die Vorgängersprache bekannt ist.

Luo und sein Team probierten das mit zwei verlorenen Sprachen, Linearschrift B und Ugaritisch. Linguisten wissen, dass Linearschrift B eine frühe Version von Altgriechisch darstellt und das 1929 entdeckte Ugaritisch eine frühe Form von Hebräisch.

Mit diesen Informationen und den Vorgaben zur linguistischen Evolution konnte die Forscher um Luo beide Sprachen mit bemerkenswerter Genauigkeit übersetzen. „Wir konnten im Entschlüsselungsszenario 67,3 Prozent der Bezeichnungen in Linearschrift B in ihre griechischen Äquivalente übersetzen“, schreiben sie. „Soweit uns bekannt, ist unser Experiment der erste Versuch einer automatischen Entschlüsselung von Linearschrift B.“

Rasch neue Sprache beibringen

Die Arbeit ist beeindruckend und bringt maschinelles Übersetzen auf eine neue Ebene. Aber sie wirft auch interessante Fragen zu anderen verlorenen Sprachen auf, etwa zu Linearschrift A, die bis heute nicht entschlüsselt ist.

In dem Aufsatz fällt Linearschrift A nur durch Abwesenheit auf. Die Sprache wird darin nicht einmal erwähnt, dürfte die Forscher aber dennoch sehr beschäftigen – so wie alle Linguisten. Doch bis sich auch diese Inschriften maschinell übersetzen lassen, werden weitere Durchbrüche benötigt. So weiß niemand, welche Sprache Linearschrift A wiedergibt. Sämtliche Versuche mit Altgriechisch sind bislang gescheitert. Und ohne eine Vorgänger-Sprache funktioniert auch die neue Technik nicht.

Trotzdem bleibt als großer Vorteil von maschinenbasierten Ansätzen, dass man mit ihnen rasch eine Sprache nach der anderen durchtesten kann, ohne zu ermüden. Also ist gut vorstellbar, dass Luo und Kollegen Linearschrift A mit schlichter „brute force“ auf den Leib rücken werden. Sie könnten also einfach versuchen, sie in jede andere Sprache zu übertragen, für die es bereits Maschinen-Übersetzungen gibt. Wenn das funktioniert, wäre es eine weitere beeindruckende Leistung. Selbst Michael Ventris wäre gewiss begeistert.

4 Kommentare

Anzeige
Anzeige