Logo von heise online

Suche
Abonnieren

Tägliche Top-News bei WhatsApp, Facebook Messenger, Telegram & Insta

preisvergleich_weiss

Recherche in 1.508.171 Produkten

Harald Bögeholz 304

Künstliche Intelligenz: AlphaGo Zero übertrumpft AlphaGo ohne menschliches Vorwissen

Künstliche Intelligenz: AlphaGo Zero übertrumpft AlphaGo ohne menschliches Vorwissen

Bild: Google

Im asiatischen Strategiespiel Go hat das Programm AlphaGo der Google-Tochter DeepMind in diesem Jahr den stärksten menschlichen Profispieler besiegt. Eine neue Version hat das Spiel jetzt ohne menschliches Vorwissen gelernt und spielt noch stärker.

Es sah so aus, als wäre das Thema Go für das KI-Start-up DeepMind in diesem Jahr abgehakt: 60 Online-Partien gegen Profis gewonnen im Januar, den Weltranglisten-Ersten Ke Jie geschlagen im Mai, ein Team aus fünf Top-Profis geschlagen ebenfalls im Mai, was soll da noch kommen? Jedenfalls eine wissenschaftliche Veröffentlichung, so viel hatte DeepMind im Anschluss an den 3:0-Sieg gegen Ke Jie auf dem The Future of Go Summit angekündigt.

Anzeige

Die ist nun da, und sie hat es in sich: In ihrem Aufsatz "Mastering the game of Go without human knowledge" in der renommierten Wissenschaftszeitschrift Nature beschreibt das Forscherteam von DeepMind nicht etwa nur die AlphaGo-Version, die Ke Jie besiegt hat, sondern eine noch neuere.

Spielstärken
Vier Versionen gab es bisher von AlphaGo, eine stärker als die andere. (Bild: Google DeepMind )

Vier Versionen von AlphaGo zählt DeepMind mittlerweile. Sie alle beruhen auf einer Kombination von neuronalen Netzen und der Baumsuchtechnik Monte Carlo Tree Search (MCTS); siehe dazu auch den Artikel "Mysteriöse Tiefe – wie Google-KI den Menschen im Go schlagen will" auf c't online. Während die neuronalen Netze der ersten drei Versionen mit Millionen von Stellungen aus Partien zwischen starken menschlichen Spielern trainiert wurden, hat die nun enthüllte Version AlphaGo Zero das Spiel von Grund auf selbst gelernt, nur aufgrund der Spielregeln. Und sie hat in internen Tests die "Master"-Version von AlphaGo nochmals übertroffen – gegen Menschen braucht sie da gar nicht mehr anzutreten.

Statt zweier neuronaler Netze (Policy Network für Vorschläge guter Züge und Value Network für die Stellungsbewertung) hat AlphaGo Zero nur noch eines, dieses allerdings mit zwei Ausgangspfaden ("Heads"), die gleichzeitig Zugvorschläge und Stellungsbewertung liefern. Am Eingang des neuronalen Netzes steht nur noch die nackte Stellung an, angereichert lediglich mit der Historie der letzten acht Züge und der Information, welcher Spieler am Zug ist. Die Go-spezifische Vorverarbeitung, mit der die Entwickler den neuronalen Netzen früherer AlphaGo-Versionen noch etwas auf die Sprünge geholfen hatten, ist Vergangenheit. Außer den Go-Regeln geht nur die Symmetrie ein: Drehungen und Spiegelungen des gesamten Brettes verändern das Spiel nicht.

Auch der MCTS-Algorithmus wurde abgespeckt: Statt Partien ab einem gewissen Punkt mit einer stark vereinfachten Zufallsstrategie zu Ende zu spielen, wächst der Spielbaum nun nur noch unter der Ägide des neuronalen Netzes. MCTS greift dem neuronalen Netz also nur noch als "Strategieverstärker" unter die Arme, indem es ein paar tausend Varianten möglicher Spielverläufe durchprobiert. Gleichzeitig lassen sich aus dem Ausgang dieser simulierten Partien Informationen über den Wert der besuchten Stellungen gewinnen.

Aus diesen beiden Dingen lernt das neuronale Netz nun, während das Programm gegen sich selbst spielt: Die Wahrscheinlichkeitsverteilung der Zugvorschläge passt sich den Ergebnissen der Baumsuche in den tatsächlich gespielten Partien an, sodass spätere Baumsuchen gleich mit besseren Strategien loslegen. Und die Stellungsbewertung des neuronalen Netzes gleicht sich den Ergebnissen der simulierten Partien an.

Trainingsfortschritt
In drei Tagen wird AlphaGo vom blutigen Anfänger zum Profi – und danach noch viel stärker. (Bild: Google DeepMind )

Innerhalb von nur drei Tagen erreichte AlphaGo Zero damit, ausgehend von völlig zufällig gespielten Partien unterhalb jedes Anfängerniveaus, Profi-Spielstärke und übertraf die Version, die 2016 gegen Lee Sedol gewonnen hatte. Nach 21 Tagen war es auf dem Niveau der diesjährigen "Master"-Version, nach 40 Tagen deutlich darüber.

Anzeige

Dabei kommt AlphaGo Zero mit deutlich weniger Hardware aus als die erste AlphaGo-Version, nicht zuletzt dank der von Google eigens als Neuronale-Netze-Beschleuniger entwickelten Spezialchips TPU (Tensor Processing Unit). Nur noch eine Maschine mit 4 TPUs braucht AlphaGo Zero; bei der ersten Version war es noch ein Cluster mit über 1000 CPU-Kernen und 176 GPUs.

Joseki
AlphaGo Zero entdeckt selbstständig ein "Joseki", eine etablierte Zugfolge in der Ecke – und verwirft sie nach einiger Zeit wieder (Bild: Google DeepMind/Nature )

Erstaunlich ist es für den Go-Kundigen auch zu beobachten, wie AlphaGo Zero in kürzester Zeit das jahrhundertealte Go-Wissen der Menschheit entdeckt, etwa in Form bestimmter etablierter Zugfolgen in der Nähe der Ecken, sogenannter Joseki – und diese dann beim Weiterlernen wieder verwirft zugunsten anscheinend noch besserer Strategien. Das wird für Go-Profis nicht leicht zu verdauen sein: zu sehen, wie ein Computer innerhalb von zwei Tagen ihre ganze Karriere durchläuft und dann im gleichen Tempo über sie hinauswächst.

Mit AlphaGo Zero hat DeepMind Erstaunliches vollbracht: Es ist nicht nur der neue stärkste Go-Spieler auf diesem Planeten, sondern hat das Spiel nur aufgrund der Regeln gelernt und ist dabei über den Menschen hinausgewachsen.

Und weil weder Daten über von Menschen gespielte Partien noch irgendwelche Go-spezifischen Heuristiken eingegangen sind, stehen die Chancen nicht schlecht, dass sich die gewonnenen Erkenntnisse auf vergleichbare Spiele übertragen lassen: Nullsummenspiele mit vollständiger Information. Das höhere Ziel von DeepMind sind allerdings nicht Spiele, sondern künstliche Intelligenz für die echten Probleme der Menschheit – wer weiß, was diese Forschung zu deren Lösung beitragen kann. (Harald Bögeholz) / (bo)

304 Kommentare

Themen:

Anzeige
  1. Künstliche Intelligenz: AlphaGo besiegt Ke Jie zum dritten Mal

    Künstliche Intelligenz: AlphaGo besiegt Ke Jie zum dritten Mal

    Man hat es schon geahnt, aber jetzt ist es Gewissheit: Der Weltranglisten-Erste im asiatischen Strategiespiel Go musste sich zum dritten Mal der künstlichen Intelligenz geschlagen geben.

  2. Künstliche Intelligenz: AlphaGo schlägt Top-Profi Ke Jie zum zweiten Mal

    Future of Go Summit

    Die Maschinen haben den Menschen nun auch im asiatischen Strategiespiel Go überflügelt, das wird immer deutlicher. Auf dem "The Future of Go Summit" besiegte AlphaGo den weltbesten Spieler Ke Jie zum zweiten Mal.

  3. Künstliche Intelligenz: AlphaGo spielt Go gegen Top-Profi Ke Jie

    Future of Go Summit

    Auf dem "The Future of Go Summit" trifft AlphaGo auf den Weltranglisten-Ersten im Go. Hier geht es nicht mehr um den letzten Showdown zwischen Mensch und Maschine, sondern darum, was Go-Profis von der künstlichen Intelligenz lernen können.

  4. Ende für AlphaGo, Googles DeepMind-Team widmet sich neuen Herausforderungen

    Ende für AlphaGo, Googles DeepMind-Team widmet sich neuen Herausforderungen

    Das Ziel von AlphaGo ist erreicht, DeepMind will nun seine Energien voll in die Entwicklung von neuen Algorithmen stecken. Die sollen mithelfen die großen Aufgaben in Medizin, Ökologie, Materialforschung und anderswo anzupacken.

  1. Künstliche Intelligenz: Wen es zuerst trifft

    Künstliche Intelligenz: Wen es zuerst trifft

    Früher oder später soll Künstliche Intelligenz bei fast allen Tätigkeiten besser sein als Menschen. Für eine Studie haben Experten jetzt konkrete Daten für verschiedene Aufgaben prognostiziert – die aber zum Teil schon überholt sind.

  2. Googles Intelligenz-Designer

    Googles Intelligenz-Designer

    Eine Software von Google spielt besser Go als der beste menschliche Spieler. Der Mann hinter diesem Erfolg heißt Demis Hassabis. Was treibt ihn an?

  3. Mensch gegen Smartphone: Apps für das Strategiespiel Go

    Go Brettspiel App

    Die Go-Welt fiebert dem 9. März entgegen, wenn Google mit einer künstlichen Intelligenz den Spitzenspieler Lee Sedol herausfordert. Ganz gleich, ob Go für Sie neu ist oder Sie es schon kennen: Mit einer App für Ihr Smartphone oder Tablet können Sie sich schon mal warm spielen.

  1. Sicherheitslücke in HP-Druckern – Firmware-Updates stehen bereit

    Hewlett-Packard-Logo

    Unter Verwendung spezieller Malware können Angreifer aus der Ferne auf Drucker von HP zugreifen und dort unter anderem gerätespezifische Befehle ausführen. Der Hersteller hat Updates bereitgestellt und empfiehlt die umgehende Aktualisierung.

  2. Mini tritt bei der Dakar-Rallye 2018 mit Allrad- und Hinterradantrieb an

    Mini

    Am 6. Januar 2018 startet in Lima die 40. Rallye Dakar. Mini wird die Rallye erstmals mit zwei konzeptionell komplett unterschiedlichen Fahrzeugtypen bestreiten. Zum Allradler kommt ein Buggy mit Hinterradantrieb

Anzeige