Μετά το σκάκι, το Γκο: Τεχνητή Νοημοσύνη νίκησε άνθρωπο πρωταθλητή στο αρχαίο παιχνίδι στρατηγικής

Μετά το σκάκι, το Γκο: Τεχνητή Νοημοσύνη νίκησε άνθρωπο πρωταθλητή στο αρχαίο παιχνίδι στρατηγικής
|

Στην Ελλάδα (και τη Δύση γενικότερα), όλοι γνωρίζουν το σκάκι- αρκετά λιγότεροι όμως είναι αυτοί οι οποίοι γνωρίζουν το επίσης αρχαίο παιχνίδι στρατηγικής του «Γκο». Τη στιγμή που το σκάκι επικεντρώνεται στο «τακτικό», της όλης υπόθεσης, με στόχο την ήττα του αντιπάλου μέσω μιας αποφασιστικής μάχης με τον εχθρικό στρατό (κάτι που αποτελεί τον βασικό πυλώνα του δυτικού τρόπου πολέμου), το «Γκο», κινεζικής προέλευσης, επικεντρώνεται στον έλεγχο περιοχών, αντικατοπτρίζοντας, σύμφωνα με κάποιες προσεγγίσεις, τις συνθήκες που διαμόρφωναν τις στρατηγικές στις αχανείς ασιατικές εκτάσεις από την αρχαιότητα ακόμα (εκτιμάται 2.500 χρόνια πριν). Παρά τους απλούς κανόνες του, είναι ιδιαίτερα πολύπλοκο, και είναι εξαιρετικά δημοφιλές στην Κίνα, την Ιαπωνία και τη Νότια Κορέα. Παίζουν συνολικά 40 εκατομμύρια άνθρωποι σε όλο τον κόσμο.

Στην «αντιπαράθεση» μεταξύ του ανθρώπου και των μηχανών στον τομέα της στρατηγικής, οι φίλοι των ηλεκτρονικών παιχνιδιών στρατηγικής γνωρίζουν ότι είναι δύσκολο μια τεχνητή νοημοσύνη να αντιμετωπίσει επί ίσοις όροις έναν ανθρώπινο νου- για να αποτελέσει πραγματική πρόκληση απέναντι σε έναν ικανό παίκτη, πρέπει ο συνήθως δεύτερος να έχει, με κάποιον τρόπο, σημαντικό handicap. Ως εκ τούτου, πάντα «κόντρες» σε παιχνίδια στρατηγικής μεταξύ ανθρώπων πρωταθλητών και μηχανών προσέλκυαν ιδιαίτερο ενδιαφέρον, και χαρακτηριστικότατη περίπτωση είναι η αναμέτρηση μεταξύ του Deep Blue της ΙΒΜ και του κορυφαίου σκακιστή Γκάρι Κασπάροφ το 1997.

Open Image Modal

Το Γκο εδώ και πάρα πολύ καιρό έχει προσελκύσει το ενδιαφέρον των ερευνητών Τεχνητής Νοημοσύνης, λόγω της πολυπλοκότητάς του: Παρά τος απλούς κανόνες (ο παίκτης πρέπει να ελέγξει τη μεγαλύτερη περιοχή σε ένα ταμπλό 19x19 τετραγώνων), οι πιθανές συνθέσεις/ διατάξεις είναι απίστευτα πιο πολλές από ό,τι στο σκάκι (10 στην 170η)- όπως αναφέρεται σε σχετικό δημοσίευμα του Nature, ο συνολικός αριθμός εκτιμάται ότι είναι μεγαλύτερος από τα άτομα που υπάρχουν στο Σύμπαν, οπότε και δεν είναι δυνατή «απλά» η δημιουργία μιας Τεχνητής Νοημοσύνης που θα ψάχνει την καλύτερη κίνηση μέσω αλγορίθμων.

Οπότε, γίνεται εύκολα αντιληπτό ότι η νίκη μιας Τεχνητής Νοημοσύνης έναντι ανθρώπου πρωταθλητή του Γκο αποτελεί σημαντικό νέο – και αυτό ακριβώς πέτυχε το AlphaGo, που δημιούργησε η DeepMind του Ντέμη Χασάμπη, η οποία ειδικεύεται στον τομέα της Τεχνητής Νοημοσύνης και ανήκει στην Google.

Περιγράφοντας το εν λόγω επίτευγμα σε δημοσίευση στο επίσημο blog της Google, ο κ. Χασάμπης γράφει ότι οι παραδοσιακές μέθοδοι Τεχνητής Νοημοσύνης, με τη δημιουργία «search tree» το οποίο περιλαμβάνει όλες τις πιθανές θέσεις, δεν είχαν καμιά ελπίδα – οπότε το AlphaGo συνδυάζει μια εξελιγμένη εκδοχή της εν λόγω τεχνικής με deep neural networks. Τα εν λόγω δίκτυα λαμβάνουν ως πληροφορίες μία «περιγραφή» του ταμπλό, και το επεξεργάζονται μέσα από 12 διαφορετικά στρώματα νευρικών δικτύων. Ένα «policy network» έχει να κάνει με την επιλογή της επόμενης κίνησης, και ένα «value network» είναι επιφορτισμένο με την πρόβλεψη του νικητή. Επίσης, οι ερευνητές «εκπαίδευσαν» τα δίκτυα σε 30 εκατομμύρια κινήσεις από παιχνίδια τα οποία έχουν παίξει κορυφαίοι παίκτες, μέχρι το σύστημα να είναι σε θέση να προβλέψει τις ανθρώπινες κινήσεις στο 57% των περιπτώσεων. «Αλλά ο σκοπός μας είναι να νικήσουμε τους καλύτερους ανθρώπους παίκτες, όχι να τους μιμηθούμε. Για να το κάνει αυτό, το AlphaGo έμαθε να ανακαλύπτει νέες στρατηγικές, παίζοντας χιλιάδες παιχνίδια ανάμεσα στα νευρικά του δίκτυα, και να ρυθμίζει τις συνδέσεις μέσω μιας μεθόδου δοκιμών γνωστής ως reinforcement learning. Φυσικά, όλο αυτό απαιτεί τεράστια ποσότητα υπολογιστικής ισχύος, οπότε κάναμε εκτεταμένη χρήση του Google Cloud Platform» γράφει ο Χασάμπης.

Open Image Modal

Σε πρώτη φάση, το σύστημα δοκιμάστηκε απέναντι σε άλλα κορυφαία προγράμματα, τα οποία και κυριολεκτικά διέλυσε, κερδίζοντας 499 παιχνίδια από συνολικά 500. Το επόμενο βήμα ήταν η αναμέτρηση με τον άνθρωπο- τον τρεις φορές πρωταθλητή Ευρώπης Φαν Χούϊ, επαγγελματία παίκτη ο οποίος έχει αφιερώσει τη ζωή του στο παιχνίδι από ηλικία 12 ετών. Σε 5 παιχνίδια τα οποία έλαβαν χώρα στα γραφεία της εταιρείας στο Λονδίνο, το σκορ ήταν 5-0 υπέρ του AlphaGo. Όπως αναφέρεται στο σχετικό δημοσίευμα του Nature, ο ίδιος ο παίκτης είπε ότι το AlphaGo παίζει «ανθρώπινα», σε βαθμό που, εάν δεν γνώριζε, θα θεωρούσε ότι ο παίκτης ήταν ίσως λίγο παράξενος, αλλά σίγουρα «δυνατός». Παράλληλα, ο Τόμπι Μάνινγκ παίκτης ο οποίος είχε αναλάβει καθήκοντα διαιτητή, εκτίμησε ότι το πρόγραμμα ανέπτυξε ένα συντηρητικό (και όχι επιθετικό) στυλ παιχνιδιού. Πρόκειται για την πρώτη φορά που ένα πρόγραμμα υπολογιστή κερδίζει επαγγελματία παίκτη. Η επόμενη μεγάλη πρόκληση θα είναι πέντε παιχνίδια στη Σεούλ εναντίον του Λι Σεντόλ, παίκτη ο οποίος θεωρείται ο καλύτερος στον κόσμο. Όπως υπογραμμίζει ο Χασάμπης στο blogpost, η πιο σημαντική διάσταση της νίκης του AlphaGo δεν είναι αυτή καθαυτή η νίκη, αλλά το ότι δεν πρόκειται για ένα «expert-system» το οποίο έχει φτιαχτεί με συγκεκριμένους κανόνες, αλλά ένα σύστημα το οποίο χρησιμοποιεί γενικές τεχνικές machine learning για να «μαθαίνει» πώς να νικήσει στο Γκο. Αυτό σημαίνει πως οι τεχνικές αυτές ενδείκνυνται για την αντιμετώπιση πολύπλοκων προβλημάτων στον πραγματικό κόσμο (κλιματικά μοντέλα, ανάλυση ασθενειών κλπ), πέρα από τα παιχνίδια, τα οποία αποτελούν «απλά» καλές πλατφόρμες για την ανάπτυξη και τη δοκιμή Τεχνητών Νοημοσυνών.

Οι αντιδράσεις από τον κόσμο των ερευνητών Τεχνητής Νοημοσύνης είναι εξαιρετικά θετικές, με πολλούς να επισημαίνουν την προαναφερθείσα δυνατότητα χρήσης και σε άλλους τομείς, από διαφορετικά παιχνίδια μέχρι και άλλα πεδία ενδιαφέροντος όπως αυτά που αναφέρθηκαν νωρίτερα.

Σημειώνεται ότι στον «χορό» του Γκο και της Τεχνητής Νοημοσύνης συμμετέχει και το Facebook: Την Τετάρτη, τόσο ο Μαρκ Ζούκερμπεργκ όσο και ο Γιαν ΛεΚούν, ένας εκ των ερευνητών Τεχνητής Νοημοσύνης της εταιρείας, προέβησαν σε σχετικά posts στο Facebook, με τον Ζούκερμπεργκ να γράφει ότι «πλησιάζουμε».

«Μέσα στους τελευταίους έξι μήνες έχουμε φτιάξει μια Τεχνητή Νοημοσύνη η οποία κάνει κινήσεις μέσα σε 0,1 δευτερόλεπτα και εξακολουθεί να είναι το ίδιο καλό όσο παλαιότερα συστήματα, τα οποία χρειάστηκαν χρόνια για να δημιουργηθούν» γράφει ο ιδρυτής του Facebook, επισημαίνοντας ότι ο ερευνητής που δουλεύει ακριβώς πάνω σε αυτό (Γιουαντόνγκ Τιάν) έχει το γραφείο του πολύ κοντά στο δικό του. Από πλευράς του, ο ΛεΚουν αναφέρει ότι το όνομα του προγράμματος στο οποίο εργάζεται ο Γιουαντόνγκ είναι «DarkForest».