Divide and Conquer

Maluuba: Σκορ ρεκόρ από τις μηχανές τεχνητής νοημοσύνης στο Pac-Man

Maluuba: Σκορ ρεκόρ από τις μηχανές τεχνητής νοημοσύνης στο Pac-Man
Το μέγιστο ανθρώπινο σκορ αποδίδεται στον Wilson Oyama, με 266.330 βαθμούς.  
Η Maluuba, μια εταιρεία ανάπτυξης τεχνολογίας τεχνητής νοημοσύνης της Microsoft, δημιούργησε έναν αλγόριθμο (Hybrid Reward Architecture) που πέτυχε τέσσερις φορές μεγαλύτερη βαθμολογία από άνθρωπο στο πασίγνωστο Pac-Man, ρεκόρ που θεωρείται αδύνατο να ξεπεράσει ο άνθρωπος και δεν έχει επιτευχθεί μέχρι σήμερα ούτε με άλλες τεχνκές ενισχυτικής μάθησης.

Τα βιντεοπαιχνίδια θεωρούνται ιδανικά για την επίδειξη των βελτιώσεων στην τεχνολογία τεχνητής νοημοσύνης, αφού για να κερδίσει κανείς «απαιτείται νοημοσύνη αντίστοιχη της ανθρώπινης», λένε οι ειδικοί.

Το σκορ που πέτυχε στο Pac-Man η Malluba είναι 999.999 βαθμοί, σκορ σχεδόν τετραπλάσιο από το ανθρώπινο ρεκόρ. Κανένας άνθρωπος ή AI δεν έχει επιτύχει τέτοια βαθμολογία, εξηγούν οι ερευνητές, εξαιτίας της πολυπλοκότητας του παιχνιδιού και τις λίγες, μετρημένες ζωές.

Οι ερευνητές χώρισαν τις προκλήσεις του παιχνιδιού σε πολλά, μικρότερα, προβλήματα και οι αλγόριθμοι αντιμετώπισης κάθε προβλήματος «εκπαιδεύτηκαν» ξεχωριστά.

Οι ερευνητές υποστηρίζουν πως αυτή η προσέγγιση, του διαίρει και βασίλευε, στην λεγόμενη ενισχυτική μάθηση μπορεί να βελτιώσει τα αποτελέσματα προκλήσεων σε πραγματικές συνθήκες, όπως για παράδειγμα στις αποστολές πωλητών στους καλύτερους δυνητικούς πελάτες , σε οικονομικά μοντέλα ή, σε εφαρμογές ρομποτικής.


Στην εφαρμογή αυτή ενισχυτικής μάθησης, οι ερευνητές ορίζουν συνολικά 163 πράκτορες -154 για τις τελίτσες, 4 για κάποια από τα φαντάσματα, 4 για εκείνα που τρώγονται και ένα για το κινούμενο φρουτάκι. Κάθε πράκτορας έχει το δικό του μηχανισμό επιβράβευσης -μικρή επιβράβευση κάθε φορά που η "μις Πάκ-μαν" τρώει μια τελίτσα, μεγάλη κάθε φορά που τρώει ένα φρουτάκι ή μπλε φαντασματάκι και μια μεγάλη τιμωρία εάν η Μις Πάκ-μαν φαγωθεί από φαντασματάκι. Ανά πάσα στιγμή, όλοι οι πράκτορες στέλνουν τη δική τους προτίμηση για την πορεία που πρέπει να ακολουθήσει η Μις Πακ-Μαν. Οι προτιμήσεις τους συγκεντρώνονται κεντρικά, όπου λαμβάνεται η απόφαση, σταθμίζοντας τη βαρύτητα των πιθανών επιλογών. Έτσι, για παράδειγμα, ο κεντρικός ελεγκτής θα προτιμήσει να αποφύγει η Μις Πάκμαν τα παρακείμενα φαντάσματα κινούμενη δεξιά όπως προτείνουν μετρημένοι στα δάχτυλα πράκτορες, από το να κερδίσει λίγους βαθμούς τρώγοντας μερικές ακόμα τελίτσες, επειδή οι περισσότεροι πράκτορες συμφωνούν ότι πρέπει να κινηθεί ευθεία.

Η επιτυχία του εγχειρήματος, υποστηρίζουν στην Maluuba, έγκειται στο γεγονός ότι πολλοί πράκτορες επιφορτισμένοι με μικρές εργασίες μαθαίνουν ταχύτερα και καλύτερα τι πρέπει να κάνουν.

tech.in.gr

Ειδήσεις:  Περισσότερες ειδήσεις

Θέματα: