Παρασκευή 29 Μαρτίου 2024
weather-icon 21o
Ικανές οι μηχανές να τηρούν πρακτικά ομιλιών, ανίκανες να τα κατανοούν

Ικανές οι μηχανές να τηρούν πρακτικά ομιλιών, ανίκανες να τα κατανοούν

Επιστήμονες στο τμήμα Τεχνητής Νοημοσύνης και Έρευνας της Microsoft Corp. ανέπτυξαν ένα σύστημα αναγνώρισης ομιλίας, το οποίο κάνει, στον ίδιο ή μικρότερο βαθμό, τα λάθη που θα έκανε ένας άνθρωπος στη μεταφορά μιας συνομιλίας.

Επιστήμονες στο τμήμα Τεχνητής Νοημοσύνης και Έρευνας της Microsoft Corp. ανέπτυξαν ένα σύστημα αναγνώρισης ομιλίας, το οποίο κάνει, στον ίδιο ή μικρότερο βαθμό, τα λάθη που θα έκανε ένας άνθρωπος στη μεταφορά μιας συνομιλίας.

Το σύστημά τους αναγνώρισε την συντριπτική πλειονότητα των λέξεων κατά τη συζήτηση δύο αγνώστων σε προκαθορισμένο θέμα καθώς και στη τηλεφωνική συνομιλία μεταξύ μελών μιας οικογένειας χωρίς προκαθορισμένο θέμα. Στη πρώτη φάση του τεστ NIST 2000 (Switchboard), ένας άνθρωπος θα έκανε λάθη στο 5,9% του συνόλου των λέξεων και στη δεύτερη, πιο απαιτητική φάση (CallHome), τα λάθη θα ήταν περισσότερα (11,3%).

Το σύστημα των επιστημόνων της ομάδας Artificial Intelligence and Research της Microsoft δεν θα έκανε περισσότερα λάθη από τους ανθρώπους, αποδεικνύουν σε μελέτη που δημοσιεύεται στο arXiv.org τα μέλη της ομάδας στη Microsoft.

Σύμφωνα με τον Chief Speech Scientist της εταιρείας, Xuedong Huang, πρόκειται για «ιστορικό επίτευγμα», αφού ένας υπολογιστής καθίσταται ικανός να αναγνωρίσει τις λέξεις σε μια συζήτηση όσο καλά θα το έκανε και ένας άνθρωπος.

Ενθουσιασμένος δηλώνει και ο επικεφαλής της ομάδας έρευνας, Harry Shum, ο οποίος δήλωσε ότι δεν φανταζόταν «ότι κάτι τέτοιο είναι καν εφικτό». Ο Shum δεν παρέλειψε να αναφερθεί στα θετικλά επακόλουθα αυτού του επιτεύγματος, και ιδιαίτερα στην Cortana: «αυτό θα κάνει την Cortana ισχυρότερη, μια πραγματικά νοήμων βοηθό».

Ένας ακόμα επιστήμονας της ομάδας, ο Zweig έδωσε περισσότερες εξηγήσεις για το ιστορικό αυτό κατόρθωμα, εξηγώντας πως η ισοτιμία με τις επιδόσεις ενός ανθρώπου δεν σημαίνει ότι το σύστημα είναι τέλειο. Σημαίνει όμως πως, το σύστημα έκανε λάθη ανάλογα με αυτά που θα έκανε ένας άνθρωπος ακούγοντας την ίδια συζήτηση -να μεταφέρει ένα «have» ως «is» ή το «a» με ένα «the».

Ο Zweig αποδίδει το επίτευγμα στην συστηματική χρήση της πλέον εξελιγμένης τεχνολογίας νευρωνικών δικτύων σε κάθε μέρος του συστήματος αναγνώρισης ομιλίας. Επεσήμανε δε, πως κρίσιμη ήταν η αξιοποίηση μοντέλων στα οποία οι λέξεις αναπαριστώνται ως συνεχή διανύσματα στο χώρο, στα οποία συνώνυμες λέξεις βρίσκονται πολύ κοντά η μια στην άλλη (π.χ. fast, quick). «Το γεγονός επιτρέπει στα μοντέλα να γενικεύουν πολύ καλά από λέξη σε λέξη», είπε ο Zweig.

Τα κυριότερα επιτεύγματα στον τομέα της αναγνώρισης ομιλίας, κατά Microsoft (πηγή).

Ανοικτές προκλήσεις

Παρά την αναγνώριση του επιτεύγματος από την επιστημονική κοινότητα, υπάρχουν πολλά ακόμα να γίνουν πριν αρχίσουν οι μηχανές να συζητούν με τους ανθρώπους. Το σύστημα θα πρέπει να κατορθώνει να αναγνωρίζει ό,τι λέγεται σε πολύβουα περιβάλλοντα, σε πάρτυ ή οδηγώντας στην κίνηση.

Πρέπει να βρεθούν τρόποι να αποδίδονται σωστά τα ονόματα σε όποιον μιλάει και να βεβαιωθεί ότι μια μηχανή μπορεί να μεταφέρει ό,τι λέει ένας άνθρωπος, ανεξάρτητα από τη φωνή, την ηλικία, την προφορά ή ακόμα και την ικανότητά του να προφέρει τις λέξεις.

Αυτοί είναι οι βραχυπρόθεσμοι στόχοι.

Στους μακροπρόθεσμους στόχους εντάσσονται η ανάπτυξη συστημάτων που, όχι μόνο θα αναγνωρίζουν λέξεις στα ακουστικά σήματα που λαμβάνουν από ανθρώπινα χείλη, αλλά και, θα κατανοούν τη σημασία τους. Μόνο τότε, η τεχνολογία θα αποκτήσει τη δυνατότητα να απαντά σε ερωτήσεις ή, πολύ περισσότερο, να αναλαμβάνει δράση με βάση ό,τι ειπώθηκε, λένε οι επιστήμονες συμβάλλοντας στην καυτή σήμερα συζήτηση περί chatbot από το Facebook, Google Home με Google Assistant και Amazon Echo με Alexa.

Είναι γεγονός ότι, σιγά-σιγά (το τρέχον επίτευγμα επιτεύχθηκε έπειτα από τρεις δεκαετίες μελετών), μεταβαίνουμε από έναν κόσμο στον οποίο καλούμαστε να κατανοήσουμε εμείς τους υπολογιστές σε έναν νέο, όπου οι υπολογιστές θα καταλαβαίνουν εμάς.

Εντούτοις, επισημαίνουν οι ερευνητές, η πραγματική τεχνητή νοημοσύνη βρίσκεται ακόμα μακριά, στο βάθος του ορίζοντα.

Ανθή Παναγιωτάκη, @anthi

tech.in.gr

Sports in

«Τελικός» για Παναθηναϊκό στην Μπολόνια και στο… βάθος ντέρμπι «αιωνίων»

Ο Παναθηναϊκός φιλοξενείται (29/3, 21:30) στην έδρα της Βίρτους Μπολόνια για την 32η αγωνιστική της Euroleague με στόχο να διατηρηθεί στην τετράδα και να συνεχίσει στην διεκδίκηση της δεύτερης θέσης.

Ακολουθήστε το in.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις

in.gr | Ταυτότητα

Διαχειριστής - Διευθυντής: Λευτέρης Θ. Χαραλαμπόπουλος

Διευθύντρια Σύνταξης: Αργυρώ Τσατσούλη

Ιδιοκτησία - Δικαιούχος domain name: ΑΛΤΕΡ ΕΓΚΟ ΜΜΕ Α.Ε.

Νόμιμος Εκπρόσωπος: Ιωάννης Βρέντζος

Έδρα - Γραφεία: Λεωφόρος Συγγρού αρ 340, Καλλιθέα, ΤΚ 17673

ΑΦΜ: 800745939, ΔΟΥ: ΦΑΕ ΠΕΙΡΑΙΑ

Ηλεκτρονική διεύθυνση Επικοινωνίας: in@alteregomedia.org, Τηλ. Επικοινωνίας: 2107547007

Παρασκευή 29 Μαρτίου 2024