Επιτέλους οι υπολογιστές θα υπακούνε στις φωνητικές μας εντολές…

Το 1979, ο τότε νεαρός Steve Jobs πήγε για μια επίσκεψη στο Xerox PARC, το θρυλικό εργαστήριο R&D στο Palo Alto της Καλιφόρνια και παρακολούθησε μια επίδειξη σε αυτό που τώρα ονομάζεται η γραφική διεπαφή χρήστη.

Ένας μηχανικός από το Parc χρησιμοποίησε ένα πρωτότυπο ποντίκι για να περιηγηθεί την οθόνη του υπολογιστή γεμάτη εικονίδια, μενού επιλογών και “παράθυρα” που επικαλύπτονται μεταξύ τους σαν φύλλα χαρτιού σε μια επιφάνεια εργασίας.

Ο Jobs είχε παγώσει και ήταν εκτός εαυτού αφού ήταν σε αντίθεση με οτιδήποτε είχε δει πριν. Όπως είχε δηλώσει αργότερα: “Μέσα σε 10 λεπτά ήταν τόσο προφανές ότι κάθε υπολογιστής θα μπορούσε να λειτουργήσει με αυτόν τον τρόπο κάποια μέρα.”

Όπως έχει ο μύθος, ο Jobs έτρεξε πίσω στην Apple και έβαλε μια ομάδα να ξεκινήσει την αντιγραφή και τη βελτίωση αυτών που μόλις είχε δει στο PARC. Κάπου εκεί έγινε η αρχή της πορείας των προσωπικών υπολογιστών προς την κατεύθυνση που έχει τα τελευταία 40 χρόνια, από το πρώτο Macintosh μέχρι το iPhone.

Αυτή η αναβάθμιση των υπολογιστών, έληξε την τυραννία της γραμμής εντολών, αυτής της απαιτητικής και βαριάς διεπαφής που κυριαρχούσε εκείνην την εποχή. Έτσι μας έφερε σε έναν κόσμο όπου όλο και περισσότεροι άνθρωποι μπορούσαν να χρησιμοποιήσουν τους υπολογιστές κάνοντας απλά ένα κλικ.

Παρόλα’ αυτά, κάτι ακόμα πιο σημαντικό ετοίμαζε μια ξεχωριστή ομάδα στο PARC κατά την διάρκεια της επίσκεψής του Jobs. Εργαζόταν σε ένα εντελώς διαφορετικό μοντέλο αλληλεπίδρασης ανθρώπου-υπολογιστή, που σήμερα ονομάζετε ομιλητική διεπαφή χρήστη.

Αυτοί οι επιστήμονες οραματίστηκαν έναν κόσμο δεκαετίες μακριά, στον οποίο οι υπολογιστές θα είναι τόσο ισχυροί που οι χρήστες θα πρέπει να απομνημονεύσουν ένα ειδικό σύνολο εντολών ή ροές εργασίας για κάθε δράση.

Μια τέτοια συσκευή όμως δεν θα ήταν καθόλου εύχρηστη, καθώς θα συνεργαζόμασταν με τους υπολογιστές μας, μέσα από διάλογο εντολών για την εκτέλεση των εργασιών και με αυτόν τον τρόπο η διεπαφή δεν θα ήταν μια “συνηθισμένη” ανθρώπινη γλώσσα.

Ένας από τους επιστήμονες αυτής της ομάδας ήταν ο Ron Kaplan, ο οποίος είναι γλωσσολόγος, ψυχολόγος, και επιστήμονας υπολογιστών που επικαλείται τις θεωρίες του Chomsky σχετικά με την κατασκευή της γλώσσας, όπως ο νόμος του Moore.

Ο Kaplan λέει ότι η ομάδα του πήγε αρκετά μακριά όσων αφορά την σκιαγράφηση ενός κρίσιμου συστατικού της ομιλητικής διεπαφής χρηστών την δεκαετία του 70, αφού εγκατέστησαν ένα σύστημα που επέτρεπε την κράτηση εισιτηρίων μέσω ανταλλαγής δακτυλογραφημένων μηνυμάτων, με έναν υπολογιστή σε απλά αγγλικά.

Αλλά δυστυχώς η τεχνολογία δεν ήταν ακόμα αρκετά ισχυρή για να βοηθήσει το σύστημα να λειτουργήσει σε μεγάλη κλίμακα. Χρειάζονταν πιο γρήγορους και πιο κατανεμημένους επεξεργαστές, που θα έκαναν πιο έξυπνους και πιο αποτελεσματικούς τους υπολογιστές.

«Θα κόστιζε, δεν ξέρω, ένα εκατομμύριο δολάρια ανά χρήστη» είχε πει, ενώ πίστευε ότι θα χρειάζονταν περίπου 15 χρόνια ανάπτυξης. Σαράντα χρόνια αργότερα ο Kaplan δηλώνει ότι είναι έτοιμοι, όπως και ο υπόλοιπος κόσμος.

Έτσι, σήμερα ο Kaplan είναι αντιπρόεδρος και διακεκριμένος επιστήμονας στην Nuance Communications, εταιρεία που έχει γίνει πιθανόν ο μεγαλύτερος “παίκτης” στην αγορά διεπαφής. Τα προϊόντα της περιλαμβάνουν το in-car Sync σύστημα της Ford, που ήταν κρίσιμο στοιχείο για την ανάπτυξη του Siri, και έχει συνεργασίες με σχεδόν όλες τις βιομηχανίες.

Αλλά και η ίδια η Nuance βρίσκεται σε μια ανταγωνιστική αγορά αυτές τις μέρες, αφού σχεδόν κάθε μεγάλη εταιρεία τεχνολογίας, όπως η Amazon, η Intel, η Microsoft και η Google, κυνηγάνε την  διεπαφή χρήστη μέσω ομιλίας που ο Kaplan και οι συνεργάτες του είχαν φανταστεί πριν από δεκαετίες στο PARC.

Όλοι προσπαθούν να βρεθούν στην κορυφή σε αυτή τη νέα εξέλιξη της σχέσης μας με την τεχνολογία.

Αυτές οι εταιρείες πιστεύουν ότι σύντομα θα μιλάμε στα gadget μας με τον τρόπο που μιλάμε με τους φίλους μας και αυτά θα μας απαντάνε, ενώ θα είναι σε θέση να ακούνε τι λέμε και να καταλαβαίνουν τι εννοούμε.

Αν τώρα αισθάνεστε πως δεν προλαβαίνετε την σημερινή τεχνολογία, τα νέα αυτά εργαλεία θα επεκτείνουν την εμβέλεια της ψηφιακής ζωής σας σε μέρη και καταστάσεις όπου η γραφική διεπαφή χρήστη δεν μπορεί να πάει με ασφάλεια και με ευχάριστο τρόπο. Η ολοένα και πιο ομιλητική φύση της επαφής με τις συσκευές σας θα κάνει τη σχέση σας με την τεχνολογία ακόμα πιο οικεία, πιο πιστή και πιο προσωπική.

Το μεγαλύτερο αποτέλεσμα αυτής της αλλαγής θα γίνει αισθητό έξω από τον πυρήνα του κοινού της Silicon Valley. Αυτό που είδε ο Steve Jobs στο γραφικό περιβάλλον του χρήστη το 1979 ήταν ένας τρόπος για να επεκταθούν οι υπολογιστές στη μαζική αγορά.

Αλλά ακόμη και το γραφικό περιβάλλον αφήνει απέξω ένα τεράστιο αριθμό ανθρώπων. Όσο κομψό και αποτελεσματικό και να είναι, το γραφικό περιβάλλον εξακολουθεί να απαιτεί από τους ανθρώπους να μάθουν τη γλώσσα ενός υπολογιστή, την ώρα που οι υπολογιστές πλέον μαθαίνουν να μιλούν τη δική μας.

Αρχές Ιουνίου, ο Keyvan Mohajer, Διευθύνων Σύμβουλος της SoundHound, παρουσίασε μια νέα εφαρμογή που η εταιρεία του αναπτύσσει κρυφά εδώ και σχεδόν 10 χρόνια.

Μπορεί να έχετε ακουστά το SoundHound, μια δημοφιλή εφαρμογή αναγνώρισης μουσικής, η οποία όμως αποδεικνύεται πως ήταν σε μεγάλο βαθμό απλώς ένας τρόπος τροφοδοσίας με δεδομένα του πραγματικού ονείρου του Mohajer: να δημιουργήσει την καλύτερη εφαρμογή φωνητικής υποστήριξης στον κόσμο, βασισμένη στην τεχνητή νοημοσύνη.

Το πρωτότυπο της εφαρμογής ονομάζεται Hound και της κάνεις ερωτήσεις, μέχρι και κλιμακούμενης πολυπλοκότητας, τις οποίες σου απαντάει σωστά με φωνητική ικανότητα. Το Hound (κυνηγόσκυλο), το οποίο είναι πλέον σε beta, είναι ίσως το πιο γρήγορο και πιο ευέλικτο σύστημα αναγνώρισης φωνής που παρουσιάστηκε μέχρι τώρα.

Στην τελική, τα συστατικά που ο Kaplan ονομάζει “gating technologies” (τεχνολογίες εισόδου), που απαιτούνται για την ισχυρή διεπαφή ομιλίας, είναι λίγο πολύ πλέον διαθέσιμα σε όποιον είναι διατεθημένος να τα πληρώσει.

Είναι μια κλασική ιστορία της τεχνολογικής σύγκλισης: Εξελίξεις στην επεξεργαστική ισχύ, αναγνώριση φωνής, κινητή συνδεσιμότητα, cloud computing και νευρωνικά δίκτυα, έχουν φτάσει όλα σε μια ώριμη κατάσταση περίπου την ίδια ώρα.

Τα εργαλεία αυτά είναι αρκετά καλά, αρκετά φθηνά και αρκετά προσιτά για να κάνουν την ομιλητική διεπαφή πραγματικότητα και να την κάνουν πανταχού παρούσα.

Δεν είναι απλά η δυνατότητα της δημιουργίας της συνομιλητικής τεχνολογίας αλλά και η ανάγκη των χρηστών για αυτήν, καθώς όλο και περισσότερες συσκευές αποκτούν δικτυακή συνδεσιμότητα, ιδιαίτερα εκείνες που δεν έχουν οθόνες όπως φωτιστικά, συναγερμός καπνού κτλπ, όπου χρειαζόμαστε έναν τρόπο να αλληλοεπιδρούμε μαζί τους χωρίς να είναι απαραίτητα τα κουμπιά, τα μενού και τα εικονίδια.

Την ίδια στιγμή, ο κόσμος που ο Jobs έχτισε με την γραφική διεπαφή φτάνει στα φυσικά του όρια. Αφού όπως είπε και ο Kaplan “Η γραφική διεπαφή χρηστών έχει φτάσει στην κορυφή της. Είναι πλέον υπερφορτωμένη.”

Αυτό το φθινόπωρο, ένα μεγάλο άλμα προς τα εμπρός για την διεπαφή μέσω ομιλίας θα γίνει μέσα από την αναβάθμιση των smartphone μας στα καινούρια λειτουργικά iOS 9, Android 6 ή Windows 10.

Επίσης σύντομα, ένα δισεκατομμύριο και πλέον χρήστες του Facebook θα έχουν τη δυνατότητα να ανοίξουν ένα παράθυρο συνομιλίας και να ζητήσουν από το νέο έξυπνο βοηθό σχεδόν οτιδήποτε (με τη χρήση κειμένου προς το παρών).

Τουλάχιστον στην αρχή, η ιδέα πίσω από αυτά τις πρόσφατα ενισχυμένα εικονικά βοηθήματα είναι ότι θα απλοποιήσουν τα περίπλοκα, πολυσταδιακά πράγματα που είμαστε όλοι κουρασμένοι να κάνουμε.

Ο βοηθός σας θα γνωρίζει κάθε γωνιά της κάθε εφαρμογής στο τηλέφωνό σας και θα κάνει τη διάδραση μεταξύ τους με κάθε απλή προφορική εντολή.

Αυτή η τεχνολογία δεν πρόκειται να “σκοτώσει” την οθόνη αφής ή το ποντίκι και το πληκτρολόγιο. Εάν είστε χρήστης του σταθερού υπολογιστή, κατά πάσα πιθανότητα θα συνεχίσετε να δουλεύετε με τον ίδιο τρόπο.

Αλλά για ορισμένες ομάδες ανθρώπων, η άνοδος της διεπαφής μέσω ομιλίας μπορεί να προσφέρει μια διαδρομή στην τεχνολογική επάρκεια που παρακάμπτει σε μεγάλο βαθμό αυτήν την υπάρχουσα τεχνολογία.

Για παράδειγμα, αρκετοί νέοι έχουν ήδη παρακάμψει τα πληκτρολόγια τους και καταγράφουν κείμενα μέσω μικροφώνων, ενώ υπάρχει ένας τεράστιος αριθμός ανθρώπων οι οποίοι δεν έχουν δει ποτέ την γραφική διεπαφή χρήστη.

Αλλά το κυριότερο, είναι ότι άτομα με προβλήματα όρασης, ηλικιωμένοι και άλλες ομάδες ατόμων που αμφισβητούσαν την τεχνολογία ίσως να μπορούν με αυτό τον τρόπο να εργαστούν σε ένα σύγχρονο περιβάλλον με υπολογιστές.

Για τα είκοσι εκατομμύρια ανθρώπων στις ΗΠΑ, οι οποίοι δεν μπορούν να δουν, υπάρχει μόνο μία πραγματική επιλογή για να παραμείνουν συνδεδεμένοι με τους υπολογιστές: μια τεχνολογία 30 χρόνων που ονομάζεται πρόγραμμα ανάγνωσης οθόνης.

Σε μια έρευνά τους η Microsoft και η Nuance έχουν καταλήξει στο ίδιο συμπέρασμα: ένα πρόγραμμα βοήθειας μέσω ομιλίας, θα είναι πλήρως χρήσιμο μόνο όταν είναι παντού. Ο τρόπος για να φτάσει σ αυτό το σημείο, είναι να έχουν τεχνητή νοημοσύνη όσο περισσότερες εφαρμογές και συσκευές είναι δυνατόν.

Για το σκοπό αυτό οι Amazon, Google, Microsoft, Nuance και SoundHound όλες προσφέρουν την ομιλητική τεχνολογική τους πλατφόρμα για προγραμματιστές παντού στον κόσμο. Οι εταιρείες γνωρίζουν ότι εμείς οι χρήστες είμαστε οι υπεύθυνοι για να αναπτύξουμε και να συγκολλήσουμε τους βοηθούς με χρήση ομιλίας, οπότε ετοιμαστείτε να γνωρήσετε μερικές νέες, εξωπραγματικές φωνές.

Wired