Η Amazon ετοιμάζεται να επαναλανσάρει τη φωνητική ψηφιακή βοηθό της Alexa ως «πράκτορα» τεχνητής νοημοσύνης που μπορεί να ολοκληρώσει πρακτικές εργασίες, καθώς ο τεχνολογικός όμιλος τρέχει να επιλύσει τις προκλήσεις που έχουν δυσκολέψει την αναμόρφωση της τεχνητής νοημοσύνης του συστήματος.
Η εταιρεία των 2,4 εκατ. δολαρίων προσπαθεί εδώ και δύο χρόνια να επανασχεδιάσει την Alexa, το σύστημα συνομιλίας της που είναι ενσωματωμένο σε 500 εκατ. καταναλωτικές συσκευές παγκοσμίως, ώστε ο «εγκέφαλος» του λογισμικού να μεταμοσχευθεί με γεννητική τεχνητή νοημοσύνη.
Ο Rohit Prasad, ο οποίος ηγείται της ομάδας τεχνητής γενικής νοημοσύνης (AGI) στην Amazon, δήλωσε στους Financial Times ότι η φωνητική βοηθός χρειάζεται ακόμη να ξεπεράσει αρκετά τεχνικά εμπόδια πριν από την ανάπτυξη.
Αυτό περιλαμβάνει την επίλυση του προβλήματος των «ψευδαισθήσεων» ή των κατασκευασμένων απαντήσεων, την ταχύτητα απόκρισης ή «λανθάνουσα κατάσταση» και την αξιοπιστία. «Οι ψευδαισθήσεις πρέπει να είναι κοντά στο μηδέν», δήλωσε ο Prasad. «Είναι ακόμη ένα ανοιχτό πρόβλημα στη βιομηχανία, αλλά εργαζόμαστε εξαιρετικά σκληρά γι’ αυτό».
Το όραμα των υπευθύνων της Amazon είναι να μετατρέψουν την Alexa, η οποία επί του παρόντος χρησιμοποιείται ακόμη για ένα στενό σύνολο απλών εργασιών, όπως η αναπαραγωγή μουσικής και η ρύθμιση συναγερμών, σε ένα «πρακτορικό» προϊόν που λειτουργεί ως εξατομικευμένος θυρωρός. Αυτό θα μπορούσε να περιλαμβάνει οτιδήποτε, από την πρόταση εστιατορίων μέχρι τη ρύθμιση των φώτων στην κρεβατοκάμαρα με βάση τους κύκλους ύπνου ενός ατόμου.
Ο επανασχεδιασμός της Alexa βρίσκεται σε εξέλιξη από την έναρξη του ChatGPT της OpenAI, που υποστηρίζεται από τη Microsoft, στα τέλη του 2022. Ενώ η Microsoft, η Google, η Meta και άλλες εταιρείες έχουν ενσωματώσει γρήγορα τη γενεσιουργό τεχνητή νοημοσύνη στις υπολογιστικές τους πλατφόρμες και έχουν βελτιώσει τις υπηρεσίες λογισμικού τους, οι επικριτές έχουν αμφισβητήσει κατά πόσον η Amazon μπορεί να επιλύσει εγκαίρως τους τεχνικούς και οργανωτικούς της αγώνες για να ανταγωνιστεί τους ανταγωνιστές της.
Σύμφωνα με πολλούς υπαλλήλους που έχουν εργαστεί στις ομάδες φωνητικών βοηθών της Amazon τα τελευταία χρόνια, η προσπάθειά της έχει ταλαιπωρηθεί από επιπλοκές και ακολουθεί χρόνια έρευνας και ανάπτυξης της AI.
Αρκετοί πρώην εργαζόμενοι δήλωσαν ότι η μακρά αναμονή για την ανάπτυξη οφείλεται σε μεγάλο βαθμό στις απροσδόκητες δυσκολίες που συνεπάγεται η αλλαγή και ο συνδυασμός των απλούστερων, προκαθορισμένων αλγορίθμων πάνω στους οποίους βασίστηκε η Alexa, με πιο ισχυρά αλλά απρόβλεπτα μεγάλα γλωσσικά μοντέλα.
Σε απάντηση, η Amazon δήλωσε ότι «εργάζεται σκληρά για να επιτρέψει ακόμη πιο προληπτική και ικανή βοήθεια» της φωνητικής βοηθού της. Πρόσθεσε ότι μια τεχνική εφαρμογή αυτής της κλίμακας, σε μια ζωντανή υπηρεσία και μια σουίτα συσκευών που χρησιμοποιούνται από πελάτες σε όλο τον κόσμο, ήταν πρωτοφανής και δεν ήταν τόσο απλή όσο η επικάλυψη ενός LLM στην υπηρεσία Alexa.
Ο Prasad, ο πρώην επικεφαλής αρχιτέκτονας της Alexa, δήλωσε ότι η απελευθέρωση τον περασμένο μήνα των εσωτερικών μοντέλων Amazon Nova της εταιρείας – με επικεφαλής την ομάδα του AGI – είχε εν μέρει ως κίνητρο τις συγκεκριμένες ανάγκες για βέλτιστη ταχύτητα, κόστος και αξιοπιστία, προκειμένου να βοηθηθούν εφαρμογές AI όπως η Alexa «να φτάσουν σε αυτό το τελευταίο μίλι, το οποίο είναι πραγματικά δύσκολο».
Για να λειτουργήσει ως πράκτορας, ο «εγκέφαλος» της Alexa πρέπει να είναι σε θέση να καλεί εκατοντάδες λογισμικά και υπηρεσίες τρίτων, δήλωσε ο Prasad.
«Μερικές φορές υποτιμούμε πόσες υπηρεσίες είναι ενσωματωμένες στην Alexa, και είναι ένας τεράστιος αριθμός. Αυτές οι εφαρμογές δέχονται δισεκατομμύρια αιτήματα την εβδομάδα, οπότε όταν προσπαθείτε να κάνετε αξιόπιστες ενέργειες με ταχύτητα . . . πρέπει να είστε σε θέση να το κάνετε με πολύ αποδοτικό τρόπο», πρόσθεσε.
Η πολυπλοκότητα προέρχεται από τους χρήστες της Alexa που περιμένουν γρήγορες απαντήσεις καθώς και εξαιρετικά υψηλά επίπεδα ακρίβειας. Τέτοιες ιδιότητες έρχονται σε αντίθεση με την εγγενή πιθανολογική φύση της σημερινής γεννητικής τεχνητής νοημοσύνης, ενός στατιστικού λογισμικού που προβλέπει λέξεις με βάση την ομιλία και τα γλωσσικά μοτίβα.
Ορισμένοι πρώην υπάλληλοι επισημαίνουν επίσης ότι αγωνίζονται να διατηρήσουν τα αρχικά χαρακτηριστικά της βοηθού, συμπεριλαμβανομένης της συνέπειας και της λειτουργικότητάς της, ενώ ταυτόχρονα την εμπλουτίζουν με νέα γενετικά χαρακτηριστικά, όπως η δημιουργικότητα και ο ελεύθερος διάλογος.
Λόγω της πιο εξατομικευμένης, ομιλητικής φύσης των LLM, η εταιρεία σχεδιάζει επίσης να προσλάβει ειδικούς για να διαμορφώσουν την προσωπικότητα, τη φωνή και τη διατύπωση της AI, ώστε να παραμείνει οικεία στους χρήστες της Alexa, σύμφωνα με ένα άτομο που γνωρίζει το θέμα.
Ένα πρώην υψηλόβαθμο μέλος της ομάδας Alexa δήλωσε ότι ενώ οι LLMs είναι πολύ εξελιγμένες, ενέχουν κινδύνους, όπως η παραγωγή απαντήσεων που είναι «εντελώς επινοημένες μερικές φορές».
«Στην κλίμακα που λειτουργεί η Amazon, αυτό θα μπορούσε να συμβεί μεγάλο αριθμό φορές την ημέρα», είπαν, βλάπτοντας το εμπορικό σήμα και τη φήμη της.
Τον Ιούνιο, ο Mihail Eric, πρώην επιστήμονας μηχανικής μάθησης στην Alexa και ιδρυτικό μέλος της «ομάδας διαλογικής μοντελοποίησης», δήλωσε δημοσίως ότι η Amazon είχε «χάσει τη μπάλα» στο να γίνει «ο αδιαμφισβήτητος ηγέτης της αγοράς στη διαλογική τεχνητή νοημοσύνη» με την Alexa.
Ο Eric είπε ότι παρά το γεγονός ότι είχε ισχυρό επιστημονικό ταλέντο και «τεράστιους» οικονομικούς πόρους, η εταιρεία είχε «γεμίσει με τεχνικά και γραφειοκρατικά προβλήματα», υποδηλώνοντας ότι «τα δεδομένα ήταν ανεπαρκώς σχολιασμένα» και «η τεκμηρίωση ήταν είτε ανύπαρκτη είτε παρωχημένη».
Σύμφωνα με δύο πρώην υπαλλήλους που εργάζονταν στην τεχνητή νοημοσύνη που σχετίζεται με την Alexa, η ιστορική τεχνολογία στην οποία στηρίζεται η φωνητική βοηθός ήταν άκαμπτη και δύσκολο να αλλάξει γρήγορα, επιβαρυμένη από μια δυσκίνητη και ανοργάνωτη βάση κώδικα και μια ομάδα μηχανικών «πολύ αραιή».
Το αρχικό λογισμικό της Alexa, το οποίο χτίστηκε πάνω σε τεχνολογία που αποκτήθηκε από τη βρετανική νεοφυή εταιρεία Evi το 2012, ήταν μια μηχανή απάντησης ερωτήσεων που λειτουργούσε αναζητώντας μέσα σε ένα καθορισμένο σύμπαν γεγονότων για να βρει τη σωστή απάντηση, όπως ο καιρός της ημέρας ή ένα συγκεκριμένο τραγούδι στη μουσική σας βιβλιοθήκη.
Η νέα Alexa χρησιμοποιεί ένα μπουκέτο διαφορετικών μοντέλων τεχνητής νοημοσύνης για να αναγνωρίζει και να μεταφράζει τα φωνητικά ερωτήματα και να παράγει απαντήσεις, καθώς και για να εντοπίζει παραβιάσεις της πολιτικής, όπως η λήψη ακατάλληλων απαντήσεων και ψευδαισθήσεων. Η δημιουργία λογισμικού για τη μετάφραση μεταξύ των παλαιών συστημάτων και των νέων μοντέλων τεχνητής νοημοσύνης αποτέλεσε σημαντικό εμπόδιο στην ενσωμάτωση της Alexa-LLM.
Τα μοντέλα περιλαμβάνουν το εσωτερικό λογισμικό της Amazon, συμπεριλαμβανομένων των πιο πρόσφατων μοντέλων Nova, καθώς και το Claude, το μοντέλο AI της νεοφυούς εταιρείας Anthropic, στο οποίο η Amazon έχει επενδύσει 8 δισ. δολάρια κατά τη διάρκεια των τελευταίων 18 μηνών.
«[Τ]ο πιο δύσκολο πράγμα σχετικά με τους πράκτορες τεχνητής νοημοσύνης είναι να διασφαλίσουμε ότι είναι ασφαλείς, αξιόπιστοι και προβλέψιμοι», δήλωσε ο διευθύνων σύμβουλος της Anthropic, Dario Amodei, στους FT πέρυσι.
Το λογισμικό τεχνητής νοημοσύνης που μοιάζει με πράκτορα πρέπει να φτάσει στο σημείο «όπου . . οι άνθρωποι να μπορούν πραγματικά να εμπιστεύονται το σύστημα», πρόσθεσε. «Μόλις φτάσουμε σε αυτό το σημείο, τότε θα κυκλοφορήσουμε αυτά τα συστήματα».
Ένας σημερινός υπάλληλος δήλωσε ότι χρειάζονται ακόμη περισσότερα βήματα, όπως η επικάλυψη φίλτρων παιδικής ασφάλειας και η δοκιμή προσαρμοσμένων ενσωματώσεων με την Alexa, όπως έξυπνα φώτα και το κουδούνι Ring.
«Η αξιοπιστία είναι το ζητούμενο – το να καταφέρουμε να λειτουργεί κοντά στο 100% του χρόνου», πρόσθεσε ο υπάλληλος. «Αυτός είναι ο λόγος για τον οποίο βλέπετε εμάς … ή την Apple ή την Google να αποστέλλουν αργά και σταδιακά».
Πολυάριθμα τρίτα μέρη που αναπτύσσουν «δεξιότητες» ή λειτουργίες για την Alexa δήλωσαν ότι δεν ήταν σίγουροι πότε θα κυκλοφορήσει η νέα συσκευή με δυνατότητα δημιουργίας τεχνητής νοημοσύνης και πώς θα δημιουργήσουν νέες λειτουργίες για αυτήν.
«Περιμένουμε τις λεπτομέρειες και την κατανόηση», δήλωσε ο Τόμας Λίντγκρεν, συνιδρυτής της σουηδικής εταιρείας ανάπτυξης περιεχομένου Wanderword. «Όταν αρχίσαμε να συνεργαζόμαστε μαζί τους ήταν πολύ πιο ανοιχτοί … στη συνέχεια, με τον καιρό, άλλαξαν».
Ένας άλλος συνεργάτης δήλωσε ότι μετά από μια αρχική περίοδο «πίεσης» που ασκήθηκε στους προγραμματιστές από την Amazon για να αρχίσουν να ετοιμάζονται για την επόμενη γενιά της Alexa, τα πράγματα είχαν ησυχάσει.
Μια διαρκής πρόκληση για την ομάδα Alexa της Amazon – η οποία επλήγη από σημαντικές απολύσεις το 2023 – είναι το πώς θα βγάλει χρήματα. Η εξεύρεση τρόπου να γίνουν οι βοηθοί «αρκετά φθηνοί ώστε να λειτουργούν σε κλίμακα» θα είναι ένα σημαντικό έργο, δήλωσε ο Jared Roesch, συνιδρυτής της ομάδας γεννητικής τεχνητής νοημοσύνης OctoAI.
Οι επιλογές που συζητούνται περιλαμβάνουν τη δημιουργία μιας νέας συνδρομητικής υπηρεσίας της Alexa ή να παίρνει ένα μερίδιο από τις πωλήσεις αγαθών και υπηρεσιών, δήλωσε ένας πρώην υπάλληλος της Alexa.
Ο Prasad δήλωσε ότι στόχος της Amazon ήταν να δημιουργήσει μια ποικιλία μοντέλων AI που θα μπορούσαν να λειτουργήσουν ως «δομικά στοιχεία» για μια ποικιλία εφαρμογών πέρα από την Alexa.
«Αυτό στο οποίο πάντα βασιζόμαστε είναι οι πελάτες και η πρακτική AI, δεν κάνουμε επιστήμη για χάρη της επιστήμης», δήλωσε ο Prasad. «Το κάνουμε αυτό … για να προσφέρουμε αξία και αντίκτυπο στους πελάτες, το οποίο σε αυτή την εποχή της δημιουργικής AI γίνεται πιο σημαντικό από ποτέ, επειδή οι πελάτες θέλουν να δουν μια απόδοση της επένδυσης».
Madhumita Murgia και Camilla Hodgson, Financial Times
Τ.Σ.

