ELLMER, ο… barista του μέλλοντος
Ξεχάστε όσα γνωρίζατε έως σήμερα για τα ρομποτικά συστήματα, η δραστηριότητα των οποίων περιορίζεται σε υπόγεια εργοστασίων.
Ένας νέος ρομποτικός βραχίονας που λειτουργεί με ΑΙ, μπορεί πλέον να προετοιμάσει τον πρωινό σας καφέ, ενώ προσαρμόζεται απρόσκοπτα στην κουζίνα σας – ακόμα και σε τυχόν λάθη που μπορεί να κάνετε, όπως πχ να ρίξετε κάτω την κούπα κατά τη διάρκεια του pouring.
Ερευνητές στο Πανεπιστήμιο του Εδιμβούργου ανέπτυξαν ένα εξελιγμένο ρομποτικό σύστημα που μπορεί να ακολουθεί λεκτικές εντολές, να περιηγείται σε άγνωστο περιβάλλον και να εκτελεί σύνθετες εργασίες που απαιτούν γρήγορη προσαρμογή σε απροσδόκητες αλλαγές.
Η μελέτη, που δημοσιεύτηκε την Τετάρτη στο Nature Machine Intelligence, δείχνει πώς ο συνδυασμός της προηγμένης επεξεργασίας γλώσσας με την ακριβή αισθητηριακή ανάδραση δημιουργεί μηχανήματα ικανά να λειτουργούν σε απρόβλεπτα περιβάλλοντα.
“Η ανθρώπινη νοημοσύνη πηγάζει από την ενσωμάτωση της λογικής, της κίνησης και της αντίληψης, ωστόσο η τεχνητή νοημοσύνη και η ρομποτική έχουν προχωρήσει συχνά χωριστά. Η εργασία μας καταδεικνύει τη δύναμη του συνδυασμού αυτών των προσεγγίσεων και υπογραμμίζει την αυξανόμενη ανάγκη να τεθούν στο τραπέζι οι κοινωνικές τους επιπτώσεις” δήλωσε ο επικεφαλής ερευνητής Ruaridh Mon-Williams της Σχολής Πληροφορικής του Πανεπιστημίου του Εδιμβούργου
Το ρομπότ της ομάδας του Εδιμβούργου, που ονομάζεται ELLMER (Embodied LLM-enabled Robot), σημαίνει μια σημαντική αλλαγή στον τρόπο με τον οποίο οι μηχανές είναι σχεδιασμένες να κατανοούν και να αλληλεπιδρούν με τον κόσμο. Σε αντίθεση με τα “παραδοσιακά” ρομπότ που βασίζονται σε προ-προγραμματισμένες αποκρίσεις, το ELLMER συνδυάζει ένα μοντέλο LLM παρόμοιο με το ChatGPT με εξελιγμένους αισθητήρες που παρέχουν συνεχή οπτική και απτική ανάδραση.
Ο ρομποτικός βραχίονας με τις επτά του αρθρώσεις μπορεί να ανταποκριθεί σε εντολές υψηλού επιπέδου όπως “Είμαι κουρασμένος, μπορείς να μου φτιάξεις ένα ζεστό ρόφημα και να διακοσμήσεις το πιάτο του με ένα τυχαίο ζώο της επιλογής σου;”. Το γλωσσικό μοντέλο του συστήματος ερμηνεύει αυτό το αίτημα, και αποφασίζει ότι ο καφές θα ήταν κατάλληλος για ένα κουρασμένο άτομο, ενώ προχωρά στις σχετικές ενέργειες.
Παράλληλα, ένας αισθητήρας δύναμης στον «καρπό» του ρομπότ ανιχνεύει πόση πίεση ασκεί όταν ανοίγει συρτάρια, ρίχνει νερό ή τραβάει τα πιάτα. Εν τω μεταξύ, μια κάμερα παρέχει οπτικές πληροφορίες σχετικά με τις θέσεις και τις κινήσεις των αντικειμένων. Αυτές οι αισθητηριακές πληροφορίες ανατροφοδοτούν το σύστημα σε πραγματικό χρόνο, επιτρέποντας στο ELLMER να προσαρμόσει τις ενέργειές του αμέσως – όπως να προσαρμόσει τη γωνία έκχυσης εάν κάποιος μετακινήσει ένα φλιτζάνι κατά τη διάρκεια της παρασκευής του καφέ.
Πέρα από πρακτικές εργασίες, το ELLMER επιδεικνύει δημιουργικές ικανότητες μέσω μιας τεχνικής που ονομάζεται Ανάκτηση-Αυξημένη Γενιά Επαυξημένης Ανάκτησης (RAG). Αυτή η τεχνική του επιτρέπει να έχει πρόσβαση και να εφαρμόζει σχετικά παραδείγματα από μια βάση γνώσης – ακριβώς όπως οι άνθρωποι αντλούν από τη συσσωρευμένη πολιτιστική γνώση.
Κατά τη διάρκεια της επίδειξης, όταν του ζητήθηκε να διακοσμήσει ένα πιάτο με ένα «τυχαίο ζώο», το σύστημα χρησιμοποίησε ένα μοντέλο δημιουργίας εικόνας για να δημιουργήσει μια σιλουέτα ζώου και στη συνέχεια σχεδίασε με ακρίβεια το περίγραμμα σε ένα πιάτο χρησιμοποιώντας σταθερή πίεση, ελεγχόμενη με ανάδραση δύναμης.
Παντως, ενώ το ELLMER αντιμετώπισε με επιτυχία την πρόκληση της παρασκευής καφέ, οι ερευνητές αναγνωρίζουν ότι οι περιορισμοί είναι ακόμα αρκετοί. Το τρέχον σύστημα απαιτεί εύλογα ακατάστατα περιβάλλοντα και μερικές φορές δυσκολεύεται όταν έρχεται αντιμέτωπο με οπτικά πολύπλοκες σκηνές.
Όπως και να έχει, το συγκεκριμένο ρομπότ αποτελεί μια “ματιά” στο πώς θα είναι ο barista του μέλλοντος.