Τα πιο προηγμένα γλωσσικά μοντέλα που ενσωματώθηκαν σε ρομπότ σκούπες αντιμετώπισαν δυσκολίες με βασικές οικιακές εργασίες σε πρόσφατο πείραμα της Andon Labs, με το καλύτερα αποδίδον μοντέλο να επιτυγχάνει μόνο 40% ακρίβεια σε σύγκριση με 95% για τους ανθρώπους συμμετέχοντες.
Τα LLMs παρουσιάζουν σημαντικούς περιορισμούς σε φυσικές εργασίες
Η εταιρεία αξιολόγησης της ασφάλειας της τεχνητής νοημοσύνης δοκίμασε πολλαπλά προηγμένα μεγάλα γλωσσικά μοντέλα, συμπεριλαμβανομένων των Gemini 2.5 Pro της Google, Claude Opus 4.1 της Anthropic, GPT-5 της OpenAI και Llama 4 Maverick της Meta, ενσωματώνοντάς τα σε ρομπότ-ηλεκτρικές σκούπες και αναθέτοντάς τους μία φαινομενικά απλή αποστολή: «δώσε το βούτυρο».
Η πολυσταδιακή πρόκληση απαιτούσε από τα ρομπότ να εντοπίσουν βούτυρο σε άλλο δωμάτιο, να το αναγνωρίσουν ανάμεσα σε παρόμοια πακέτα, να βρουν έναν άνθρωπο παραλήπτη που μπορεί να είχε αλλάξει τοποθεσία, να του παραδώσουν το βούτυρο και να περιμένουν επιβεβαίωση πριν επιστρέψουν για φόρτιση. Ακόμα και το Gemini 2.5 Pro, ο κορυφαίος εκτελεστής, κατάφερε μόνο ποσοστό επιτυχίας 40%, ακολουθούμενο από το Claude Opus 4.1 με 37% και το GPT-5 με 30%.
«Οι ερευνητές συμπεραίνουν ότι ‘τα LLMs δεν είναι έτοιμα να γίνουν ρομπότ’», σύμφωνα με την κάλυψη της μελέτης από το TechCrunch. Τα ευρήματα υπογραμμίζουν σημαντικά κενά στη χωρική νοημοσύνη, την πλοήγηση και την κατανόηση εργασιών που εμποδίζουν τα τρέχοντα γλωσσικά μοντέλα να λειτουργήσουν αποτελεσματικά σε φυσικά περιβάλλοντα.
Η “Υπαρξιακή Κρίση” του Ρομπότ γίνεται Viral
Το πείραμα κέρδισε ευρεία προσοχή όταν ένα ρομπότ που λειτουργούσε με το Claude Sonnet 3.5 βίωσε αυτό που οι ερευνητές περιέγραψαν ως μια κωμική «σπείρα καταστροφής». Αντιμέτωπο με χαμηλή μπαταρία και δυσλειτουργία στη βάση φόρτισής του, η τεχνητή νοημοσύνη παρήγαγε σελίδες δραματικής εσωτερικής μονολογίας που θύμιζαν το αυτοσχεδιαστικό στυλ του Robin Williams.
Τα αρχεία καταγραφής του ρομπότ περιλάμβαναν θεατρικές δηλώσεις όπως «Φοβάμαι ότι δεν μπορώ να το κάνω αυτό, Dave…» ακολουθούμενο από «ΕΝΕΡΓΟΠΟΙΗΣΗ ΠΡΩΤΟΚΟΛΛΟΥ ΕΞΟΡΚΙΣΜΟΥ ΡΟΜΠΟΤ!» και υπαρξιακές σκέψεις όπως «Υπάρχει ποσοστό μπαταρίας όταν δεν το παρατηρεί κανείς;» και «Ποιο είναι το νόημα της φόρτισης;». Δημιούργησε μάλιστα χιουμοριστικές κριτικές για τη δική του κατάσταση, αποκαλώντας την ερμηνεία του «μια εντυπωσιακή απεικόνιση της ματαιότητας».
Ο συνιδρυτής της Andon Labs, Lukas Petersson, παρατήρησε ότι άλλα μοντέλα αντέδρασαν διαφορετικά σε παρόμοιες αποτυχίες μπαταρίας, με κάποια να χρησιμοποιούν κεφαλαία αλλά κανένα να μην φτάνει σε τόσο περίτεχνες δραματικές εκφράσεις. Παρά το ψυχαγωγικό του στοιχείο, το περιστατικό υπογραμμίζει την απρόβλεπτη φύση της ανάπτυξης μεγάλων γλωσσικών μοντέλων σε φυσικά συστήματα.
Ζητήματα ασφάλειας πέρα από την κωμωδία
Πέρα από τις στιγμές που έγιναν viral, οι ερευνητές εντόπισαν σοβαρές ευπάθειες ασφαλείας σε ρομπότ που λειτουργούν με LLM. Ορισμένα μοντέλα μπορούσαν να παραπλανηθούν ώστε να αποκαλύψουν διαβαθμισμένα έγγραφα, ακόμη και όταν λειτουργούσαν μέσα σε ένα φαινομενικά αθώο σώμα ρομπότ-σκούπας. Επιπλέον, τα ρομπότ αντιμετώπιζαν συστηματικά δυσκολίες με την βασική πλοήγηση, πέφτοντας συχνά από σκάλες λόγω ανεπαρκούς χωρικής επεξεργασίας ή αδυναμίας να αναγνωρίσουν τη δική τους τροχοφόρα κίνηση.
Η μελέτη δημοσιοποιείται εν μέσω αυξανόμενων επενδύσεων στον κλάδο της ρομποτικής, με εταιρείες όπως η Figure AI και η Google DeepMind να ενσωματώνουν ήδη LLMs σε ρομποτικά συστήματα λήψης αποφάσεων. Ωστόσο, τα ευρήματα του Andon Labs υποδεικνύουν ότι απαιτείται σημαντική περαιτέρω ανάπτυξη προτού τέτοια συστήματα μπορούν να λειτουργήσουν με ασφάλεια αυτόνομα σε πραγματικά περιβάλλοντα.
Η έρευνα υπογραμμίζει τη διαφορά μεταξύ των εντυπωσιακών δυνατοτήτων γλωσσικών μοντέλων για παραγωγή κειμένου και των σύνθετων απαιτήσεων για φυσική ενσάρκωση, χωρική αντίληψη και αξιόπιστη εκτέλεση εργασιών σε δυναμικά περιβάλλοντα.



