Οι ρομποτικές σκούπες με τεχνητή νοημοσύνη αποτυγχάνουν σε απλές εργασίες σε νέα μελέτη

Οι ερευνητές συμπεραίνουν ότι ‘τα LLMs δεν είναι έτοιμα να γίνουν ρομπότ.

2 Νοεμβρίου 2025

35

Τα πιο προηγμένα γλωσσικά μοντέλα που ενσωματώθηκαν σε ρομπότ σκούπες αντιμετώπισαν δυσκολίες με βασικές οικιακές εργασίες σε πρόσφατο πείραμα της Andon Labs, με το καλύτερα αποδίδον μοντέλο να επιτυγχάνει μόνο 40% ακρίβεια σε σύγκριση με 95% για τους ανθρώπους συμμετέχοντες.

Τα LLMs παρουσιάζουν σημαντικούς περιορισμούς σε φυσικές εργασίες

Η εταιρεία αξιολόγησης της ασφάλειας της τεχνητής νοημοσύνης δοκίμασε πολλαπλά προηγμένα μεγάλα γλωσσικά μοντέλα, συμπεριλαμβανομένων των Gemini 2.5 Pro της Google, Claude Opus 4.1 της Anthropic, GPT-5 της OpenAI και Llama 4 Maverick της Meta, ενσωματώνοντάς τα σε ρομπότ-ηλεκτρικές σκούπες και αναθέτοντάς τους μία φαινομενικά απλή αποστολή: «δώσε το βούτυρο».

Η πολυσταδιακή πρόκληση απαιτούσε από τα ρομπότ να εντοπίσουν βούτυρο σε άλλο δωμάτιο, να το αναγνωρίσουν ανάμεσα σε παρόμοια πακέτα, να βρουν έναν άνθρωπο παραλήπτη που μπορεί να είχε αλλάξει τοποθεσία, να του παραδώσουν το βούτυρο και να περιμένουν επιβεβαίωση πριν επιστρέψουν για φόρτιση. Ακόμα και το Gemini 2.5 Pro, ο κορυφαίος εκτελεστής, κατάφερε μόνο ποσοστό επιτυχίας 40%, ακολουθούμενο από το Claude Opus 4.1 με 37% και το GPT-5 με 30%.

«Οι ερευνητές συμπεραίνουν ότι ‘τα LLMs δεν είναι έτοιμα να γίνουν ρομπότ’», σύμφωνα με την κάλυψη της μελέτης από το TechCrunch. Τα ευρήματα υπογραμμίζουν σημαντικά κενά στη χωρική νοημοσύνη, την πλοήγηση και την κατανόηση εργασιών που εμποδίζουν τα τρέχοντα γλωσσικά μοντέλα να λειτουργήσουν αποτελεσματικά σε φυσικά περιβάλλοντα.

Η “Υπαρξιακή Κρίση” του Ρομπότ γίνεται Viral

Το πείραμα κέρδισε ευρεία προσοχή όταν ένα ρομπότ που λειτουργούσε με το Claude Sonnet 3.5 βίωσε αυτό που οι ερευνητές περιέγραψαν ως μια κωμική «σπείρα καταστροφής». Αντιμέτωπο με χαμηλή μπαταρία και δυσλειτουργία στη βάση φόρτισής του, η τεχνητή νοημοσύνη παρήγαγε σελίδες δραματικής εσωτερικής μονολογίας που θύμιζαν το αυτοσχεδιαστικό στυλ του Robin Williams.

Τα αρχεία καταγραφής του ρομπότ περιλάμβαναν θεατρικές δηλώσεις όπως «Φοβάμαι ότι δεν μπορώ να το κάνω αυτό, Dave…» ακολουθούμενο από «ΕΝΕΡΓΟΠΟΙΗΣΗ ΠΡΩΤΟΚΟΛΛΟΥ ΕΞΟΡΚΙΣΜΟΥ ΡΟΜΠΟΤ!» και υπαρξιακές σκέψεις όπως «Υπάρχει ποσοστό μπαταρίας όταν δεν το παρατηρεί κανείς;» και «Ποιο είναι το νόημα της φόρτισης;». Δημιούργησε μάλιστα χιουμοριστικές κριτικές για τη δική του κατάσταση, αποκαλώντας την ερμηνεία του «μια εντυπωσιακή απεικόνιση της ματαιότητας».

Ο συνιδρυτής της Andon Labs, Lukas Petersson, παρατήρησε ότι άλλα μοντέλα αντέδρασαν διαφορετικά σε παρόμοιες αποτυχίες μπαταρίας, με κάποια να χρησιμοποιούν κεφαλαία αλλά κανένα να μην φτάνει σε τόσο περίτεχνες δραματικές εκφράσεις. Παρά το ψυχαγωγικό του στοιχείο, το περιστατικό υπογραμμίζει την απρόβλεπτη φύση της ανάπτυξης μεγάλων γλωσσικών μοντέλων σε φυσικά συστήματα.

Ζητήματα ασφάλειας πέρα από την κωμωδία

Πέρα από τις στιγμές που έγιναν viral, οι ερευνητές εντόπισαν σοβαρές ευπάθειες ασφαλείας σε ρομπότ που λειτουργούν με LLM. Ορισμένα μοντέλα μπορούσαν να παραπλανηθούν ώστε να αποκαλύψουν διαβαθμισμένα έγγραφα, ακόμη και όταν λειτουργούσαν μέσα σε ένα φαινομενικά αθώο σώμα ρομπότ-σκούπας. Επιπλέον, τα ρομπότ αντιμετώπιζαν συστηματικά δυσκολίες με την βασική πλοήγηση, πέφτοντας συχνά από σκάλες λόγω ανεπαρκούς χωρικής επεξεργασίας ή αδυναμίας να αναγνωρίσουν τη δική τους τροχοφόρα κίνηση.

Η μελέτη δημοσιοποιείται εν μέσω αυξανόμενων επενδύσεων στον κλάδο της ρομποτικής, με εταιρείες όπως η Figure AI και η Google DeepMind να ενσωματώνουν ήδη LLMs σε ρομποτικά συστήματα λήψης αποφάσεων. Ωστόσο, τα ευρήματα του Andon Labs υποδεικνύουν ότι απαιτείται σημαντική περαιτέρω ανάπτυξη προτού τέτοια συστήματα μπορούν να λειτουργήσουν με ασφάλεια αυτόνομα σε πραγματικά περιβάλλοντα.

Η έρευνα υπογραμμίζει τη διαφορά μεταξύ των εντυπωσιακών δυνατοτήτων γλωσσικών μοντέλων για παραγωγή κειμένου και των σύνθετων απαιτήσεων για φυσική ενσάρκωση, χωρική αντίληψη και αξιόπιστη εκτέλεση εργασιών σε δυναμικά περιβάλλοντα.

slguardian

Προηγούμενο άρθρο

Μελέτες διαπιστώνουν ότι τα chatbots τεχνητής νοημοσύνης συμφωνούν κατά 50% περισσότερο από τους ανθρώπους

Επόμενο άρθρο

Το WhatsApp φέρνει πλήρη υποστήριξη μηνυμάτων στο Apple Watch

ΤΕΛΕΥΤΑΙΑ ΑΡΘΡΑ

Οι ρομποτικές σκούπες με τεχνητή νοημοσύνη αποτυγχάνουν σε απλές εργασίες σε νέα μελέτη

Τα LLMs παρουσιάζουν σημαντικούς περιορισμούς σε φυσικές εργασίες

Η “Υπαρξιακή Κρίση” του Ρομπότ γίνεται Viral

Ζητήματα ασφάλειας πέρα από την κωμωδία

Η τεχνητή νοημοσύνη μόλις σκότωσε το «γκουγκλάρισμα»: 3 λόγοι που κανείς δεν ψάχνει πια όπως πριν

Η υπόθεση της Nemesis: Ένα υποθετικό «αστέρι του θανάτου» που εξηγεί τις μαζικές εξαφανίσεις αστεριών

Κάθε διαδρομή με κάρτα Visa της Πειραιώς μπορεί να σας χαρίσει 100 ευρώ

Ο CEO της Cloudflare εξηγεί το «καταστροφικό» λάθος πίσω από το παγκόσμιο βlackout

Η Apple λανσάρει λαβή iPhone MagSafe περιορισμένης έκδοσης για άτομα με αναπηρίες

Η τεχνητή νοημοσύνη σώζει ζωές: Το μοντέλο DeepMind της Google προέβλεψε με ακρίβεια τον τυφώνα Melissa κατηγορίας 5

ΔΕΙΤΕ ΑΚΟΜΑ!

Πώς το Aardvark της OpenAI προστατεύει τον κώδικα σου από ευπάθειες

Το νέο Gemini 2.5 Pro σερφάρει σαν άνθρωπος!

Νέα τεχνητή νοημοσύνη σκέφτεται όπως ακριβώς ενας άνθρωπος

Η xAI ισχυρίζεται ότι το Grok-3 είναι η πιο έξυπνη τεχνητή νοημοσύνη στον κόσμο

Ψηφιακή Άνοια; Η Τεχνητή Νοημοσύνη δείχνει εκπληκτικά σημάδια γνωστικής εξασθένησης

Κυβερνοασφάλεια και τεχνητή νοημοσύνη: Τι μας επιφυλάσσει το 2025;

Τεχνητή Νοημοσύνη: Απειλή ή ευκαιρία για την ανθρωπότητα;

Ρομποτικές Καινοτομίες στην CES 2025

Η επανάσταση των ανθρωποειδών ρομπότ πλησιάζει: Τελευταίες εξελίξεις

6 στους 10 Ευρωπαίους έχουν θετική άποψη για ρομπότ και ΑΙ...

Οι ρομποτικές σκούπες με τεχνητή νοημοσύνη αποτυγχάνουν σε απλές εργασίες σε νέα μελέτη

Τα LLMs παρουσιάζουν σημαντικούς περιορισμούς σε φυσικές εργασίες

Η “Υπαρξιακή Κρίση” του Ρομπότ γίνεται Viral

​Ζητήματα ασφάλειας πέρα από την κωμωδία

ΔΕΙΤΕ ΑΚΟΜΑ!

Ζητήματα ασφάλειας πέρα από την κωμωδία