Η Meta έκανε αρκετές σημαντικές ανακοινώσεις για τη Ρομποτική και τα ενσωματωμένα συστήματα Τεχνητής Νοημοσύνης αυτή την εβδομάδα. Σε αυτές συμπεριλαμβάνονται η κυκλοφορία συγκριτικών δεικτών (benchmarks) και εργαλείων για την καλύτερη κατανόηση και αλληλεπίδραση με τον φυσικό κόσμο.
Τα Sparsh, Digit 360 και Digit Plexus, τα τρία ερευνητικά εργαλεία που κυκλοφόρησε η Meta, εστιάζουν στην αντίληψη της αφής, την επιδεξιότητα των ρομπότ και την αλληλεπίδραση ανθρώπου-ρομπότ. Η Meta κυκλοφορεί επίσης το PARTNR, ένα νέο benchmark για την αξιολόγηση του σχεδιασμού και της συλλογιστικής στη συνεργασία ανθρώπου-ρομπότ.
Η κυκλοφορία έρχεται καθώς οι πρόοδοι στα θεμελιώδη μοντέλα έχουν ανανεώσει το ενδιαφέρον για τη Ρομποτική και οι εταιρείες Τεχνητής Νοημοσύνης επεκτείνουν σταδιακά τον ανταγωνισμό τους από την ψηφιακή σφαίρα στον φυσικό κόσμο.
Έχουν ανανεωθεί οι ελπίδες στη βιομηχανία ότι με τη βοήθεια θεμελιωδών μοντέλων, όπως τα μεγάλα γλωσσικά μοντέλα (LLM) και τα μοντέλα όρασης-γλώσσας (VLM), τα ρομπότ θα μπορούν να φέρουν εις πέρας πιο σύνθετες εργασίες που απαιτούν συλλογισμό και προγραμματισμό.
Sparsh
Το Sparsh, το οποίο δημιουργήθηκε σε συνεργασία με το Πανεπιστήμιο της Ουάσινγκτον και το Πανεπιστήμιο Carnegie Mellon, είναι μια οικογένεια μοντέλων κωδικοποιητών για αισθητήρες αφής που βασίζονται στην όραση. Σκοπός του είναι να παρέχει στα ρομπότ δυνατότητες αντίληψης της αφής. Η αντίληψη της αφής είναι ζωτικής σημασίας για εργασίες στη Ρομποτική, όπως ο προσδιορισμός της πίεσης που μπορεί να ασκηθεί σε ένα συγκεκριμένο αντικείμενο για να μην το καταστρέψει.
Η κλασική προσέγγιση για την ενσωμάτωση αισθητήρων αφής με βάση την όραση σε εργασίες των ρομπότ είναι η χρήση επισημασμένων δεδομένων για την εκπαίδευση προσαρμοσμένων μοντέλων που μπορούν να προβλέψουν χρήσιμες καταστάσεις. Αυτή η προσέγγιση δεν γενικεύεται σε διαφορετικούς αισθητήρες και εργασίες.
Η Meta περιγράφει το Sparsh ως ένα μοντέλο γενικής χρήσης που μπορεί να εφαρμοστεί σε διαφορετικούς τύπους αισθητήρων αφής που βασίζονται στην όραση και σε διάφορες εργασίες. Για να ξεπεράσουν τις προκλήσεις που αντιμετώπιζαν οι προηγούμενες γενιές μοντέλων αντίληψης της αφής, οι ερευνητές εκπαίδευσαν τα μοντέλα Sparsh μέσω αυτοεπιβλεπόμενης μάθησης (SSL), η οποία καταργεί την ανάγκη για επισημειωμένα δεδομένα.
Το μοντέλο έχει εκπαιδευτεί σε περισσότερες από 460.000 απτικές εικόνες, ενοποιημένες από διαφορετικά σύνολα δεδομένων. Σύμφωνα με τα πειράματα των ερευνητών, το Sparsh επιτυγχάνει κατά μέσο όρο 95,1% βελτίωση σε σχέση με τα μοντέλα τελικού ελέγχου που αφορούν εργασίες και αισθητήρες, υπό περιορισμένο προϋπολογισμό επισημασμένων δεδομένων. Οι ερευνητές δημιούργησαν διαφορετικές εκδόσεις του Sparsh με βάση διάφορες αρχιτεκτονικές, συμπεριλαμβανομένων των μοντέλων I-JEPA και DINO της Meta.
Digit 360
Εκτός από την αξιοποίηση των υφιστάμενων δεδομένων, η Meta κυκλοφορεί επίσης εξοπλισμό για τη συλλογή πλούσιων απτικών πληροφοριών από το φυσικό σώμα. Το Digit 360 είναι ένας τεχνητός αισθητήρας αφής σε σχήμα δακτύλου με περισσότερα από 18 χαρακτηριστικά ανίχνευσης. Ο αισθητήρας διαθέτει πάνω από 8 εκατομμύρια taxels για την καταγραφή παντοκατευθυντικών και κοκκωδών παραμορφώσεων στην επιφάνεια της άκρης του δακτύλου. Το Digit 360 καταγράφει διάφορες αισθητηριακές λειτουργίες για να παρέχει μια πλουσιότερη κατανόηση του περιβάλλοντος και των αλληλεπιδράσεων αντικειμένων.
Το Digit 360 διαθέτει επίσης ενσωματωμένα στη συσκευή μοντέλα AI για τη μείωση της εξάρτησης από τους cloud-based servers. Αυτό του επιτρέπει να επεξεργάζεται πληροφορίες τοπικά και να ανταποκρίνεται στην αφή με ελάχιστη καθυστέρηση, παρόμοια με τα αντανακλαστικά του ανθρώπου και των ζώων.
«Πέρα από την προώθηση της επιδεξιότητας των ρομπότ, αυτός ο πρωτοποριακός αισθητήρας έχει σημαντικές πιθανές εφαρμογές από την ιατρική και την προσθετική μέχρι την εικονική πραγματικότητα και την τηλεπαρουσία», γράφουν οι ερευνητές της Meta.
Η Meta δημοσιοποιεί τον κώδικα και τα σχέδια για το Digit 360 για να ενθαρρύνει την έρευνα και την καινοτομία της κοινότητας στην αντίληψη της αφής. Αλλά όπως και στην απελευθέρωση μοντέλων ανοικτού κώδικα, έχει πολλά να κερδίσει από την πιθανή υιοθέτηση του hardware και των μοντέλων της. Οι ερευνητές πιστεύουν ότι οι πληροφορίες που καταγράφονται από το Digit 360 μπορούν να βοηθήσουν στην ανάπτυξη πιο ρεαλιστικών εικονικών περιβαλλόντων, κάτι που μπορεί να είναι σπουδαίο για τα metaverse projects της Meta στο μέλλον.
Digit Plexus
Η Meta κυκλοφορεί επίσης το Digit Plexus, μια πλατφόρμα hardware-software που στοχεύει στη διευκόλυνση της ανάπτυξης ρομποτικών εφαρμογών. Το Digit Plexus μπορεί να ενσωματώσει διάφορους αισθητήρες αφής των άκρων των δακτύλων και του δέρματος σε ένα μόνο ρομποτικό χέρι, να κωδικοποιήσει τα δεδομένα αφής που συλλέγονται από τους αισθητήρες και να τα μεταδώσει σε έναν κεντρικό υπολογιστή μέσω ενός μόνο καλωδίου. Η Meta απελευθερώνει τον κώδικα και τον σχεδιασμό του Digit Plexus, ώστε να μπορέσουν οι ερευνητές να βασιστούν στην πλατφόρμα και να προωθήσουν την έρευνα για την επιδεξιότητα των ρομπότ.
Η Meta θα κατασκευάσει το Digit 360 σε συνεργασία με τον κατασκευαστή αισθητήρων αφής GelSight Inc. Θα συνεργαστεί επίσης με τη νοτιοκορεατική εταιρεία ρομποτικής Wonik Robotics για την ανάπτυξη ενός πλήρως ολοκληρωμένου ρομποτικού χεριού με αισθητήρες αφής στην πλατφόρμα Digit Plexus.
PARTNR
Η Meta κυκλοφορεί επίσης το Planning And Reasoning Tasks in humaN-Robot collaboration (PARTNR), ένα benchmark για την αξιολόγηση της αποτελεσματικότητας των AI μοντέλων όταν συνεργάζονται με ανθρώπους σε οικιακές εργασίες.
Το PARTNR είναι χτισμένο πάνω στο Habitat, το προσομοιωμένο περιβάλλον της Meta. Περιλαμβάνει 100.000 εργασίες φυσικής γλώσσας σε 60 σπίτια και εμπλέκει περισσότερα από 5.800 μοναδικά αντικείμενα. Το benchmark έχει σχεδιαστεί για να αξιολογεί την απόδοση των LLM και VLM στην παρακολούθηση οδηγιών από ανθρώπους.
Το νέο benchmark της Meta έρχεται να προστεθεί σε έναν αυξανόμενο αριθμό projects που διερευνούν τη χρήση των LLMs και VLMs σε περιβάλλοντα Ρομποτικής και ενσωματωμένης Τεχνητής Νοημοσύνης. Τον τελευταίο χρόνο, αυτά τα μοντέλα έχουν δείξει ότι υπόσχονται πολλά για να χρησιμεύσουν ως μονάδες σχεδιασμού και συλλογισμού για ρομπότ σε σύνθετες εργασίες. Startups όπως η Figure και η Covariant έχουν αναπτύξει πρωτότυπα που χρησιμοποιούν μοντέλα θεμελίωσης για σχεδιασμό.
Ταυτόχρονα, εργαστήρια Τεχνητής Νοημοσύνης εργάζονται για τη δημιουργία καλύτερων μοντέλων θεμελίωσης για τη Ρομποτική. Ένα παράδειγμα είναι το έργο RT-X της Google DeepMind, το οποίο συγκεντρώνει σύνολα δεδομένων από διάφορα ρομπότ για την εκπαίδευση ενός μοντέλου όρασης-γλώσσας-δράσης (VLA) που γενικεύεται σε διάφορες μορφολογίες και εργασίες ρομποτικής.
[via]
VIA: TechGear.gr