Categories: Τεχνολογία

Νέες καινοτομίες από τη Nvidia: Ξεκίνημα με τα NVLM 1.0

Η Nvidia μπήκε επίσημα στο ρινγκ με ένα ισχυρό μοντέλο AI ανοιχτού κώδικα, το NVLM 1.0, προκαλώντας γίγαντες του κλάδου όπως το OpenAI και η Google.

Η νέα οικογένεια μεγάλων μοντέλων πολυτροπικών γλωσσών NVLM 1.0 της εταιρείας υπόσχεται να προσφέρει δυνατότητες αιχμής τόσο σε οπτικές όσο και σε εργασίες που βασίζονται σε κείμενο.

Κορυφαία στο πακέτο είναι η παράμετρος 72 δισεκατομμυρίων NVLM-D-72B, ένα μοντέλο που έχει σχεδιαστεί για να αποδίδει στο υψηλότερο επίπεδο, με τεράστιο αντίκτυπο στις εργασίες της γλώσσας όρασης βελτιώνοντας παράλληλα τα παραδοσιακά αποτελέσματα που βασίζονται σε κείμενο.

Τι κάνει το NVLM 1.0 ξεχωριστό;

Η απελευθέρωση του NVLM 1.0 σηματοδοτεί μια αξιοσημείωτη αλλαγή στο οικοσύστημα της τεχνητής νοημοσύνης, στο οποίο κυριαρχούν σε μεγάλο βαθμό τα ιδιόκτητα μοντέλα. Η απόφαση της Nvidia να κάνει αυτά τα βάρη μοντέλων διαθέσιμα στο κοινό —και τελικά να κυκλοφορήσει τον κώδικα εκπαίδευσης— προσφέρει στους ερευνητές και τους προγραμματιστές πρόσβαση σε εργαλεία που συναγωνίζονται τα GPT-4. Αυτή είναι μια σπάνια κίνηση σε έναν κλάδο όπου τα περισσότερα προηγμένα μοντέλα παραμένουν κλειδωμένα, ελέγχονται αυστηρά από τεχνολογικούς γίγαντες.

Όπως ανέφερε η Nvidia στο δικό τους ερευνητική εργασία, «Το NVLM 1.0 επιτυγχάνει αποτελέσματα αιχμής σε εργασίες γλώσσας όρασης, ανταγωνίζοντας τόσο τα ιδιόκτητα όσο και τα μοντέλα ανοιχτής πρόσβασης».

Αυτό που σημαίνει για τους προγραμματιστές είναι α νέα σύνορα στην προσβασιμότητα AIόπως ακριβώς έκανε η Meta με το Llama 3.2, δίνοντας σε μικρότερα εργαστήρια και σε ανεξάρτητους ερευνητές την ευκαιρία να εργαστούν με κορυφαία εργαλεία τεχνητής νοημοσύνης χωρίς να χρειάζεται να πλοηγηθούν στο συχνά απαγορευτικό κόστος ή τους εταιρικούς περιορισμούς.

Η έκδοση ανοιχτού κώδικα του NVLM 1.0 έχει δημιουργήσει ενθουσιασμό σε όλη την ερευνητική κοινότητα της τεχνητής νοημοσύνης. Ένας εξέχων ερευνητής τόνισε τη σημασία του μοντέλου στα μέσα κοινωνικής δικτύωσης, δηλώνοντας:

https://twitter.com/phill__1/status/1841016309468856474?ref_src=twsrc%5Etfw” target=”_blank” rel=”noopener

Η πολυτροπική μονάδα παραγωγής ισχύος NVLM-D-72B

Στο επίκεντρο αυτής της επανάστασης ανοιχτού κώδικα βρίσκεται το NVLM-D-72B μοντέλο, το οποίο ξεχωρίζει για την ικανότητά του να χειρίζεται απρόσκοπτα τόσο οπτικές όσο και κειμενικές εισροές. Αυτή η πολυτροπική χωρητικότητα σημαίνει ότι το μοντέλο μπορεί να ερμηνεύει εικόνες, να αναλύει πολύπλοκα οπτικά στοιχεία και ακόμη και να λύνει μαθηματικά προβλήματα βήμα-βήμα—όλα μέσα σε ένα ενιαίο πλαίσιο.

Όπου πολλά πολυτροπικά μοντέλα δυσκολεύονται να διατηρήσουν την απόδοση σε εργασίες μόνο κειμένου μετά την ενσωμάτωση της οπτικής μάθησης, NVLM-D-72B καταστρέφει την τάση.

Σύμφωνα με την Nvidia, το μοντέλο βελτίωσε την ακρίβεια του κειμένου κατά μέσο όρο 4,3 πόντους σε διάφορα βασικά σημεία αναφοράς μετά από πολυτροπική εκπαίδευση. Αυτό το είδος προσαρμοστικότητας τοποθετεί το NVLM-D-72B ως ένα μοναδικό εργαλείο σε μια αγορά που συνήθως αναγκάζει τους χρήστες να επιλέξουν μεταξύ μοντέλων βελτιστοποιημένων είτε για οπτικές είτε για εργασίες κειμένου, αλλά όχι και για τα δύο.

Ανοίγοντας νέες πόρτες, εγείροντας νέα ερωτήματα

Ο Έργο NVLM δεν αφορά μόνο την ανοιχτή πρόσβαση. Εισάγει επίσης καινοτόμα αρχιτεκτονικά σχέδια που συνδυάζουν διαφορετικές τεχνικές πολυτροπικής επεξεργασίας, υπερβαίνοντας τα όρια του τι είναι δυνατό στην τεχνητή νοημοσύνη. Η υβριδική προσέγγιση της Nvidia θα μπορούσε κάλλιστα να εμπνεύσει μια νέα κατεύθυνση στην έρευνα και ανάπτυξη της τεχνητής νοημοσύνης, καθώς ομάδες σε όλο τον κόσμο παίρνουν στα χέρια τους αυτά τα εργαλεία.

Ωστόσο, όπως συμβαίνει με κάθε τεχνολογικό άλμα, υπάρχουν κίνδυνοι. Η ευρέως διαθέσιμη τέτοιων ισχυρών μοντέλων τεχνητής νοημοσύνης εγείρει ανησυχίες σχετικά με πιθανή κακή χρήση και τις ηθικές προκλήσεις που συνεπάγεται. Η κοινότητα της τεχνητής νοημοσύνης θα πρέπει να εξισορροπήσει την τάση για καινοτομία με την ανάγκη ανάπτυξης υπεύθυνων πλαισίων για τη χρήση αυτών των μοντέλων.

Το NVLM 1.0 επιτυγχάνει επιδόσεις αιχμής σε εργασίες γλώσσας όρασης, ανταγωνιζόμενος τα ιδιόκτητα και ανοιχτά μοντέλα (Πίστωση εικόνας)

Μια καθοριστική στιγμή στο AI

Η απόφαση της Nvidia για ανοιχτό κώδικα NVLM 1.0 θα μπορούσε να προκαλέσει ένα κύμα αλλαγών σε ολόκληρο τον τεχνολογικό κόσμο. Άλλοι ηγέτες του κλάδου μπορεί να αισθάνονται πίεση να ακολουθήσουν το παράδειγμά τους, μετατοπίζοντας ενδεχομένως ολόκληρο το τοπίο της ανάπτυξης της τεχνητής νοημοσύνης. Εάν τα μοντέλα αιχμής γίνουν ελεύθερα προσβάσιμα, θα μπορούσε να αναγκάσει τις εταιρείες να επανεξετάσουν τον τρόπο με τον οποίο παράγουν αξία και να διατηρήσουν ένα ανταγωνιστικό πλεονέκτημα στην αγορά.

Ο μακροπρόθεσμος αντίκτυπος της κίνησης της Nvidia είναι ακόμα άγνωστος. Τους επόμενους μήνες και χρόνια, θα μπορούσαμε να δούμε μια εποχή άνευ προηγουμένου συνεργασίας στην τεχνητή νοημοσύνη, όπου ερευνητές από όλες τις γωνιές του πλανήτη εργάζονται μαζί σε κοινές πλατφόρμες. Ή, αυτή η εξέλιξη θα μπορούσε να προκαλέσει μια βαθύτερη εξέταση των συνεπειών της κυκλοφορίας προηγμένης τεχνολογίας χωρίς αυστηρούς ελέγχους.

Ένα πράγμα είναι ξεκάθαρο: η κυκλοφορία του NVLM 1.0 από την Nvidia είναι μια κίνηση που αλλάζει το παιχνίδι και σηματοδοτεί μια αλλαγή στην ισορροπία ισχύος στον κλάδο της τεχνητής νοημοσύνης. Κάνοντας ένα τέτοιο μοντέλο υψηλού διαμετρήματος ανοιχτού κώδικα, η Nvidia αμφισβητεί το status quo, ξεκινώντας αυτό που θα μπορούσε να είναι ένα νέο κεφάλαιο στην ανάπτυξη της τεχνητής νοημοσύνης.

Το ερώτημα τώρα δεν είναι εάν τα μοντέλα και η αγορά της τεχνητής νοημοσύνης θα αλλάξουν – είναι πόσο δραματικά και ποιος θα μπορέσει να συμβαδίσει.

Πίστωση επιλεγμένης εικόνας: Εμρέ Τσιτάκ/Ιδεόγραμμα AI

VIA: DataConomy.com

Dimitris Troktikos