Τεχνολογία

Meta NotebookLM: Ανοιχτός κώδικας για το Meta

Περιεχόμενα Άρθρου


Η Meta παρουσίασε μια ανοιχτή υλοποίηση της δυνατότητας δημιουργίας ενός podcast που προσφέρει η Google στην πλατφόρμα της NotebookLM. Με το όνομα NotebookLlama, αυτό το νέο έργο χρησιμοποιεί τα μοντέλα Llama της Meta για το μεγαλύτερο μέρος της επεξεργασίας του. Παρόμοια με το NotebookLM, το NotebookLlama επιτρέπει στους χρήστες να δημιουργούν ανακεφαλα τύπου podcast από αρχεία κειμένου, όπως PDF άρθρων ή αναρτήσεις ιστολογίου.

Πώς λειτουργεί το NotebookLlama

Το NotebookLlama ξεκινά δημιουργώντας μια μεταγραφή από ένα δεδομένο αρχείο—για παράδειγμα, ένα PDF. Στη συνέχεια, το σύστημα προσθέτει στοιχεία όπως δραματοποίηση και διακοπές για να κάνει το περιεχόμενο που δημιουργείται να μοιάζει περισσότερο με συνομιλία. Μετά από αυτό, χρησιμοποιεί ανοιχτά μοντέλα μετατροπής κειμένου σε ομιλία για να μετατρέψει τη μεταγραφή σε ήχο.

Η τρέχουσα ποιότητα εξόδου των podcast που δημιουργείται από το NotebookLlama εξακολουθεί να είναι τραχιά σε σύγκριση με το NotebookLM της Google. Οι φωνές έχουν μια αξιοσημείωτη ρομποτική ποιότητα και συχνά μιλούν μεταξύ τους σε περίεργες στιγμές. Ωστόσο, οι ερευνητές του Meta επισημαίνουν ότι η βελτίωση αυτής της ποιότητας είναι δυνατή με ισχυρότερα μοντέλα μετατροπής κειμένου σε ομιλία. Στη σελίδα GitHub του NotebookLlama, σημειώνουν, «Το μοντέλο μετατροπής κειμένου σε ομιλία είναι ο περιορισμός του πόσο φυσικό θα ακούγεται αυτό».

Μια πιθανή βελτίωση για το έργο, σύμφωνα με τους ερευνητές του Meta, θα μπορούσε να περιλαμβάνει δύο ξεχωριστούς πράκτορες να συζητούν ένα θέμα και να δημιουργούν το περίγραμμα του podcast, αντί να βασίζονται σε ένα μόνο μοντέλο για να χειριστούν αυτήν την πτυχή. Το NotebookLlama, όπως το NotebookLM και άλλα τεχνητής νοημοσύνης, αντιμετωπίζει επίσης προκλήσεις με «παραισθήσεις», που σημαίνει ότι τα podcast που δημιουργούνται μπορεί μερικές φορές να περιέχουν εσφαλμένες πληροφορίες.

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ:  "Η τελευταία ευκαιρία για να δούμε τον κομήτη του αιώνα από το Νέφος του Όορτ""Ο κομήτης του αιώνα και η ανθρώπινη ιστορία: Δυο μοναδικές στιγμές""Η ιστορία του κομήτη του αιώνα: Από τους Νεάντερταλ στο σήμερα"

Χρησιμοποιήστε το NotebookLlama.

(Εικόνα: Meta)

Χαρακτηριστικά

Το NotebookLlama στοχεύει να παρέχει μια ανοιχτού κώδικα και προσβάσιμη έκδοση του NotebookLM, προσφέροντας πολλά οφέλη στους χρήστες:

  • Το NotebookLlama είναι εξ ολοκλήρου ανοιχτού κώδικα, καθιστώντας το δωρεάν για τους χρήστες να χρησιμοποιούν, να τροποποιούν και να προσαρμόζονται ανάλογα με τις ανάγκες.
  • Η δομημένη προσέγγιση που χρησιμοποιείται στα σημειωματάρια Jupyter καθιστά το NotebookLlama κατάλληλο για άτομα με περιορισμένη εμπειρία στην εργασία με μεγάλα γλωσσικά μοντέλα (LLM), προτροπές ή μοντέλα .
  • Αν και το βασικό χαρακτηριστικό είναι η μετατροπή αρχείων PDF σε podcast, οι αρχές πίσω από το NotebookLlama θα μπορούσαν να προσαρμοστούν για άλλες δημιουργικές ροές εργασίας μετατροπής κειμένου σε ομιλία.

Το NotebookLlama χρησιμοποιεί σημειωματάρια Jupyter για να καθοδηγήσει τους χρήστες σε κάθε βήμα της δημιουργίας ενός podcast από ένα αρχείο κειμένου. Ακολουθεί μια απλοποιημένη ματιά στα σχετικά βήματα:

  • Βήμα 1: Εγκαταστήστε τις απαιτούμενες βιβλιοθήκες. Οι χρήστες ξεκινούν εγκαθιστώντας τις απαραίτητες βιβλιοθήκες όπως Optimum, Transformers και άλλες εξαρτήσεις.
  • Βήμα 2: Εισαγωγή βιβλιοθηκών. Τα notebook εισάγουν πολλές βιβλιοθήκες Python για επεξεργασία ήχου, όπως IPython, TQDM και Torch, μεταξύ άλλων.
  • Βήμα 3: Επεξεργαστείτε δεδομένα και δημιουργήστε ήχο. Το NotebookLlama δημιουργεί τμήματα ήχου χρησιμοποιώντας δύο μοντέλα—Bark και Parler. Αυτά τα μοντέλα επεξεργάζονται μηνύματα κειμένου και εξάγουν ήχο, ο οποίος στη συνέχεια μπορεί να συναρμολογηθεί σε ένα πλήρες podcast.
  • Βήμα 4: Λειτουργίες βοηθητικού προγράμματος. Η διαδικασία περιλαμβάνει βοηθητικές λειτουργίες για τη δημιουργία διαφορετικών φωνών ομιλητών, διασφαλίζοντας μια πιο δυναμική εμπειρία podcast.
  • Βήμα 5: Συναρμολογήστε το podcast. Τα δημιουργημένα τμήματα ήχου συνδυάζονται στο τελικό podcast, δημιουργώντας ένα πλήρες προϊόν ήχου με δυνατότητα κοινής χρήσης.
ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ:  Η Google χάνει τον έλεγχο στον κόσμο της αναζήτησης

Το NotebookLlama είναι ακόμα σε ανάπτυξη και υπάρχουν τομείς όπου το έργο μπορεί να βελτιωθεί. Η βελτίωση της ποιότητας των μοντέλων μετατροπής κειμένου σε ομιλία θα μπορούσε να βελτιώσει σημαντικά τον φυσικό ήχο των podcast που δημιουργούνται. Οι μελλοντικές επαναλήψεις θα μπορούσαν επίσης να εξερευνήσουν διαφορετικές προσεγγίσεις, όπως τη χρήση πολλαπλών πρακτόρων για τη δημιουργία πιο ελκυστικού περιεχομένου.

Παρά αυτούς τους περιορισμούς, το NotebookLlama παρέχει έναν μοναδικό τρόπο ανοιχτού κώδικα για να μετατρέψετε το κείμενο σε περιεχόμενο ήχου. Η προσέγγιση μπορεί επίσης να έχει πέρα ​​από απλές μετατροπές PDF, προσφέροντας ευρύτερες δυνατότητες σε δημιουργούς που ενδιαφέρονται να πειραματιστούν με αυτοματοποιημένες ροές εργασίας μετατροπής κειμένου σε ομιλία.

Το NotebookLlama θα μπορούσε να γίνει ένα πολύτιμο εργαλείο για όσους θέλουν να αυτοματοποιήσουν τη δημιουργία podcast ή να πειραματιστούν με νέες μορφές περιεχομένου μετατροπής κειμένου σε ομιλία.


Πίστωση επιλεγμένης εικόνας: Kerem Gülen/Ιδεόγραμμα



VIA: DataConomy.com

Αφοσιωμένος λάτρης κινητών Samsung, ο Δημήτρης έχει εξελίξει μια ιδιαίτερη σχέση με τα προϊόντα της εταιρίας, εκτιμώντας τον σχεδιασμό, την απόδοση και την καινοτομία που προσφέρουν. Γράφοντας και διαβάζοντας τεχνολογικά νέα από όλο τον κόσμο.

Ποια η αντίδραση σας για το άρθρο αυτο;

Σχετικά Άρθρα

1 of 768

Απάντηση