Πέμπτη, 10 Οκτωβρίου, 2024
ΑρχικήΤεχνολογίαΗ Εξέλιξη της Τεχνολογίας Φωνητικών API: OpenAI Ενσωματώνει την Εξαιρετική Φωνή σε...

Η Εξέλιξη της Τεχνολογίας Φωνητικών API: OpenAI Ενσωματώνει την Εξαιρετική Φωνή σε Διάφορες Εφαρμογές


OpenAI έριξε ένα μεγάλο. Το νέο τους Realtime API έχει τη δυνατότητα να αναμορφώσει πλήρως τον τρόπο με τον οποίο αλληλεπιδρούμε με τις συσκευές μας και είναι ιδιαίτερα συναρπαστικό για το μέλλον των έξυπνων ηχείων—σκεφτείτε το , το Home και όχι μόνο. Φανταστείτε να μιλάτε με αυτούς τους βοηθούς με μια φυσική ροή εμπρός-πίσω που όχι μόνο ακούγεται πιο ανθρώπινη αλλά και ανταποκρίνεται σχεδόν ακαριαία, προσαρμοζόμενη στον τρόπο που μιλάτε, ακόμα κι αν ψιθυρίζετε ή γελάτε. Αυτό είναι το είδος του άλματος συνομιλίας που εξετάζουμε εδώ.

Τι είναι το Realtime API από το OpenAI;

Το Realtime API επιτρέπει στους προγραμματιστές να δημιουργούν φωνητικές αλληλεπιδράσεις χωρίς την άβολη καθυστέρηση που έχουμε συνηθίσει. Δεν υπάρχει ανάγκη για μετάφραση κειμένου στο ενδιάμεσο. είναι απευθείας από φωνή σε απάντηση—όλα γίνονται εξαιρετικά γρήγορα. Αυτό σημαίνει ότι τα έξυπνα ηχεία ή οι βοηθοί δεν είναι απλώς γρήγοροι. αισθάνονται παρόντες, σχεδόν σαν αληθινός συνομιλητής. Οι φωνές του OpenAI μπορούν να κατευθύνονται προς διαφορετικούς τόνους, να γελούν μαζί σας, να ψιθυρίζουν αν το κάνετε—εν ολίγοις, είναι οι πιο λεπτές φωνές που έχουμε δει στην τεχνητή νοημοσύνη μέχρι στιγμής.

Το Realtime API επιτρέπει στους προγραμματιστές να δημιουργούν φωνητικές αλληλεπιδράσεις χωρίς την αμήχανη καθυστέρηση που έχουμε συνηθίσει

Πώς λειτουργεί το API σε πραγματικό χρόνο

Το API λειτουργεί χρησιμοποιώντας WebSockets, που σε μη τεχνολογική ομιλία σημαίνει απλώς ότι είναι ένα συνεχές αμφίδρομο κανάλι επικοινωνίας, όπως μια ανοιχτή γραμμή επικοινωνίας με τον διακομιστή. Στέλνετε τον ήχο σας και στέλνει κάτι πίσω σχεδόν σε πραγματικό χρόνο. Αυτό το είδος ρύθμισης είναι αυτό που επιτρέπει αυτά τα νέα είδη αλληλεπιδράσεων—χαμηλή καθυστέρηση, που σημαίνει μικρή έως καθόλου καθυστέρηση, και πολυτροπική, που σημαίνει ότι το σύστημα μπορεί να χειρίζεται απρόσκοπτα κλήσεις κειμένου, ήχου, ακόμη και λειτουργιών. Φανταστείτε να λέτε: “Γεια σου βοηθό, κλείσε τραπέζι στο αγαπημένο μου εστιατόριο” και όχι μόνο σε καταλαβαίνει αμέσως, αλλά μπορεί να καλέσει το σύστημα κρατήσεων αμέσως και εκεί, όλα στη ροή της συνομιλίας.

Προσθήκη προσωπικότητας στις απαντήσεις AI

Δεν είναι μόνο η , όμως. έχει να κάνει και με την προσωπικότητα. Σε αντίθεση με τους άκαμπτους και μερικές φορές άψυχους τόνους που έχουμε ακούσει από έξυπνους βοηθούς στο παρελθόν, Τα νέα μοντέλα του OpenAI μπορούν να διαμορφώσουν τις αποκρίσεις τους ώστε να ταιριάζουν με την ενέργειά σας — είτε είναι ενθουσιασμένο είτε ήσυχο, το έχουν καλύψει. Για παράδειγμα, όταν ρωτάτε για τον καιρό ενώ ετοιμάζεστε το πρωί, είναι άλλο να ακούτε ένα ρομποτικό «Σήμερα θα είναι ηλιόλουστο» και άλλο να λαμβάνετε μια ζεστή, ζωηρή απάντηση όπως, «Φαίνεται ότι είναι φωτεινό. εκεί έξω — ώρα για μερικά γυαλιά ηλίου!» Αυτές οι λεπτές διαφορές συνθέτουν μια πολύ πιο πλούσια, πιο ελκυστική αλληλεπίδραση.

API σε πραγματικό χρόνο: Το OpenAI φέρνει προηγμένη φωνή σε άλλες εφαρμογές
Με το Realtime API, οι νεοφυείς επιχειρήσεις μπορούν να εξερευνήσουν δημιουργικές χρήσεις της τεχνολογίας φωνής

Εφαρμογές πραγματικού κόσμου του Realtime API

Οι πιθανές εφαρμογές είναι τεράστιες. Σκεφτείτε βιομηχανίες όπως η εξυπηρέτηση πελατών – ξεχάστε να περιμένετε έναν αντιπρόσωπο ή ακόμα και να μιλήσετε με ένα σκληρό ρομπότ φωνής. Θα μπορούσατε να αλληλεπιδράτε με κάτι που αισθάνεται σχεδόν ζωντανό, κάτι που μπορεί να κατανοήσει το πλαίσιο σε βάθος και να ανταποκριθεί με τον ίδιο τρόπο. Ή πάρτε την υγειονομική περίθαλψη, όπου αυτό το είδος διαφοροποιημένης εμπρός-πίσω θα μπορούσε να κάνει την υποστήριξη που βασίζεται στην τεχνητή νοημοσύνη να αισθάνεται πολύ πιο ανακουφιστική και ανθρώπινη σε δύσκολες στιγμές. Το γεγονός ότι όλα συμβαίνουν πιο γρήγορα από τον ήχο σε πραγματικό χρόνο σημαίνει επίσης ότι λαμβάνετε απαντήσεις που ακούγονται σταθερές και φυσικές, αντί για κάτι ραμμένο με αισθητές παύσεις.

Για τις νεοφυείς επιχειρήσεις, το Realtime API του OpenAI παρέχει την ευκαιρία να καινοτομούν χωρίς να χρειάζονται τεράστιους πόρους. Η ικανότητα ενσωμάτωσης φυσικών φωνητικών αλληλεπιδράσεων χαμηλής καθυστέρησης σημαίνει ότι μικρές ομάδες μπορούν να δημιουργήσουν εκλεπτυσμένα προϊόντα συνομιλίας που προηγουμένως απαιτούσαν βαθιά εξειδίκευση στην τεχνολογία φωνής. Αυτό ανοίγει δυνατότητες σε διάφορους τομείς – όπως το gaming, όπου τα NPC θα μπορούσαν να αλληλεπιδράσουν πιο δυναμικά ή η εκπαίδευση, όπου τα εργαλεία θα μπορούσαν να γίνουν πιο ελκυστικά και να ανταποκρίνονται.

Με το Realtime API, οι νεοφυείς επιχειρήσεις μπορούν να εξερευνήσουν δημιουργικές χρήσεις της τεχνολογίας φωνής, από την ανάπτυξη μοναδικών φωνητικών συσκευών έως τη βελτίωση εργαλείων παραγωγικότητας με εύχρηστες φωνητικές διεπαφές.


Το OpenAI παρουσίασε τους χρήστες του ChatGPT Advanced Voice for Plus


Ένα νέο κεφάλαιο για τα φωνής

Αυτή η έκδοση από το OpenAI μοιάζει με την αρχή ενός νέου κεφαλαίου για τη φωνητική τεχνολογία. Πρόκειται για τη μετάβαση των συνομιλιών πέρα ​​από τις βασικές ερωτήσεις και απαντήσεις και στη σφαίρα του πραγματικού διαλόγου. Οι προγραμματιστές που θέλουν να ασχοληθούν με αυτό το νέο API μπορούν να το δοκιμάσουν μέσω μιας κονσόλας επίδειξης που έχει κυκλοφορήσει το OpenAI. Ενώ είναι ακόμα σε έκδοση beta, οι δυνατότητες που αρχίζουν να ξεδιπλώνονται είναι ξεκάθαρες – πιο έξυπνες, πιο γρήγορες και πιο ενσυναίσθητες μηχανές. Αν συμβεί αυτό, οι μέρες που μιλάτε στις συσκευές σας σαν να είναι συσκευές μπορεί απλώς να είναι πίσω μας.


Πιστώσεις εικόνας: Κερέμ Γκιουλέν/Μέσα ταξίδι



VIA: DataConomy.com

Dimitris Troktikos
Dimitris Troktikoshttps://www.troktiko.net
Αφοσιωμένος λάτρης κινητών Samsung, ο Δημήτρης έχει εξελίξει μια ιδιαίτερη σχέση με τα προϊόντα της εταιρίας, εκτιμώντας τον σχεδιασμό, την απόδοση και την καινοτομία που προσφέρουν. Γράφοντας και διαβάζοντας τεχνολογικά νέα από όλο τον κόσμο.
RELATED ARTICLES

Απάντηση

Most Popular

Lastest Articles