OpenAI:Εφικτή η κλωνοποίηση φωνής με ήχο μόλις 15 sec|G BLOG

Η OpenAI έχει αναπτύξει μια πλατφόρμα μετατροπής κειμένου σε φωνή, την Voice Engine, η οποία μπορεί να δημιουργήσει συνθετική φωνή από ένα σύντομο ηχογραφημένο απόσπασμα 15 δευτερολέπτων. Η συνθετική φωνή έχει τη δυνατότητα να διαβάζει γραπτές οδηγίες στην ίδια γλώσσα με τον αρχικό ομιλητή ή σε διάφορες άλλες γλώσσες.

Η εταιρία παρέχει περιορισμένη πρόσβαση στην πλατφόρμα σε περίπου 10 εταιρίες, συμπεριλαμβανομένων εταιριών εκπαιδευτικής τεχνολογίας, πλατφορμών μυθοπλασίας και εταιριών που αναπτύσσουν εφαρμογές υγείας και επικοινωνίας. Οι εταίροι της OpenAI χρησιμοποιούν την τεχνολογία για τη δημιουργία εκφωνήσεων προεπιλεγμένου υλικού και για την ανάγνωση προσωποποιημένων απαντήσεων σε πραγματικό χρόνο.

Η ανάπτυξη της Voice Engine ξεκίνησε το 2022 και έχει ήδη υποστηρίξει φωνές που χρησιμοποιούνται στη μετατροπή κειμένου σε φωνή και τη λειτουργία Read Aloud του ChatGPT. Το μοντέλο εκπαιδεύτηκε με συνδυασμό δημόσια διαθέσιμων δεδομένων και νόμιμα παραχωρημένου υλικού.

Η μετατροπή κειμένου σε ήχο μέσω τεχνητής νοημοσύνης εξακολουθεί να εξελίσσεται, με έμφαση κυρίως σε ορχηστρικούς ή φυσικούς ήχους. Ωστόσο, η αμερικανική κυβέρνηση προσπαθεί να περιορίσει την κακόβουλη χρήση της τεχνολογίας, όπως τις αυτόματες κλήσεις με τη χρήση κλωνοποιημένων φωνών.

Η OpenAI έχει θέσει κατευθυντήριες γραμμές για τους εταίρους της, απαιτώντας τη συγκατάθεση των αρχικών ομιλητών, την ενημέρωση των ακροατών ότι οι φωνές είναι τεχνητά δημιουργημένες και την ενσωμάτωση υδατογραφημάτων για την παρακολούθηση της χρήσης του υλικού. Η εταιρία προτείνει επίσης μέτρα για τον περιορισμό των κινδύνων, όπως η σταδιακή κατάργηση της φωνητικής πρόσβασης σε τραπεζικούς λογαριασμούς και η ανάπτυξη συστημάτων παρακολούθησης της χρήσης του περιεχομένου που δημιουργείται από μοντέλα τεχνητής νοημοσύνης.