Το Project Gutenberg διαθέτει δωρεάν 5.000 audiobooks με συνθετική ομιλία

1 έτος πριν
bookshelves in library

Η μη κερδοσκοπική ψηφιακή βιβλιοθήκη Project Gutenberg έκανε ένα τεράστιο άλμα (και όχι βήμα) στην προσβασιμότητα, μετατρέποντας χιλιάδες κείμενα που ανήκουν στο Κοινό Κτήμα (Public Domain), σε ηχητικά βιβλία με τη χρήση τεχνητής νοημοσύνης. Σε περίπτωση που δεν γνωρίζεις, στο δίκαιο της πνευματικής ιδιοκτησίας ο όρος Κοινό Kτήμα περιλαμβάνει το σύνολο των έργων η ελεύθερη χρήση των οποίων δεν περιορίζεται από το νόμο ή της οποίας οι νομικοί περιορισμοί έχουν λήξει. Πάντως η αστραπιαία μέθοδος αποδεικνύει πώς η τεχνολογία ομιλίας τεχνητής νοημοσύνης μπορεί να επεκτείνει γρήγορα τη λογοτεχνική πρόσβαση

Παραδοσιακά, η δημιουργία ακουστικών βιβλίων (κοινώς audiobooks) είναι μια χρονοβόρα διαδικασία που απαιτεί ανθρώπινη αφήγηση, επεξεργασία και παραγωγή. Πολλοί παλαιότεροι ή εξειδικευμένοι τίτλοι δεν προσαρμόζονται ποτέ λόγω οικονομικών περιορισμών. Η αποστολή του Project Gutenberg είναι η δωρεάν διανομή έργων που ανήκουν στο Κοινό Κτήμα σε πολλαπλές μορφές, οπότε τα audio books ή αλλιώς τα «ακουστικά βιβλία» αποτελούσαν από καιρό στόχο. Μέσω μιας συνεργασίας με το MIT και τη Microsoft, η τεχνητή νοημοσύνη το καθιστά τελικά εφικτό. 

Η κύρια πρόκληση ήταν η ασυνεπής μορφοποίηση των ηλεκτρονικών βιβλίων του Project Gutenberg. Τα κείμενα του αρχείου προέρχονται από διαφορετικές πηγές, με ατελείς διατάξεις και επεξεργασίες, με την τεχνητή νοηματική αφήγηση να χρειάζεται “καθαρά” δεδομένα για να λειτουργήσει ομαλά. Όπως εξήγησε ο συν-επικεφαλής του έργου Μαρκ Χάμιλτον, «κάθε ηλεκτρονικό βιβλίο είναι σε ιδιόμορφη μορφή HTML με κείμενο που δεν θα θέλατε να διαβαστεί δυνατά, όπως πίνακες και δείκτες. Η εξαγωγή του αναγνώσιμου κειμένου ήταν το δυσκολότερο μέρος».

Για να αντιμετωπίσει αυτό το πρόβλημα, η ομάδα σχεδίασε ένα σύστημα για να ομαδοποιεί παρόμοια διαμορφωμένα κείμενα και να εντοπίζει ποιες ομάδες ήταν πιο φιλικές προς την τεχνητή νοημοσύνη. Η αρχική παρτίδα ακουστικών βιβλίων αντικατοπτρίζει αυτούς τους τεχνικούς περιορισμούς, με μια εκλεκτική επιλογή που περιλαμβάνει μόνο ένα έργο του Ντίκενς. Αλλά ο Χάμιλτον σημειώνει ότι αυτή η πιλοτική εκτέλεση βοήθησε στην τελειοποίηση της προσέγγισής τους: «Τώρα που έχουμε ολοκληρώσει την πρώτη παρτίδα, εργαζόμαστε για να γενικεύσουμε το σύστημα για ολόκληρη τη συλλογή 60.000 βιβλίων».

Η πρόοδος της μηχανικής μάθησης και της σύνθεσης ομιλίας τα τελευταία χρόνια επέτρεψε στο Project Gutenberg να αναπτύξει την τεχνητή αφήγηση σε κλίμακα. Η ομάδα συνδύασε πολλαπλές τεχνολογίες για τη δυναμική προσαρμογή των φωνών και των συναισθημάτων, με στόχο τη δημιουργία μιας ελκυστικής ακρόασης. Όπως εξηγεί το έγγραφό τους, αυτό περιλαμβάνει την κατάτμηση της αφήγησης από το διάλογο και τη χρήση του πλαισίου για την ανάθεση των κατάλληλων φωνητικών τόνων.

Τα πρώτα 5.000 συνθετικά ακουστικά βιβλία είναι πλέον ελεύθερα διαθέσιμα σε διάφορες πλατφόρμες όπως το SPOTIFY και το APPLE Podcasts για να τα ακούσεις από τα ακουστικά σου. Ο κώδικας ανοιχτού κώδικα για το έργο έχει επίσης κοινοποιηθεί στο GitHub.