Το Πανεπιστήμιο του Harvard ανακοίνωσε την κυκλοφορία ενός συνόλου δεδομένων που περιέχει σχεδόν ένα εκατομμύριο βιβλία δημόσιου τομέα για την εκπαίδευση μοντέλων AI.
Το Πανεπιστήμιο του Harvard, σε μια σημαντική εξέλιξη για τον τομέα της τεχνητής νοημοσύνης, ανακοίνωσε την Πέμπτη τη δημιουργία ενός τεράστιου συνόλου δεδομένων που περιλαμβάνει σχεδόν ένα εκατομμύριο βιβλία δημόσιου τομέα. H συλλογή περιλαμβάνει ένα ευρύ φάσμα έργων, από κλασικά κείμενα των Shakespeare, Charles Dickens και Dante μέχρι σπάνια τσεχικά βιβλία μαθηματικών και ουαλικά λεξικά τσέπης.
Η πρωτοβουλία, που ονομάζεται Institutional Data Initiative, έχει λάβει χρηματοδότηση τόσο από τη Microsoft όσο και από την OpenAI. Τα βιβλία προέρχονται από σαρώσεις του Google Books και είναι αρκετά παλαιά ώστε να έχει λήξει η προστασία πνευματικών δικαιωμάτων τους, η οποία συνήθως διαρκεί για τη ζωή του συγγραφέα συν 70 έτη.
Η κίνηση αυτή έρχεται σε μια περίοδο όπου οι εταιρείες τεχνητής νοημοσύνης αντιμετωπίζουν σημαντικές προκλήσεις στην εύρεση νόμιμων πηγών δεδομένων για την εκπαίδευση των μοντέλων τους. Όπως αναφέρεται στο κείμενο, εκδότες όπως οι Wall Street Journal και New York Times έχουν μηνύσει την OpenAI και την Perplexity για μη εξουσιοδοτημένη χρήση του περιεχομένου τους.
Παράλληλα, πλατφόρμες κοινωνικής δικτύωσης όπως το Reddit και το X έχουν αρχίσει να περιορίζουν την πρόσβαση στα δεδομένα τους, αναγνωρίζοντας την τεράστια αξία τους. Το Reddit, για παράδειγμα, κερδίζει εκατοντάδες εκατομμύρια δολάρια από την αδειοδότηση του περιεχομένου του στην Google, ενώ το X έχει αποκλειστική συμφωνία με την xAI του Elon Musk.
Παρότι το ένα εκατομμύριο βιβλία δεν επαρκεί για να καλύψει πλήρως τις ανάγκες εκπαίδευσης των μοντέλων τεχνητής νοημοσύνης, ιδιαίτερα όσον αφορά σύγχρονο περιεχόμενο, η πρωτοβουλία του Harvard προσφέρει μια σημαντική νόμιμη πηγή δεδομένων για τις εταιρείες που επιθυμούν να εκπαιδεύσουν τα αρχικά τους μοντέλα χωρίς νομικές επιπλοκές.