YouTube videos χρησιμοποιήθηκαν για τα AI μοντέλα

Στην εποχή της ραγδαίας ανάπτυξης της τεχνητής νοημοσύνης (ΤΝ), ένα κρίσιμο ζήτημα έρχεται στο προσκήνιο: η ηθική χρήση των προσωπικών δεδομένων για την εκπαίδευση των ΤΝ συστημάτων. Πρόσφατες αποκαλύψεις έχουν φέρει στο φως μια σειρά από αμφιλεγόμενες πρακτικές που εγείρουν σοβαρά ερωτήματα σχετικά με την προστασία της ιδιωτικότητας και τα δικαιώματα των χρηστών του διαδικτύου.

Ένα χαρακτηριστικό παράδειγμα αποτελεί η πρόσφατη έρευνα του Proof News, η οποία αποκάλυψε ότι κολοσσοί της τεχνολογίας όπως η Apple, η NVIDIA και η Anthropic χρησιμοποίησαν μεταγραφές από περισσότερα από 173.000 βίντεο του YouTube για την εκπαίδευση των μοντέλων ΤΝ τους. Αυτό έγινε χωρίς την άδεια των δημιουργών περιεχομένου, παραβιάζοντας τους όρους χρήσης της πλατφόρμας.

Το συγκεκριμένο σύνολο δεδομένων, που δημιουργήθηκε από τον μη κερδοσκοπικό οργανισμό EleutherAI, περιλαμβάνει υλικό από δημοφιλείς YouTubers όπως του tech reviewer "MKBHD" αλλά και μεγάλων ειδησεογραφικών πρακτορείων. Η αποκάλυψη αυτή έχει προκαλέσει την έντονη αντίδραση της διοίκησης του YouTube, με τον CEO Neal Mohan να καταδικάζει ρητά τέτοιες πρακτικές.

Ωστόσο, το πρόβλημα δεν περιορίζεται μόνο στο YouTube. Πολλές εταιρείες τεχνολογίας, συμπεριλαμβανομένων των GOOGLE, APPLE και OpenAI έχουν αντιμετωπίσει νομικές προκλήσεις για παρόμοιες πρακτικές. Υπάρχουν ακόμη αναφορές για αγορά περιεχομένου πίσω από paywalls και παλιών προσωπικών φωτογραφιών από ανενεργές πλατφόρμες κοινωνικής δικτύωσης.

Ένα από τα βασικά προβλήματα που αναδεικνύονται είναι η έλλειψη διαφάνειας από τις εταιρείες ΤΝ. Για παράδειγμα, η APPLE έχει επικριθεί για την απροθυμία της να αποκαλύψει τις πηγές των δεδομένων που χρησιμοποιεί για την εκπαίδευση των εργαλείων ΤΝ της. Παρομοίως, η OpenAI απέφυγε να απαντήσει σε ερωτήσεις σχετικά με τη χρήση βίντεο από το YouTube στην ανάπτυξη του επερχόμενου AI εργαλείου παραγωγής βίντεο "Sora".

Η κατάσταση αυτή δημιουργεί ένα περίπλοκο ηθικό τοπίο. Από τη μία πλευρά, η ανάπτυξη της ΤΝ απαιτεί τεράστιους όγκους δεδομένων για την εκπαίδευση των μοντέλων. Από την άλλη, η συλλογή και χρήση αυτών των δεδομένων χωρίς συγκατάθεση παραβιάζει τα δικαιώματα των χρηστών και των δημιουργών περιεχομένου.