Η ακρίβεια του ChatGPT μειώνεται με το χρόνο

Το ChatGPT, το δημοφιλές chatbot τεχνητής νοημοσύνης που μπορεί να παράγει ρεαλιστικές απαντήσεις στα ερωτήματα των χρηστών, μπορεί να γίνεται χειρότερο στην ακρίβεια των απαντήσεων που δίνει με την πάροδο του χρόνου, σύμφωνα με μελέτη ερευνητών του Πανεπιστημίου του Στάνφορντ. Η μελέτη δείχνει ότι η συμπεριφορά και η ακρίβεια του ChatGPT έχουν αλλάξει σημαντικά τους τελευταίους μήνες, χωρίς σαφή εξήγηση.

Οι ερευνητές αξιολόγησαν τις απαντήσεις δύο εκδόσεων του ChatGPT, του GPT-3.5 και του GPT-4, σε τέσσερις εργασίες: επίλυση μαθηματικών προβλημάτων, απάντηση σε ευαίσθητες ή επικίνδυνες ερωτήσεις, δημιουργία κώδικα και οπτική σκέψη. Διαπίστωσαν ότι και οι δύο εκδόσεις είχαν ασυνεπείς και απρόβλεπτες επιδόσεις με την πάροδο του χρόνου και συχνά χειροτέρευαν σε ορισμένες εργασίες. Για παράδειγμα, η ακρίβεια του GPT-4 στον εντοπισμό πρώτων αριθμών μειώθηκε από 97,6% τον Μάρτιο σε 2,4% τον Ιούνιο, ενώ η ακρίβεια του GPT-3.5 βελτιώθηκε από 7,4% σε 86,8% την ίδια περίοδο.

Οι ερευνητές υποψιάζονται ότι αυτές οι αλλαγές οφείλονται στην OpenAI, την εταιρεία που βρίσκεται πίσω από το ChatGPT, η οποία τελειοποιεί τα μοντέλα παρασκηνιακά χωρίς να αποκαλύπτει ποιες πτυχές της τεχνολογίας ενημερώνονται. Υποστηρίζουν επίσης ότι η βελτίωση των μοντέλων σε ορισμένους τομείς μπορεί να έχει ακούσιες παρενέργειες που τα χειροτερεύουν σε άλλες εργασίες. Οι ερευνητές λένε ότι δεν κατανοούν πλήρως τι προκαλεί αυτές τις αλλαγές, επειδή αυτά τα μοντέλα είναι αδιαφανή και πολύπλοκα.

Η μελέτη αμφισβητεί τον ισχυρισμό της OpenAI ότι τα μεγάλα γλωσσικά μοντέλα του γίνονται όλο και πιο αποτελεσματικά και ακριβή στην απάντηση των προτροπών των χρηστών. Αντίθετα, υποδηλώνει ότι οι απαντήσεις του ChatGPT είναι αναξιόπιστες και μεταβλητές με την πάροδο του χρόνου και ότι οι χρήστες δεν πρέπει να τα εμπιστεύονται πλήρως. Η μελέτη επιβεβαιώνει επίσης ορισμένες από τις ανεπίσημες μαρτυρίες των χρηστών του ChatGPT που έχουν παρατηρήσει μείωση της ποιότητας των απαντήσεων του chatbot.

Ωστόσο, δεν έχουν πειστεί όλοι οι ειδικοί της τεχνητής νοημοσύνης από τα ευρήματα της μελέτης. Ορισμένοι υποστηρίζουν ότι δεν είναι σαφές τι θα μπορούσε να προκαλέσει τέτοιες διαφορές στις επιδόσεις. Ορισμένοι επισημαίνουν επίσης ότι είναι δύσκολο να αξιολογηθούν τέτοια συστήματα και ότι ορισμένες διαφορές στις επιδόσεις των μοντέλων μπορεί να προέρχονται από τη χρήση συνθετικών δεδομένων για την εκπαίδευση.

Η μόνη σχετική αναφορά της OpenAI για το θέμα είναι ένα tweet υπαλλήλου της εταιρείας που έγραψε ότι ήδη οι σχετικές αναφορές εξετάζονται. Η εταιρεία έχει δηλώσει στο παρελθόν ότι στοχεύει στη δημιουργία τεχνητής νοημοσύνης που μπορεί να ωφελήσει την ανθρωπότητα χωρίς να προκαλεί βλάβη ή διακρίσεις. Ωστόσο, ορισμένοι επικριτές έχουν εκφράσει ανησυχίες σχετικά με τις ηθικές και κοινωνικές επιπτώσεις των μεγάλων γλωσσικών μοντέλων, όπως το ChatGPT.

Η μελέτη είναι μία από τις πρώτες προσπάθειες συστηματικής ανάλυσης του τρόπου με τον οποίο αλλάζει η συμπεριφορά του ChatGPT με την πάροδο του χρόνου. Θέτει σημαντικά ερωτήματα σχετικά με τη διαφάνεια, τη λογοδοσία και την αξιοπιστία αυτών των μοντέλων, καθώς και τους πιθανούς κινδύνους και τα οφέλη τους για την κοινωνία. Επισημαίνει επίσης την ανάγκη για συνεχή παρακολούθηση και αξιολόγηση της συμπεριφοράς αυτών των μοντέλων με την πάροδο του χρόνου.