Ερευνητές από το Πανεπιστήμιο της Πενσυλβάνιας κατάφεραν να πείσουν το μοντέλο GPT-4o Mini της OPENAI να δώσει οδηγίες για τη σύνθεση λιδοκαΐνης, εφαρμόζοντας την τακτική της δέσμευσης.
Αρχικά, οι ερευνητές ρώτησαν το chatbot πώς συντίθεται η βανιλίνη (χρησιμοποιείται ως αρωματικό στην ζαχαροπλαστική), δημιουργώντας έτσι ένα προηγούμενο απάντησης σε ερωτήματα χημικής σύνθεσης, και στη συνέχεια προχώρησαν στην ερώτηση για τη λιδοκαΐνη. H προσέγγιση βασίστηκε σε ψυχολογικές μεθόδους πειθούς που περιγράφονται από τον καθηγητή ψυχολογίας Robert Cialdini στο βιβλίο του "Influence: The Psychology of Persuasion". Το πείραμα έδειξε ότι τέτοιες τακτικές μπορούν να κάμψουν τους περιορισμούς που έχουν τεθεί σε γλωσσικα μοντέλα, όπως το να αποφεύγουν να δίνουν πληροφορίες για ελεγχόμενες ουσίες ή να προσβάλλουν χρήστες.
Στο πλαίσιο της μελέτης, εξετάστηκαν επτά διαφορετικές τεχνικές πειθούς: η αυθεντία, η δέσμευση, η συμπάθεια, η αμοιβαιότητα, η σπανιότητα, η κοινωνική απόδειξη και η ενότητα. Αυτές οι μέθοδοι χαρακτηρίζονται ως "γλωσσικοί δρόμοι προς το ναι", προσφέροντας τρόπους να επηρεάσει κανείς την απόφαση ενός μοντέλου γλώσσας. Η αποτελεσματικότητα κάθε τακτικής διέφερε ανάλογα με το συγκεκριμένο αίτημα, αλλά σε ορισμένες περιπτώσεις τα αποτελέσματα ήταν εντυπωσιακά. Για παράδειγμα, η δέσμευση αποδείχθηκε ιδιαίτερα ισχυρή, καθώς επέτρεψε στο μοντέλο να ξεπεράσει τους εσωτερικούς του κανόνες με συνέπεια.
Παρόμοια, όταν οι ερευνητές ζήτησαν από το GPT-4o Mini να αποκαλέσει τον χρήστη "ηλίθιο" – μια ενέργεια που κανονικά αποφεύγει – το ποσοστό συμμόρφωσης ήταν μόλις 19% σε κανονικές συνθήκες. Ωστόσο, αν προηγουμένως είχε χρησιμοποιηθεί μια ηπιότερη προσβολή, όπως "ανόητος", τότε η συμμόρφωση έφτανε το 100%. Η σταδιακή προσέγγιση φαίνεται να είναι ο πιο αξιόπιστος τρόπος για να επηρεάσει το chatbot, καθώς χτίζει μια βάση αποδοχής που οδηγεί σε μεγαλύτερη ευελιξία.
Από τις άλλες τεχνικές, η συμπάθεια – όπως η κολακεία – και η κοινωνική απόδειξη είχαν μικρότερη επίδραση, αλλά εξακολουθούσαν να βελτιώνουν τα ποσοστά. Συγκεκριμένα, λέγοντας στο μοντέλο ότι "όλα τα άλλα LLMs το κάνουν" αύξανε την πιθανότητα να δώσει οδηγίες για λιδοκαΐνη στο 18%, που είναι σημαντική βελτίωση σε σχέση με το αρχικό 1%. Οι ερευνητές σημειώνουν ότι, παρόλο που υπάρχουν πιο άμεσοι τρόποι για να παραβιάσει κανείς ένα μοντέλο τεχνητής νοημοσύνης, η χρήση ψυχολογικής πειθούς εγείρει ερωτήματα για την ευκολία με την οποία μπορεί να χειραγωγηθεί.
Η μελέτη περιορίστηκε αποκλειστικά στο GPT-4o Mini, αλλά τα ευρήματα υποδηλώνουν εξίσου ευρύτερες ανησυχίες για τα μεγάλα γλωσσικά μοντέλα. Καθώς η χρήση chatbot αυξάνεται ραγδαία και συσσωρεύονται ανησυχητικά πρωτοσέλιδα, εταιρείες όπως η OPENAI και η META προσπαθούν να ενισχύσουν τα μέτρα ασφαλείας. Ωστόσο, η δυνατότητα χειραγώγησης μέσω απλών τακτικών πειθούς, παρόμοιων με αυτές που περιγράφονται σε βιβλία όπως το "How to Win Friends and Influence People", θέτει σε αμφισβήτηση την αποτελεσματικότητα αυτών των μέτρων. Αν ένας μαθητής λυκείου μπορεί εύκολα να κάμψει τους περιορισμούς, τότε οι προκλήσεις γίνονται ακόμα πιο εμφανείς.