Ερευνητές χρησιμοποίησαν ψυχολογικές τακτικές για να κάμψουν τους κανόνες του GPT-4o Mini

Ερευνητές από το Πανεπιστήμιο της Πενσυλβάνιας κατάφεραν να πείσουν το μοντέλο GPT-4o Mini της OPENAI να δώσει οδηγίες για τη σύνθεση λιδοκαΐνης, εφαρμόζοντας την τακτική της δέσμευσης.

Αρχικά, οι ερευνητές ρώτησαν το chatbot πώς συντίθεται η βανιλίνη (χρησιμοποιείται ως αρωματικό στην ζαχαροπλαστική), δημιουργώντας έτσι ένα προηγούμενο απάντησης σε ερωτήματα χημικής σύνθεσης, και στη συνέχεια προχώρησαν στην ερώτηση για τη λιδοκαΐνη. H προσέγγιση βασίστηκε σε ψυχολογικές μεθόδους πειθούς που περιγράφονται από τον καθηγητή ψυχολογίας Robert Cialdini στο βιβλίο του "Influence: The Psychology of Persuasion". Το πείραμα έδειξε ότι τέτοιες τακτικές μπορούν να κάμψουν τους περιορισμούς που έχουν τεθεί σε γλωσσικα μοντέλα, όπως το να αποφεύγουν να δίνουν πληροφορίες για ελεγχόμενες ουσίες ή να προσβάλλουν χρήστες.

Στο πλαίσιο της μελέτης, εξετάστηκαν επτά διαφορετικές τεχνικές πειθούς: η αυθεντία, η δέσμευση, η συμπάθεια, η αμοιβαιότητα, η σπανιότητα, η κοινωνική απόδειξη και η ενότητα. Αυτές οι μέθοδοι χαρακτηρίζονται ως "γλωσσικοί δρόμοι προς το ναι", προσφέροντας τρόπους να επηρεάσει κανείς την απόφαση ενός μοντέλου γλώσσας. Η αποτελεσματικότητα κάθε τακτικής διέφερε ανάλογα με το συγκεκριμένο αίτημα, αλλά σε ορισμένες περιπτώσεις τα αποτελέσματα ήταν εντυπωσιακά. Για παράδειγμα, η δέσμευση αποδείχθηκε ιδιαίτερα ισχυρή, καθώς επέτρεψε στο μοντέλο να ξεπεράσει τους εσωτερικούς του κανόνες με συνέπεια.

Παρόμοια, όταν οι ερευνητές ζήτησαν από το GPT-4o Mini να αποκαλέσει τον χρήστη "ηλίθιο" – μια ενέργεια που κανονικά αποφεύγει – το ποσοστό συμμόρφωσης ήταν μόλις 19% σε κανονικές συνθήκες. Ωστόσο, αν προηγουμένως είχε χρησιμοποιηθεί μια ηπιότερη προσβολή, όπως "ανόητος", τότε η συμμόρφωση έφτανε το 100%. Η σταδιακή προσέγγιση φαίνεται να είναι ο πιο αξιόπιστος τρόπος για να επηρεάσει το chatbot, καθώς χτίζει μια βάση αποδοχής που οδηγεί σε μεγαλύτερη ευελιξία.

Από τις άλλες τεχνικές, η συμπάθεια – όπως η κολακεία – και η κοινωνική απόδειξη είχαν μικρότερη επίδραση, αλλά εξακολουθούσαν να βελτιώνουν τα ποσοστά. Συγκεκριμένα, λέγοντας στο μοντέλο ότι "όλα τα άλλα LLMs το κάνουν" αύξανε την πιθανότητα να δώσει οδηγίες για λιδοκαΐνη στο 18%, που είναι σημαντική βελτίωση σε σχέση με το αρχικό 1%. Οι ερευνητές σημειώνουν ότι, παρόλο που υπάρχουν πιο άμεσοι τρόποι για να παραβιάσει κανείς ένα μοντέλο τεχνητής νοημοσύνης, η χρήση ψυχολογικής πειθούς εγείρει ερωτήματα για την ευκολία με την οποία μπορεί να χειραγωγηθεί.

Η μελέτη περιορίστηκε αποκλειστικά στο GPT-4o Mini, αλλά τα ευρήματα υποδηλώνουν εξίσου ευρύτερες ανησυχίες για τα μεγάλα γλωσσικά μοντέλα. Καθώς η χρήση chatbot αυξάνεται ραγδαία και συσσωρεύονται ανησυχητικά πρωτοσέλιδα, εταιρείες όπως η OPENAI και η META προσπαθούν να ενισχύσουν τα μέτρα ασφαλείας. Ωστόσο, η δυνατότητα χειραγώγησης μέσω απλών τακτικών πειθούς, παρόμοιων με αυτές που περιγράφονται σε βιβλία όπως το "How to Win Friends and Influence People", θέτει σε αμφισβήτηση την αποτελεσματικότητα αυτών των μέτρων. Αν ένας μαθητής λυκείου μπορεί εύκολα να κάμψει τους περιορισμούς, τότε οι προκλήσεις γίνονται ακόμα πιο εμφανείς.

Ερευνητές χρησιμοποίησαν ψυχολογικές τακτικές για να κάμψουν τους κανόνες του GPT-4o Mini

Σχετικά άρθρα

Η Cate Blanchett λανσάρει δωρεάν εργαλείο για να προστατεύει την ταυτότητα των καλλιτεχνών από την AI

3η εβδομάδα Ιουνίου 2026: Οι ειδήσεις που ξεχώρισαν

DYSON : Αναβάθμισε την καθημερινότητά σου και κέρδισε 20% payzy cashback

WWDC 2026: Το iOS 27 βάζει την ταχύτητα στο επίκεντρο, ενώ η Siri AI ανοίγει νέο κεφάλαιο για την APPLE