Η OPENAI κυκλοφορεί το ChatGPT agent με δυνατότητες αυτόματης εκτέλεσης εργασιών στον υπολογιστή

Η OPENAI λάνσαρε αρχικά στις ΗΠΑ το νέο ChatGPT agent, ένα εργαλείο τεχνητής νοημοσύνης γενικής χρήσης που μπορεί να εκτελεί ποικίλες εργασίες στον υπολογιστή για λογαριασμό των χρηστών. Η νέα λειτουργία, που είναι διαθέσιμη στους συνδρομητές των πακέτων Pro, Plus και Team, συνδυάζει πολλαπλές δυνατότητες από προηγούμενα εργαλεία της εταιρείας, περιλαμβάνοντας τη δυνατότητα του Operator να περιηγείται σε ιστοσελίδες και την ικανότητα του Deep Research να συνθέτει πληροφορίες από δεκάδες ιστότοπους.

Οι χρήστες μπορούν να ενεργοποιήσουν τη λειτουργία επιλέγοντας το "agent mode" από το αναπτυσσόμενο μενού εργαλείων του ChatGPT και να αλληλεπιδράσουν με τον πράκτορα απλώς χρησιμοποιώντας φυσική γλώσσα. Το εργαλείο μπορεί να πλοηγηθεί στο ημερολόγιο του χρήστη, να δημιουργήσει επεξεργάσιμες παρουσιάσεις και να εκτελέσει κώδικα, αντιπροσωπεύοντας την πιο τολμηρή προσπάθεια της OPENAI να μετατρέψει το ChatGPT σε ένα προϊόν που μπορεί να αναλαμβάνει ενέργειες αντί απλώς να απαντά σε ερωτήσεις.

Το ChatGPT agent έχει πρόσβαση σε συνδέσμους εφαρμογών όπως το Gmail και το GitHub, επιτρέποντας στο εργαλείο να βρίσκει πληροφορίες σχετικές με τα αιτήματα του χρήστη. Επιπλέον, διαθέτει πρόσβαση σε τερματικό και μπορεί να χρησιμοποιεί APIs για να αλληλεπιδρά με συγκεκριμένες εφαρμογές. Η OPENAI προτείνει περιπτώσεις χρήσης όπως "σχεδιασμός και αγορά συστατικών για ιαπωνικό πρωινό για τέσσερα άτομα" ή "ανάλυση τριών ανταγωνιστών και δημιουργία παρουσίασης" - εργασίες που απαιτούν την ανάλυση ιστοσελίδων, τον σχεδιασμό δράσης και τη χρήση εργαλείων.

Tο μοντέλο που τροφοδοτεί το ChatGPT agent προσφέρει κορυφαίες επιδόσεις σε διάφορα συγκριτικά τεστ. Συγκεκριμένα, επιτυγχάνει βαθμολογία 41,6% στο Humanity's Last Exam (pass@1), ένα δύσκολο τεστ με χιλιάδες ερωτήσεις σε περισσότερα από εκατό θέματα - σχεδόν διπλάσια επίδοση από τα μοντέλα o3 και o4-mini της OPENAI. Στο FrontierMath, ένα από τα δυσκολότερα γνωστά συγκριτικά τεστ μαθηματικών, το ChatGPT agent σημειώνει 27,4% όταν έχει πρόσβαση σε εργαλεία, όπως τερματικό για εκτέλεση κώδικα, σε σύγκριση με το προηγούμενο ρεκόρ του o4-mini που ήταν μόλις 6,3%.

Η OPENAI δίνει ιδιαίτερη έμφαση στην ασφάλεια του νέου εργαλείου, αναγνωρίζοντας ότι οι αυξημένες δυνατότητές του θα μπορούσαν να το καταστήσουν επικίνδυνο στα χέρια κακόβουλων χρηστών. Στην έκθεση ασφαλείας για το ChatGPT agent, η εταιρεία το χαρακτηρίζει ως μοντέλο "υψηλής ικανότητας" στους τομείς βιολογικών και χημικών όπλων, σύμφωνα με το "Πλαίσιο Ετοιμότητας της OPENAI", που το ορίζει ως μοντέλο με την ικανότητα να "ενισχύει υπάρχουσες διαδρομές προς σοβαρή βλάβη".

Για την αντιμετώπιση αυτών των κινδύνων, η εταιρεία έχει ενεργοποιήσει νέες δικλείδες ασφαλείας, συμπεριλαμβανομένου ενός συστήματος παρακολούθησης που λειτουργεί σε πραγματικό χρόνο καθώς οι χρήστες αλληλεπιδρούν με το προϊόν. Η OPENAI εκτελεί μια ταξινόμηση σε κάθε προτροπή (prompt) που εισάγεται στο ChatGPT agent, προσδιορίζοντας αν το αίτημα σχετίζεται με τη βιολογία. Εάν ναι, η απάντηση του ChatGPT agent περνά από έναν δεύτερο έλεγχο που καθορίζει αν το περιεχόμενο θα μπορούσε να χρησιμοποιηθεί για την πρόκληση βιολογικής απειλής.

Επιπλέον, η εταιρεία απενεργοποίησε τη λειτουργία μνήμης του ChatGPT για αυτόν τον πράκτορα προκειμένου να αποτρέψει την κακόβουλη χρήση. Σε άλλα μέρη του ChatGPT, η λειτουργία μνήμης επιτρέπει στο chatbot να αναφέρεται σε πληροφορίες από προηγούμενες συνομιλίες χρηστών, αλλά η OPENAI επισημαίνει ότι κακόβουλοι χρήστες θα μπορούσαν να χρησιμοποιήσουν αυτή τη λειτουργία στο ChatGPT agent για να αποσπάσουν ευαίσθητα δεδομένα μέσω επιθέσεων εισαγωγής προτροπών.