Η τεχνητή νοημοσύνη αρχίζει να ξεπερνά τους γιατρούς στις ιατρικές διαγνώσεις

Μελέτη που δημοσιεύτηκε στο Science δείχνει ότι το μοντέλο o1 της OpenAI επιτυγχάνει συχνά πιο ακριβείς διαγνώσεις από γιατρούς σε τμήματα επειγόντων, ιδιαίτερα στα αρχικά στάδια όπου τα διαθέσιμα στοιχεία είναι περιορισμένα.

Στα πρώτα στάδια της φροντίδας, όταν τα διαθέσιμα δεδομένα είναι ελάχιστα, το μοντέλο εντόπισε σωστή ή πολύ κοντινή διάγνωση στο 67% των περιστατικών, έναντι περίπου 50% έως 55% των ιατρών. Τα ευρήματα αναδεικνύουν προοπτική για ταχύτερες διαγνώσεις και πιο ενημερωμένες αποφάσεις στις εφημερίες.

Το όραμα για επείγουσα φροντίδα με υποστήριξη τεχνητής νοημοσύνης περιλαμβάνει συνεχή αυτόνομη παρακολούθηση ζωτικών ενδείξεων και ψηφιακούς βοηθούς που ακούν τη συζήτηση γιατρού και ασθενούς, επισημαίνοντας πιθανά λάθη και προτείνοντας επόμενα βήματα. Σύμφωνα με τους ερευνητές, αυτό το σενάριο μπορεί σύντομα να γίνει πραγματικότητα.

Η ομάδα δοκίμασε το o1 σε ποικιλία κλινικών εργασιών, από την ανάγνωση επιλεγμένων ιατρικών προφίλ και την πρόταση διάγνωσης έως την επιλογή επόμενων κινήσεων και την εκτίμηση της πιθανότητας μελλοντικών εξελίξεων στην υγεία. Σε όλες τις δοκιμασίες το μοντέλο τα πήγε παρόμοια ή καλύτερα από τους ιατρούς. Ο Adam Rodman, ιατρός στο Beth Israel Deaconess Medical Center, ανέφερε ότι η διαφορά υπέρ του μοντέλου ήταν τόσο σταθερή που οι συντάκτες ανησύχησαν πως τα αποτελέσματα θα θεωρηθούν απίστευτα.

Σε μία από τις ασκήσεις, το o1 πέτυχε σχεδόν τέλεια βαθμολογία κλινικού συλλογισμού στο 98% των περιπτώσεων, ενώ οι ειδικευμένοι ιατροί έφτασαν το 35%. Η Shreya Johri από το Dana-Farber Cancer Institute σημείωσε ότι η αξιολόγηση της τεχνητής νοημοσύνης στην ιατρική απαιτεί εύρος και βάθος σε διαφορετικά καθήκοντα και περιβάλλοντα, προσθέτοντας πως η ευρεία υιοθέτηση θα κριθεί από το πόσο αξιόπιστα αποδίδει ανά συγκείμενο.

Το πιο κρίσιμο τεστ αφορούσε πραγματικά περιστατικά από το τμήμα επειγόντων του Beth Israel, όπου το o1 κλήθηκε να διαγνώσει σε τρία διαδοχικά σημεία της φροντίδας, από την αρχική καταγραφή έως την ιατρική εκτίμηση και την απόφαση για ενέργειες. Τα πρώτα λεπτά είναι ιδιαίτερα απαιτητικά, αφού λάθη μπορούν να έχουν άμεσες συνέπειες, για παράδειγμα αν μία βακτηριαιμία εκληφθεί ως κοινό κρυολόγημα. Ο Thomas Buckley από το Harvard University τόνισε ότι η διαδικασία χρησιμοποίησε «ακατάστατα» δεδομένα πραγματικού κόσμου που μπορεί να είναι ελλιπή ή μεροληπτικά. Στην αρχική φάση το μοντέλο πέτυχε 67% ακρίβεια σε ακριβή ή πολύ κοντινή διάγνωση, πάνω από 10 ποσοστιαίες μονάδες καλύτερα από δύο ιατρούς που αξιολόγησαν τα ίδια περιστατικά. Αργότερα, καθώς προστίθεντο πληροφορίες, η διαφορά μειώθηκε, αλλά το μοντέλο παρέμεινε μπροστά κατά 2% έως 10%.

Το o1 είχε κυκλοφορήσει για πρώτη φορά στα τέλη του 2024. Ο Buckley χαρακτήρισε αυτή την ηλικία «αρχαία» για τα δεδομένα της μηχανικής μάθησης, ενώ ο Eric Strong από το Stanford University εκτίμησε ότι η παλαιότητα του μοντέλου είναι ουσιαστικά άνευ σημασίας, επειδή νεότερες εκδόσεις πιθανόν να αποδίδουν εξίσου καλά ή καλύτερα.

Οι ειδικοί αντιμετωπίζουν τα αποτελέσματα με ενδιαφέρον. Ο Daniel McDuff από τη GOOGL έκανε λόγο για συναρπαστική δοκιμή σε πραγματικές συνθήκες, ενώ η Johri επαίνεσε την αξιολόγηση των διαγνωστικών και συλλογιστικών ικανοτήτων με τρόπο που καμία μεμονωμένη άσκηση δεν θα πετύχαινε.

Παρά την πρόοδο, παραμένουν όρια. Ο Rodman προειδοποίησε ότι η τρέχουσα έκδοση δεν θα λειτουργούσε καλά σε νοσηλευόμενους με πολυήμερα δεδομένα, όπου η απόδοση θα υποχωρούσε. Επιπλέον, η μελέτη τροφοδότησε το o1 μόνο με γραπτές πληροφορίες και όχι με απεικονίσεις, οι οποίες είναι κρίσιμες για διαγνώσεις όπως θρομβώσεις και καρκίνοι. Η ομάδα ήδη σχεδιάζει νέα πειράματα με μακροπρόθεσμα και ευρύτερα δεδομένα πραγματικού κόσμου. Ο McDuff υπογράμμισε την ανάγκη να φανεί πώς αυτά τα συστήματα μπορούν να βελτιώσουν την πραγματική φροντίδα, καθώς η πορεία ενός ασθενούς εξελίσσεται στον χρόνο.