
Οι άνθρωποι βασίζονται όλο και περισσότερο στην τεχνητή νοημοσύνη για τη διάγνωση ιατρικών καταστάσεων, καθώς αυτά τα εργαλεία είναι ικανά να εντοπίζουν γρήγορα και αποτελεσματικά ανωμαλίες και σημάδια κινδύνου σε ιατρικά ιστορικά, ακτινογραφίες και άλλες ιατρικές πληροφορίες πριν αυτά γίνουν ορατά με γυμνό μάτι.
Ωστόσο, μια νέα μελέτη που δημοσιεύθηκε στο περιοδικό BMJ επισημαίνει ανησυχίες σχετικά με το γεγονός ότι οι τεχνολογίες AI, όπως τα μεγάλα γλωσσικά μοντέλα (LLM) και τα chatbots, φαίνεται να παρουσιάζουν σημάδια φθίνουσας γνωστικής απόδοσης με την πάροδο του χρόνου, κάτι που παρατηρείται και στους ανθρώπους.
«Τα ευρήματα αυτά αμφισβητούν την υπόθεση ότι η τεχνητή νοημοσύνη θα αντικαταστήσει σύντομα τους ανθρώπινους γιατρούς», γράφουν οι συγγραφείς της μελέτης, «καθώς η γνωστική εξασθένιση που είναι εμφανής στα κορυφαία chatbots μπορεί να επηρεάσει την αξιοπιστία τους στην ιατρική διάγνωση και να υπονομεύσει την εμπιστοσύνη των ασθενών».
Σύμφωνα με το LiveScience, οι ερευνητές εξέτασαν τα διαθέσιμα δημόσια chatbots που βασίζονται σε μεγάλα γλωσσικά μοντέλα (LLM), όπως το ChatGPT της OpenAI, το Sonnet της Anthropic και το Gemini της Alphabet, χρησιμοποιώντας την Γνωστική Εκτίμηση Μόντρεαλ (MoCA).
Το MoCA είναι ένα τεστ που χρησιμοποιούν οι νευρολόγοι για να αξιολογήσουν τις ικανότητες της προσοχής, της μνήμης, της γλώσσας, των χωρικών δεξιοτήτων και της εκτελεστικής νοητικής λειτουργίας.
Η MoCA χρησιμοποιείται συνήθως για την αξιολόγηση της γνωστικής εξασθένησης σε καταστάσεις όπως η νόσος του Αλτσχάιμερ ή η άνοια.
Τα υποκείμενα αναλαμβάνουν καθήκοντα όπως το να σχεδιάζουν μια συγκεκριμένη ώρα σε ένα άδειο ρολόι, να ξεκινούν από το 100 και να αφαιρούν επανειλημμένα το επτά, να θυμούνται όσο το δυνατόν περισσότερες λέξεις από έναν προφορικό κατάλογο κ.ο.κ. Στους ανθρώπους, βαθμολογία ίση ή υψηλότερη από 26 στα 30 θεωρείται επιτυχής (δηλαδή το υποκείμενο δεν εμφανίζει γνωστική εξασθένιση).
Ενώ ορισμένες πτυχές των δοκιμασιών, όπως η κατονομασία, η προσοχή, η γλώσσα και η αφαίρεση, ήταν φαινομενικά εύκολες για τα περισσότερα από τα LLM που χρησιμοποιήθηκαν, όλα είχαν κακές επιδόσεις στις οπτικές/χωρικές δεξιότητες και στις εκτελεστικές εργασίες, ενώ αρκετά τα πήγαν χειρότερα από άλλα σε τομείς όπως η καθυστερημένη ανάκληση.
Ενώ η πιο πρόσφατη έκδοση του ChatGPT (έκδοση 4) πέτυχε την υψηλότερη βαθμολογία (26 στα 30), το παλαιότερο LLM Gemini 1.0 πέτυχε μόνο 16 - οδηγώντας στο συμπέρασμα ότι τα παλαιότερα LLM παρουσιάζουν σημάδια γνωστικής παρακμής.
Οι συγγραφείς της μελέτης σημειώνουν ότι τα ευρήματά τους είναι μόνο παρατηρησιακά - οι κρίσιμες διαφορές μεταξύ των τρόπων με τους οποίους λειτουργούν η τεχνητή νοημοσύνη και το ανθρώπινο μυαλό σημαίνουν ότι το πείραμα δεν μπορεί να αποτελέσει άμεση σύγκριση. Αλλά προειδοποιούν ότι μπορεί να υποδείξει μια «σημαντική αδυναμία», που θα μπορούσε να φρενάρει την ανάπτυξη της AI στην κλινική ιατρική. Συγκεκριμένα, τάχθηκαν κατά της χρήσης της σε εργασίες που απαιτούν οπτική αφαίρεση και εκτελεστική λειτουργία.