Een recent onderzoek onthult dat ChatGPT, hoewel eerder geprezen om zijn medische capaciteiten, niet betrouwbaar is voor het beoordelen van bepaalde gezondheidsaspecten, zoals het inschatten van hartrisico’s.

In duizenden gesimuleerde gevallen van patiënten met pijn op de borst, kwam ChatGPT tot wisselende oordelen bij herhaalde presentatie van identieke patiëntgegevens. Dit resulteerde in inconsistentie en foutieve beoordelingen, wat zorgen baart voor de medische toepassing ervan.

Hoofdauteur Dr. Thomas Heston van de Washington State University merkte op dat de willekeurigheid ingebouwd in de huidige versie van ChatGPT, genaamd ChatGPT4, een cruciale rol speelt in deze inconsistentie. Hoewel de tool potentieel nuttig kan zijn, is de technologie mogelijk nog niet volledig geschikt voor klinische besluitvorming, waar eenduidige en betrouwbare beoordelingen essentieel zijn.

Pijn op de borst is een veelvoorkomende klacht waarbij het inschatten van het hartrisico van cruciaal belang is. Medische professionals gebruiken traditioneel scores zoals TIMI en HEART om deze risico’s te beoordelen, wat ChatGPT niet altijd even goed lijkt te kunnen repliceren. In het onderzoek kwam naar voren dat ChatGPT bijna de helft van de gevallen afweek van de resultaten van deze scores, wat aantoont dat het nog niet op hetzelfde niveau presteert als ervaren medische professionals.

Ondanks deze bevindingen wordt ChatGPT al gebruikt in de medische praktijk, voornamelijk voor routinematige zorgtaken en klinische besluitvorming. Het is echter van cruciaal belang dat artsen zich bewust zijn van de beperkingen van AI-tools zoals ChatGPT en deze gebruiken met de nodige voorzichtigheid en kritische evaluatie. Hoewel AI-tools zoals ChatGPT potentieel hebben in de medische wereld, is er nog veel onderzoek en ontwikkeling nodig om hun betrouwbaarheid en nauwkeurigheid te verbeteren voordat ze op grote schaal kunnen worden ingezet voor complexe klinische besluitvorming.

Bron: de website van ICT & Health