AI in healthcare: Accurate Innovation or Alarming Inconsistencies? The role of Large Language Models in Self-Care: A Study on Medical and Supplement Guidance Accuracy
Universiteit Antwerpen
2024
In deze studie werd de prestatie van zes grote taalmodellen (GPT-3.5, GPT-4.0, Copilot, Gemini, Gemini Advanced en Perplexity) geëvalueerd op hun vermogen om nauwkeurige zelfzorgadviezen te geven over medicatie en supplementen. De taalmodellen werden getest met een reeks zelfzorgvragen in verschillende contexten en hun antwoorden werden systematisch verzameld en beoordeeld. De evaluatiecriteria omvatten de nauwkeurigheid van de antwoorden en hun potentieel om de patiënt te helpen.
De resultaten geven aan dat taalmodellen zeer goed in staat zijn om zelfzorgvragen nauwkeurig te beantwoorden en beschikken over de nodige kennis om relevante gezondheidsinformatie te verstrekken. GPT-4.0 kwam naar voren als het meest betrouwbare model en leverde nauwkeurige en uitgebreide antwoorden.
Een belangrijke bevinding van de studie is de aanzienlijke variabiliteit in de antwoorden tussen de modellen, beïnvloed door factoren zoals taal, vraagstructuur en gebruikerscontext. De meeste modellen presteerden beter bij vragen in het Engels dan in het Nederlands, wat wijst op een sterkere trainingsbasis in het Engels. De formulering van de vragen had ook een aanzienlijke invloed, waarbij modellen vaak hun antwoorden aanpasten op basis van de waargenomen voorkeuren van de gebruiker. Dit ondersteunt bevestigingsbias. Deze variabiliteit benadrukt de noodzaak van zorgvuldige overweging bij het integreren van AI-taalmodellen in de gezondheidszorg, aangezien inconsistente antwoorden kunnen leiden tot misinformatie en mogelijks schadelijke beslissingen.
De studie benadrukt dat taalmodellen een cruciaal onderdeel van patiëntenzorg zullen worden. Wanneer ze correct worden gebruikt, kunnen deze modellen de uitkomsten voor patiënten aanzienlijk verbeteren door toegankelijke en nauwkeurige gezondheidsinformatie te verstrekken. Het vermogen van grote taalmodellen om de last voor zorgverleners te verlichten, het begrip van patiënten over medische aandoeningen te verbeteren en 24/7 assistentie te bieden, maakt hen een waardevol hulpmiddel in de moderne gezondheidszorg. Hun inzet moet echter voorzichtig worden benaderd, met zorgvuldige validatie en het aanpakken van mogelijke risico's om hun voordelen te maximaliseren en schade te minimaliseren.
Meer lezen