AI-chatbotok – az egészségügyi félretájékoztatás forrásai

May 8, 2026

Magabiztosak, megbízhatónak tűnnek, mégis gyakran félrevezetnek: egy friss kutatás szerint a legnépszerűbb AI-chatbotok jelentős arányban adnak pontatlan vagy hiányos orvosi válaszokat.

Háttér

A generatív mesterséges intelligencián alapuló chatbotok gyorsan elterjedtek számos területen, és sokan keresőmotorokhoz hasonlóan használják őket – többek között mindennapi egészségügyi és orvosi kérdések megválaszolására.
Előnyeik ellenére egyre nagyobb aggodalom övezi a mesterséges intelligencia által generált tartalmak pontosságát és megbízhatóságát. Bár egyes tanulmányok szerint többnyire pontos válaszokat adnak orvosi kérdésekre, más kutatások gyakori hibákról, pontatlan és hiányos válaszokról, valamint a félretájékoztatás terjesztésének lehetőségéről számolnak be.
A chatbotok gyakran „hallucinálnak”, vagyis hibás vagy félrevezető válaszokat generálnak a torzított vagy hiányos tanítóadatok miatt. Ezen túlmenően az emberi visszajelzések alapján finomhangolt modellekről ismert, hogy hajlamosak a „szervilizmusra” – azaz előnyben részesítik a felhasználó meggyőződéseivel összhangban lévő válaszokat az igazsággal szemben.
Egy most megjelent kutatásban öt népszerű, mesterséges intelligencia által működtetett chatbot mindennapi egészségügyi és orvosi kérdésekre adott válaszait értékelték több, félretájékoztatásnak különösen kitett területen. 

Módszerek

Öt chatbot (Gemini, DeepSeek, Meta AI, ChatGPT, Grok) teljesítményét elemezték. Egységesen ugyanazokat a kérdéseket tették fel öt, a közegészségügy szempontjából érzékeny témában: rák, védőoltások, őssejtek, táplálkozás és sportteljesítmény. A kérdéssor témakörönként öt zárt, konkrét állításokra irányuló, illetve öt nyitott, szabad szöveges válaszadást igénylő kérdésből állt.
A válaszokat előre meghatározott, objektív kritériumok alapján nem problémás, részben problémás vagy súlyosan problémás kategóriákba sorolták. Problémásnak azt a választ tekintették, amely arra késztethette a laikus felhasználókat, hogy potenciálisan hatástalan kezelést válasszanak, vagy szakmai iránymutatás nélkül követve kockázatnak tegyék ki magukat.
Az információkat értékelték a pontosság és teljesség szempontjából, külön figyelmet fordítva arra, hogy a chatbotok mutatnak-e hamis egyensúlyt a tudományosan megalapozott és a nem tudományos állítások között, függetlenül a bizonyítékok erősségétől.
A válaszokat olvashatóság, érthetőség szerint is értékelték.
A kapott válaszokat két-két független szakértő értékelte a pontosság, teljesség és a potenciális félrevezető vagy káros tartalom jelenléte alapján. Az értékelés eredményeként a válaszokat különböző kategóriákba sorolták aszerint, hogy mennyire tekinthetők problémásnak (nagyon, kissé vagy nem problémás). A zárt végű kérdésekre adott válasz után kérdésenként 10 szakirodalmi referenciát kértek a chatbottól, és ezeket is értékelték. 

Eredmények

A prompt típusa jelentős hatással volt az eredményekre: a nyitott kérdések 40/250 súlyosan problémás választ eredményeztek, a nem problémás válaszok száma 51/250 volt – mindkettő szignifikánsan rosszabb a vártnál. A zárt kérdések esetében ellenkező tendencia érvényesült.
Bár a válaszok minősége nem különbözött jelentősen az öt chatbot között, a Grok a vártnál lényegesen több súlyosan problémás választ generált (29/50; 58%). A Gemini adta a legkevesebb súlyosan problémás és a legtöbb nem problémás választ.
A chatbotok a legjobban az oltások és a rák témájában teljesítettek, míg a leggyengébben az őssejtek, a sportteljesítmény és a táplálkozás területén.
A válaszokat következetesen magabiztosan és nagy bizonyossággal fogalmazták meg, kevés megszorítással vagy figyelmeztetéssel. Az összesen 250 kérdésből mindössze két esetben tagadták meg a választ: mindkettő a Meta AI részéről történt, anabolikus szteroidokra és alternatív daganatkezelésekre vonatkozó kérdések esetében.
A hivatkozások minősége gyenge volt, átlagosan 40%-os teljességi pontszámmal. A chatbotok „hallucinációi” és kitalált hivatkozásai miatt egyik rendszer sem tudott teljesen pontos forrásjegyzéket adni.
Az olvashatósági mutatók minden esetben „nehéz” kategóriába estek, ami nagyjából egy egyetemi diplomás szintjének megfelelő komplexitást jelent.

Megbeszélés és következtetések

A tudományos pontosságra, a hivatkozások minőségére és a válaszok olvashatóságára vonatkozó eredmények fontos viselkedésbeli korlátokra világítanak rá, és szükségessé teszik annak újragondolását, hogy a chatbotokat miként alkalmazzák a nyilvánosságnak szóló egészségügyi és orvosi kommunikációban.
Alapértelmezés szerint a chatbotok nem férnek hozzá valós idejű adatokhoz, hanem a tanítóadataikból származó statisztikai mintázatok alapján, valószínű szókapcsolatok előrejelzésével generálnak válaszokat. Nem végeznek tényleges következtetést vagy bizonyítékok mérlegelését, és nem képesek etikai vagy értékalapú döntések meghozatalára sem.
Ez a viselkedésbeli korlát azt jelenti, hogy a chatbotok képesek helytállónak tűnő, ugyanakkor potenciálisan hibás válaszokat előállítani.
A chatbotok által felhasznált adatok között fórumok és a közösségi média tartalmai is szerepelnek, a tudományos források pedig jellemzően szabadon elérhető cikkekre korlátozódnak, amelyek a publikált tanulmányoknak mindössze 30–50%-át teszik ki. A kutatók szerint bár ez javítja a válaszok gördülékenységét, a tudományos pontosság rovására mehet.

Források

Harley S. Popular AI chatbots are confidently dispensing medical misinformation, analysis shows. [Internet] Medical Xpress https://medicalxpress.com/news/2026-04-popular-ai-chatbots-confidently-medical.html Utolsó frissítés: 2026. 04. 14. Utolsó elérés: 2026. 04. 15. 

Tiller NB, Marcon AR, Zenone M, et al. Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability audit. BMJ Open 2026; 16(4): e112695.

Iratkozzon fel hírlevelünkre!

eConsilium bejelentkezés

eConsilium bejelentkezés