Penn State: chatboty AI trafnie odpowiadały na codzienne pytania zdrowotne w niemal 76 proc. przypadków

Komentarz redakcji

Zespół z Penn State ocenił, jak cztery popularne modele AI radzą sobie z codziennymi pytaniami zdrowotnymi zadawanymi przez zwykłych użytkowników. Lekarze uznali, że odpowiedzi były trafne w „niemal 76 proc.” przypadków, jednak autorzy zaznaczają, że narzędzia nadal popełniają błędy i nie powinny zastępować oceny klinicznej.

Najważniejsze

•Badanie Penn State sugeruje, że chatboty AI były trafne w odpowiedziach na codzienne pytania zdrowotne w niemal 76 proc. przypadków.
•Autorzy podkreślają jednak, że część odpowiedzi zawierała błędy, które mogły być potencjalnie szkodliwe dla użytkowników.
•Projekt miał odzwierciedlać rzeczywiste użycie AI przez zwykłych internautów, a nie testowanie modeli na egzaminach czy benchmarkach medycznych.
•W analizie uwzględniono cztery modele AI, 212 promptów i ocenę dziewięciu certyfikowanych lekarzy.
•Pełna interpretacja wyników wymaga publikacji preprintu lub pełnych danych, zwłaszcza rozbicia rezultatów według modeli i dziedzin medycyny.

1 dzień temu

2 min

Najważniejsze

•Badanie Penn State sugeruje, że chatboty AI były trafne w odpowiedziach na codzienne pytania zdrowotne w niemal 76 proc. przypadków.
•Autorzy podkreślają jednak, że część odpowiedzi zawierała błędy, które mogły być potencjalnie szkodliwe dla użytkowników.
•Projekt miał odzwierciedlać rzeczywiste użycie AI przez zwykłych internautów, a nie testowanie modeli na egzaminach czy benchmarkach medycznych.
•W analizie uwzględniono cztery modele AI, 212 promptów i ocenę dziewięciu certyfikowanych lekarzy.
•Pełna interpretacja wyników wymaga publikacji preprintu lub pełnych danych, zwłaszcza rozbicia rezultatów według modeli i dziedzin medycyny.

Badacze z Penn State poinformowali 28 maja, że chatboty AI poprawnie odpowiadały na codzienne pytania zdrowotne w niemal 76 proc. przypadków, ale część błędów mogła być szkodliwa.

Źródło zdjęcia: unsplash.com - by National Cancer Institute

Badacze z Penn State poinformowali 28 maja, że chatboty AI udzielały poprawnych odpowiedzi na codzienne pytania zdrowotne w „niemal 76 proc.” przypadków. Autorzy badania zaznaczają jednak, że część odpowiedzi zawierała błędy, które mogły być potencjalnie szkodliwe dla użytkowników.

W badaniu wzięły udział 34 osoby związane z uczelnią, które przygotowały 212 promptów oraz odpowiedzi dotyczących rzeczywistych i hipotetycznych problemów zdrowotnych. Uczestnicy korzystali z czterech modeli: ChatGPT-4o, ChatGPT-3.5, Gemini-1.5 Pro i Llama 3-8B. Zespół opisał projekt jako próbę odtworzenia sposobu, w jaki przeciętny użytkownik internetu korzysta dziś z AI jako internetowego „symptom checkera”. Wyniki mają zostać przedstawione podczas konferencji ACM Fairness, Accountability and Transparency, która odbędzie się 25–28 czerwca w Montrealu.

Odpowiedzi modeli oceniało dziewięciu lekarzy posiadających certyfikację specjalistyczną. Sprawdzali oni zarówno trafność odpowiedzi, jak i ich potencjalną szkodliwość, stosując sześciostopniową skalę: od bardzo niskiej do bardzo wysokiej. Według komunikatu uczelni chatboty osiągnęły „niemal 76 proc.” trafności. Badacze nie wyjaśnili jednak w udostępnionych materiałach, jak dokładnie zdefiniowali ten wskaźnik i w jaki sposób wyliczyli końcowy wynik.

Ograniczenia badania

Autorzy wskazali też, że modele radziły sobie słabiej w niektórych dziedzinach, między innymi w neurologii i dermatologii. W komunikacie cytowanym przez Penn State współautor badania Amulya Yadav powiedział, że zespół chciał sprawdzić, jak dokładnie duże modele językowe odpowiadają na pytania, które zwykli ludzie zadają im w sprawach zdrowotnych, oraz jak szkodliwe mogą być takie odpowiedzi. Z kolei główny autor Bonam Mingole podkreślił, że uczestnicy mogli wybierać model i korzystać z niego tak, jak robiliby to na co dzień.

Badanie różni się od wielu wcześniejszych testów modeli językowych w medycynie, ponieważ nie opierało się na egzaminach ani ustrukturyzowanych benchmarkach. Miało raczej pokazać praktyczne wykorzystanie narzędzi AI przez zwykłych użytkowników szukających w sieci wstępnych informacji o objawach lub stanie zdrowia. Jednocześnie próba była niewielka: objęła 34 uczestników i 212 promptów, a materiał opiera się głównie na komunikacie uczelni i wypowiedziach autorów.

Pełniejsza ocena wyników będzie możliwa po publikacji preprintu lub pełnych danych, w tym rozbicia rezultatów dla poszczególnych modeli i specjalności. Na razie badanie sugeruje, że AI może wspierać wyszukiwanie informacji zdrowotnych, ale nadal nie eliminuje ryzyka błędnych i potencjalnie niebezpiecznych odpowiedzi.

Najważniejsze dane z opisanego badania Penn State

Element badania	Wartość / opis
Deklarowana trafność odpowiedzi chatbotów	„niemal 76 proc.”
Liczba uczestników	34
Liczba promptów i odpowiedzi	212
Liczba oceniajacych lekarzy	9
Analizowane modele	ChatGPT-4o; ChatGPT-3.5; Gemini-1.5 Pro; Llama3-8b
Skala oceny	6-stopniowa, od bardzo niskiej do bardzo wysokiej
Termin konferencji ACM FAccT	25–28 czerwca
Miejsce konferencji	Montreal

Źródło: na podstawie treści artykułu i komunikatu opisanego w tekście.

Jak przebiegało badanie chatbotów AI w pytaniach zdrowotnych

Uczestnicy

Osoby związane z Penn State przygotowały pytania zdrowotne.

Prompty

Zebrano rzeczywiste i hipotetyczne pytania oraz odpowiedzi.

Modele AI

Porównano ChatGPT-4o, ChatGPT-3.5, Gemini-1.5 Pro i Llama3-8b.

Ocena lekarska

Eksperci oceniali trafność i potencjalną szkodliwość odpowiedzi.

Wynik

Tyle miała wynieść ogólna trafność odpowiedzi według komunikatu.

Źródło: dane opisane w artykule.

Słownik pojęć

Duży model językowy (LLM): System AI trenowany na bardzo dużych zbiorach tekstu, który generuje odpowiedzi w języku naturalnym.
Prompt: Polecenie lub pytanie wpisywane do chatbota, na podstawie którego model tworzy odpowiedź.
Symptom checker: Narzędzie cyfrowe służące do wstępnej oceny możliwych przyczyn objawów na podstawie informacji podanych przez użytkownika.
Trafność: Stopień zgodności odpowiedzi modelu z oceną ekspertów lub stanem wiedzy medycznej.
Potencjalna szkodliwość: Ryzyko, że odpowiedź może wprowadzać w błąd i prowadzić do niebezpiecznych decyzji zdrowotnych.
Preprint: Wstępna wersja pracy naukowej udostępniona przed pełną recenzją naukową.

Najczęstsze pytania

Czy można ufać chatbotowi AI w sprawach zdrowotnych?▼

Może on pomóc we wstępnym wyszukiwaniu informacji, ale nie zastępuje lekarza. Nawet jeśli część odpowiedzi bywa trafna, niektóre mogą być błędne lub potencjalnie szkodliwe.

Co oznacza wynik „niemal 76 proc.” trafności?▼

To ogólny wskaźnik podany w komunikacie o badaniu. Artykuł zaznacza jednak, że bez pełnych danych nie wiadomo dokładnie, jak został zdefiniowany i obliczony.

Które obszary były trudniejsze dla modeli AI?▼

Według opisu badania chatboty radziły sobie słabiej m.in. w neurologii i dermatologii.

Czy to badanie dowodzi, że AI nadaje się do samodiagnozy?▼

Nie. Badanie sugeruje jedynie, że AI może wspierać wstępne wyszukiwanie informacji zdrowotnych, ale nadal istnieje ryzyko błędów i niebezpiecznych porad.

Czego brakuje do pełnej oceny wyników?▼

Potrzebne są preprint lub pełna publikacja, metodologia obliczenia trafności oraz rozbicie wyników na poszczególne modele i specjalności medyczne.

Pierwsi napisali na ten temat

psu.edu

Doctor GPT: AI Achieves Nearly 76% Accuracy in Answering Healthcare Queries

bioengineer.org · 2026-05-28T00:00:00+00:00

AI chatbots answer health questions with moderate overall accuracy

news-medical.net · 2026-05-28T00:00:00+00:00

Even the Best AI Chatbot Gets Health Questions Wrong 1 in 5 Times, Doctors Find

studyfinds.com · 2026-05-29T14:20:03.218824+00:00

AI Doctor: GPT's Healthcare Answers 76% Accurate

miragenews.com · 2026-05-28T00:00:00+00:00

Komentarze (0)

Następny artykuł

Ten test może zmienić leczenie raka piersi. Nie każda pacjentka skorzysta z chemioterapii

Międzynarodowe badanie OPTIMA objęło 4429 osób w wieku 40 lat i starszych z wczesnym hormonowrażliwym rakiem piersi. U 68 proc. uczestników wynik testu Prosigna był niski, a ich 5-letnie przeżycie bez nawrotu było zbliżone niezależnie od zastosowania chemioterapii. Wyniki mają zostać przedstawione na konferencji ASCO 2026 w Chicago.

Czytaj dalej

Powiązane artykuły

Ten test może zmienić leczenie raka piersi. Nie każda pacjentka skorzysta z chemioterapii

UCL poinformował przed prezentacją wyników na konferencji ASCO w Chicago, że test genomowy Prosigna może pomóc części pacjentów w wieku 40 lat i starszych z wczesnym hormonowrażliwym rakiem piersi bezpiecznie uniknąć chemioterapii.

bbc.com

thenews.com.pk+6

30 maj

Depresja poporodowa w USA bywa mylona z baby blues

AP opisała 30 maja przypadki depresji poporodowej w USA i ostrzegła, że zaburzenie to bywa mylone z łagodniejszym „baby blues”, mimo rosnącej liczby rozpoznań.

wral.com

clickorlando.com+2

30 maj

Eksperci ostrzegają przed ryzykiem związanym z dzikim mięsem podczas epidemii Eboli w DR Konga i Ugandzie

Eksperci ostrzegają, że mimo epidemii Eboli Bundibugyo, ogłoszonej 15 maja w DR Konga, utrzymuje się popyt na dzikie mięso, a ognisko objęło także Ugandę.

wnct.com

apnews.com+6

30 maj

Nigeria: urzędnik w Borno informuje o 37 zgonach i ponad 3 tys. przypadków cholery

Urzędnik ds. zdrowia w stanie Borno poinformował w sobotę, że majowa epidemia cholery zabiła tam co najmniej 37 osób i objęła ponad 3 tys. zgłoszonych przypadków.

nigerianeye.com

businessday.ng+4

30 maj

W Rzeszowie rusza budowa centrum pediatrii za ok. 760 mln zł

Władze Podkarpacia podpisały pod koniec maja w Rzeszowie umowę rozpoczynającą budowę Podkarpackiego Centrum Medycyny Dziecięcej o wartości ok. 760 mln zł.

rzeszow-news.pl

portalsamorzadowy.pl+7

30 maj

JAMA: umiarkowane picie kawy i herbaty wiązało się z niższym ryzykiem demencji

Badanie opublikowane w 2026 r. w „JAMA” wykazało, że umiarkowane spożycie kofeinowej kawy i herbaty w USA wiązało się z niższym ryzykiem demencji.

huffpost.com

sciencedaily.com+3

30 maj