Penn State: chatboty AI trafnie odpowiadały na codzienne pytania zdrowotne w niemal 76 proc. przypadków

Komentarz redakcji

Zespół z Penn State ocenił, jak cztery popularne modele AI radzą sobie z codziennymi pytaniami zdrowotnymi zadawanymi przez zwykłych użytkowników. Lekarze uznali, że odpowiedzi były trafne w „niemal 76 proc.” przypadków, jednak autorzy zaznaczają, że narzędzia nadal popełniają błędy i nie powinny zastępować oceny klinicznej.

Najważniejsze

  • Badanie Penn State sugeruje, że chatboty AI były trafne w odpowiedziach na codzienne pytania zdrowotne w niemal 76 proc. przypadków.
  • Autorzy podkreślają jednak, że część odpowiedzi zawierała błędy, które mogły być potencjalnie szkodliwe dla użytkowników.
  • Projekt miał odzwierciedlać rzeczywiste użycie AI przez zwykłych internautów, a nie testowanie modeli na egzaminach czy benchmarkach medycznych.
  • W analizie uwzględniono cztery modele AI, 212 promptów i ocenę dziewięciu certyfikowanych lekarzy.
  • Pełna interpretacja wyników wymaga publikacji preprintu lub pełnych danych, zwłaszcza rozbicia rezultatów według modeli i dziedzin medycyny.
1 dzień temu
·
2 min

Badacze z Penn State poinformowali 28 maja, że chatboty AI poprawnie odpowiadały na codzienne pytania zdrowotne w niemal 76 proc. przypadków, ale część błędów mogła być szkodliwa.

Źródło zdjęcia: unsplash.com - by National Cancer Institute
Źródło zdjęcia: unsplash.com - by National Cancer Institute

Badacze z Penn State poinformowali 28 maja, że chatboty AI udzielały poprawnych odpowiedzi na codzienne pytania zdrowotne w „niemal 76 proc.” przypadków. Autorzy badania zaznaczają jednak, że część odpowiedzi zawierała błędy, które mogły być potencjalnie szkodliwe dla użytkowników.

W badaniu wzięły udział 34 osoby związane z uczelnią, które przygotowały 212 promptów oraz odpowiedzi dotyczących rzeczywistych i hipotetycznych problemów zdrowotnych. Uczestnicy korzystali z czterech modeli: ChatGPT-4o, ChatGPT-3.5, Gemini-1.5 Pro i Llama 3-8B. Zespół opisał projekt jako próbę odtworzenia sposobu, w jaki przeciętny użytkownik internetu korzysta dziś z AI jako internetowego „symptom checkera”. Wyniki mają zostać przedstawione podczas konferencji ACM Fairness, Accountability and Transparency, która odbędzie się 25–28 czerwca w Montrealu.

Odpowiedzi modeli oceniało dziewięciu lekarzy posiadających certyfikację specjalistyczną. Sprawdzali oni zarówno trafność odpowiedzi, jak i ich potencjalną szkodliwość, stosując sześciostopniową skalę: od bardzo niskiej do bardzo wysokiej. Według komunikatu uczelni chatboty osiągnęły „niemal 76 proc.” trafności. Badacze nie wyjaśnili jednak w udostępnionych materiałach, jak dokładnie zdefiniowali ten wskaźnik i w jaki sposób wyliczyli końcowy wynik.

Ograniczenia badania

Autorzy wskazali też, że modele radziły sobie słabiej w niektórych dziedzinach, między innymi w neurologii i dermatologii. W komunikacie cytowanym przez Penn State współautor badania Amulya Yadav powiedział, że zespół chciał sprawdzić, jak dokładnie duże modele językowe odpowiadają na pytania, które zwykli ludzie zadają im w sprawach zdrowotnych, oraz jak szkodliwe mogą być takie odpowiedzi. Z kolei główny autor Bonam Mingole podkreślił, że uczestnicy mogli wybierać model i korzystać z niego tak, jak robiliby to na co dzień.

Badanie różni się od wielu wcześniejszych testów modeli językowych w medycynie, ponieważ nie opierało się na egzaminach ani ustrukturyzowanych benchmarkach. Miało raczej pokazać praktyczne wykorzystanie narzędzi AI przez zwykłych użytkowników szukających w sieci wstępnych informacji o objawach lub stanie zdrowia. Jednocześnie próba była niewielka: objęła 34 uczestników i 212 promptów, a materiał opiera się głównie na komunikacie uczelni i wypowiedziach autorów.

Pełniejsza ocena wyników będzie możliwa po publikacji preprintu lub pełnych danych, w tym rozbicia rezultatów dla poszczególnych modeli i specjalności. Na razie badanie sugeruje, że AI może wspierać wyszukiwanie informacji zdrowotnych, ale nadal nie eliminuje ryzyka błędnych i potencjalnie niebezpiecznych odpowiedzi.

Najważniejsze dane z opisanego badania Penn State

Element badaniaWartość / opis
Deklarowana trafność odpowiedzi chatbotów„niemal 76 proc.”
Liczba uczestników34
Liczba promptów i odpowiedzi212
Liczba oceniajacych lekarzy9
Analizowane modeleChatGPT-4o; ChatGPT-3.5; Gemini-1.5 Pro; Llama3-8b
Skala oceny6-stopniowa, od bardzo niskiej do bardzo wysokiej
Termin konferencji ACM FAccT25–28 czerwca
Miejsce konferencjiMontreal

Źródło: na podstawie treści artykułu i komunikatu opisanego w tekście.

Jak przebiegało badanie chatbotów AI w pytaniach zdrowotnych

1
Uczestnicy
Osoby związane z Penn State przygotowały pytania zdrowotne.
2
Prompty
Zebrano rzeczywiste i hipotetyczne pytania oraz odpowiedzi.
3
Modele AI
Porównano ChatGPT-4o, ChatGPT-3.5, Gemini-1.5 Pro i Llama3-8b.
4
Ocena lekarska
Eksperci oceniali trafność i potencjalną szkodliwość odpowiedzi.
5
Wynik
Tyle miała wynieść ogólna trafność odpowiedzi według komunikatu.

Źródło: dane opisane w artykule.

Słownik pojęć

Duży model językowy (LLM)
System AI trenowany na bardzo dużych zbiorach tekstu, który generuje odpowiedzi w języku naturalnym.
Prompt
Polecenie lub pytanie wpisywane do chatbota, na podstawie którego model tworzy odpowiedź.
Symptom checker
Narzędzie cyfrowe służące do wstępnej oceny możliwych przyczyn objawów na podstawie informacji podanych przez użytkownika.
Trafność
Stopień zgodności odpowiedzi modelu z oceną ekspertów lub stanem wiedzy medycznej.
Potencjalna szkodliwość
Ryzyko, że odpowiedź może wprowadzać w błąd i prowadzić do niebezpiecznych decyzji zdrowotnych.
Preprint
Wstępna wersja pracy naukowej udostępniona przed pełną recenzją naukową.

Najczęstsze pytania

Czy można ufać chatbotowi AI w sprawach zdrowotnych?
Może on pomóc we wstępnym wyszukiwaniu informacji, ale nie zastępuje lekarza. Nawet jeśli część odpowiedzi bywa trafna, niektóre mogą być błędne lub potencjalnie szkodliwe.
Co oznacza wynik „niemal 76 proc.” trafności?
To ogólny wskaźnik podany w komunikacie o badaniu. Artykuł zaznacza jednak, że bez pełnych danych nie wiadomo dokładnie, jak został zdefiniowany i obliczony.
Które obszary były trudniejsze dla modeli AI?
Według opisu badania chatboty radziły sobie słabiej m.in. w neurologii i dermatologii.
Czy to badanie dowodzi, że AI nadaje się do samodiagnozy?
Nie. Badanie sugeruje jedynie, że AI może wspierać wstępne wyszukiwanie informacji zdrowotnych, ale nadal istnieje ryzyko błędów i niebezpiecznych porad.
Czego brakuje do pełnej oceny wyników?
Potrzebne są preprint lub pełna publikacja, metodologia obliczenia trafności oraz rozbicie wyników na poszczególne modele i specjalności medyczne.

Pierwsi napisali na ten temat

Komentarze (0)

0/2000
Następny artykuł

Ten test może zmienić leczenie raka piersi. Nie każda pacjentka skorzysta z chemioterapii

Międzynarodowe badanie OPTIMA objęło 4429 osób w wieku 40 lat i starszych z wczesnym hormonowrażliwym rakiem piersi. U 68 proc. uczestników wynik testu Prosigna był niski, a ich 5-letnie przeżycie bez nawrotu było zbliżone niezależnie od zastosowania chemioterapii. Wyniki mają zostać przedstawione na konferencji ASCO 2026 w Chicago.

Czytaj dalej

Powiązane artykuły

Ten test może zmienić leczenie raka piersi. Nie każda pacjentka skorzysta z chemioterapii

UCL poinformował przed prezentacją wyników na konferencji ASCO w Chicago, że test genomowy Prosigna może pomóc części pacjentów w wieku 40 lat i starszych z wczesnym hormonowrażliwym rakiem piersi bezpiecznie uniknąć chemioterapii.

bbc.com
thenews.com.pk
+6
30 maj

Depresja poporodowa w USA bywa mylona z baby blues

AP opisała 30 maja przypadki depresji poporodowej w USA i ostrzegła, że zaburzenie to bywa mylone z łagodniejszym „baby blues”, mimo rosnącej liczby rozpoznań.

wral.com
clickorlando.com
+2
30 maj

Eksperci ostrzegają przed ryzykiem związanym z dzikim mięsem podczas epidemii Eboli w DR Konga i Ugandzie

Eksperci ostrzegają, że mimo epidemii Eboli Bundibugyo, ogłoszonej 15 maja w DR Konga, utrzymuje się popyt na dzikie mięso, a ognisko objęło także Ugandę.

wnct.com
apnews.com
+6
30 maj

Nigeria: urzędnik w Borno informuje o 37 zgonach i ponad 3 tys. przypadków cholery

Urzędnik ds. zdrowia w stanie Borno poinformował w sobotę, że majowa epidemia cholery zabiła tam co najmniej 37 osób i objęła ponad 3 tys. zgłoszonych przypadków.

nigerianeye.com
businessday.ng
+4
30 maj

W Rzeszowie rusza budowa centrum pediatrii za ok. 760 mln zł

Władze Podkarpacia podpisały pod koniec maja w Rzeszowie umowę rozpoczynającą budowę Podkarpackiego Centrum Medycyny Dziecięcej o wartości ok. 760 mln zł.

rzeszow-news.pl
portalsamorzadowy.pl
+7
30 maj

JAMA: umiarkowane picie kawy i herbaty wiązało się z niższym ryzykiem demencji

Badanie opublikowane w 2026 r. w „JAMA” wykazało, że umiarkowane spożycie kofeinowej kawy i herbaty w USA wiązało się z niższym ryzykiem demencji.

huffpost.com
sciencedaily.com
+3
30 maj
StartSzukaj