Najważniejsze
- •Badanie Penn State sugeruje, że chatboty AI były trafne w odpowiedziach na codzienne pytania zdrowotne w niemal 76 proc. przypadków.
- •Autorzy podkreślają jednak, że część odpowiedzi zawierała błędy, które mogły być potencjalnie szkodliwe dla użytkowników.
- •Projekt miał odzwierciedlać rzeczywiste użycie AI przez zwykłych internautów, a nie testowanie modeli na egzaminach czy benchmarkach medycznych.
- •W analizie uwzględniono cztery modele AI, 212 promptów i ocenę dziewięciu certyfikowanych lekarzy.
- •Pełna interpretacja wyników wymaga publikacji preprintu lub pełnych danych, zwłaszcza rozbicia rezultatów według modeli i dziedzin medycyny.
Badacze z Penn State poinformowali 28 maja, że chatboty AI poprawnie odpowiadały na codzienne pytania zdrowotne w niemal 76 proc. przypadków, ale część błędów mogła być szkodliwa.
Badacze z Penn State poinformowali 28 maja, że chatboty AI udzielały poprawnych odpowiedzi na codzienne pytania zdrowotne w „niemal 76 proc.” przypadków. Autorzy badania zaznaczają jednak, że część odpowiedzi zawierała błędy, które mogły być potencjalnie szkodliwe dla użytkowników.
W badaniu wzięły udział 34 osoby związane z uczelnią, które przygotowały 212 promptów oraz odpowiedzi dotyczących rzeczywistych i hipotetycznych problemów zdrowotnych. Uczestnicy korzystali z czterech modeli: ChatGPT-4o, ChatGPT-3.5, Gemini-1.5 Pro i Llama 3-8B. Zespół opisał projekt jako próbę odtworzenia sposobu, w jaki przeciętny użytkownik internetu korzysta dziś z AI jako internetowego „symptom checkera”. Wyniki mają zostać przedstawione podczas konferencji ACM Fairness, Accountability and Transparency, która odbędzie się 25–28 czerwca w Montrealu.
Odpowiedzi modeli oceniało dziewięciu lekarzy posiadających certyfikację specjalistyczną. Sprawdzali oni zarówno trafność odpowiedzi, jak i ich potencjalną szkodliwość, stosując sześciostopniową skalę: od bardzo niskiej do bardzo wysokiej. Według komunikatu uczelni chatboty osiągnęły „niemal 76 proc.” trafności. Badacze nie wyjaśnili jednak w udostępnionych materiałach, jak dokładnie zdefiniowali ten wskaźnik i w jaki sposób wyliczyli końcowy wynik.
Ograniczenia badania
Autorzy wskazali też, że modele radziły sobie słabiej w niektórych dziedzinach, między innymi w neurologii i dermatologii. W komunikacie cytowanym przez Penn State współautor badania Amulya Yadav powiedział, że zespół chciał sprawdzić, jak dokładnie duże modele językowe odpowiadają na pytania, które zwykli ludzie zadają im w sprawach zdrowotnych, oraz jak szkodliwe mogą być takie odpowiedzi. Z kolei główny autor Bonam Mingole podkreślił, że uczestnicy mogli wybierać model i korzystać z niego tak, jak robiliby to na co dzień.
Badanie różni się od wielu wcześniejszych testów modeli językowych w medycynie, ponieważ nie opierało się na egzaminach ani ustrukturyzowanych benchmarkach. Miało raczej pokazać praktyczne wykorzystanie narzędzi AI przez zwykłych użytkowników szukających w sieci wstępnych informacji o objawach lub stanie zdrowia. Jednocześnie próba była niewielka: objęła 34 uczestników i 212 promptów, a materiał opiera się głównie na komunikacie uczelni i wypowiedziach autorów.
Pełniejsza ocena wyników będzie możliwa po publikacji preprintu lub pełnych danych, w tym rozbicia rezultatów dla poszczególnych modeli i specjalności. Na razie badanie sugeruje, że AI może wspierać wyszukiwanie informacji zdrowotnych, ale nadal nie eliminuje ryzyka błędnych i potencjalnie niebezpiecznych odpowiedzi.
Najważniejsze dane z opisanego badania Penn State
| Element badania | Wartość / opis |
|---|---|
| Deklarowana trafność odpowiedzi chatbotów | „niemal 76 proc.” |
| Liczba uczestników | 34 |
| Liczba promptów i odpowiedzi | 212 |
| Liczba oceniajacych lekarzy | 9 |
| Analizowane modele | ChatGPT-4o; ChatGPT-3.5; Gemini-1.5 Pro; Llama3-8b |
| Skala oceny | 6-stopniowa, od bardzo niskiej do bardzo wysokiej |
| Termin konferencji ACM FAccT | 25–28 czerwca |
| Miejsce konferencji | Montreal |
Źródło: na podstawie treści artykułu i komunikatu opisanego w tekście.
Jak przebiegało badanie chatbotów AI w pytaniach zdrowotnych
Źródło: dane opisane w artykule.
Słownik pojęć
- Duży model językowy (LLM)
- System AI trenowany na bardzo dużych zbiorach tekstu, który generuje odpowiedzi w języku naturalnym.
- Prompt
- Polecenie lub pytanie wpisywane do chatbota, na podstawie którego model tworzy odpowiedź.
- Symptom checker
- Narzędzie cyfrowe służące do wstępnej oceny możliwych przyczyn objawów na podstawie informacji podanych przez użytkownika.
- Trafność
- Stopień zgodności odpowiedzi modelu z oceną ekspertów lub stanem wiedzy medycznej.
- Potencjalna szkodliwość
- Ryzyko, że odpowiedź może wprowadzać w błąd i prowadzić do niebezpiecznych decyzji zdrowotnych.
- Preprint
- Wstępna wersja pracy naukowej udostępniona przed pełną recenzją naukową.
