Ocena działania dużego modelu językowego w zadaniach rozumowania klinicznego lekarza

Performance of a large language model on the reasoning tasks of a physician.

Brodeur Peter G, Buckley Thomas A, Kanjee Zahir, Goh Ethan, Ling Evelyn Bin, Jain Priyank, Cabral Stephanie, Abdulnour Raja-Elie, Haimovich Adrian D, Freed Jason A, Olson Andrew, Morgan Daniel J, Hom Jason, Gallo Robert, McCoy Liam G, Mombini Haadi, Lucas Christopher, Fotoohi Misha, Gwiazdon Matthew, Restifo Daniele, Restrepo Daniel, Horvitz Eric, Chen Jonathan, Manrai Arjun K, Rodman Adam

DOI: 10.1126/science.adz4433PMID: 42060751

PubMed Pełny tekst

Recenzja AI

Cel badania

Celem badania była ocena, jak duży model językowy (LLM) radzi sobie z trudnymi przypadkami diagnostycznymi w porównaniu z lekarzami oraz jak wypada jako druga opinia w warunkach rzeczywistego szpitalnego oddziału ratunkowego.

Metoda

Przeprowadzono pięć eksperymentów złożonego rozumowania klinicznego, porównując odpowiedzi LLM z wynikami setek lekarzy, a następnie zrealizowano badanie w realnych warunkach oddziału ratunkowego, zestawiając drugie opinie wydane przez ekspertów i przez AI u losowo wybranych pacjentów.

Wyniki

We wszystkich eksperymentach LLM przewyższał średnie wyniki lekarzy oraz wykazywał wyraźną poprawę w stosunku do wcześniejszych generacji systemów AI wspomagających decyzje kliniczne.

Znaczenie dla praktyki

Wyniki sugerują, że LLM-y osiągnęły lub przekroczyły dotychczasowe benchmarki rozumowania klinicznego, co stwarza realną możliwość ich wykorzystania jako narzędzia drugiej opinii dla lekarzy, pielęgniarek, ratowników i farmaceutów w Polsce, ale jednocześnie podkreśla pilną potrzebę dobrze zaplanowanych badań prospektywnych przed szerokim wdrożeniem.

Abstrakt oryginalny

More than 65 years ago, complex clinical diagnostic reasoning cases were introduced as the gold standard for the evaluation of expert medical computing systems, a standard that has held ever since. In this study, we report the results of a physician evaluation of a large language model (LLM) on challenging clinical cases across five experiments with a baseline of hundreds of physicians. We then report a real-world study comparing human expert and artificial intelligence (AI) second opinions in randomly selected patients in the emergency room of a major tertiary academic medical center. In all experiments, the LLM outperformed physician baselines and displayed continued improvement from prior generations of AI clinical decision support. Our study suggests that LLMs have eclipsed most benchmarks of clinical reasoning, motivating the urgent need for prospective trials.

Źródło

Science (New York, N.Y.)

2026-04-30

DOI: 10.1126/science.adz4433

PMID: 42060751

PubMed Pełny tekst

Autorzy (25)

Brodeur Peter GBuckley Thomas AKanjee ZahirGoh EthanLing Evelyn BinJain PriyankCabral StephanieAbdulnour Raja-ElieHaimovich Adrian DFreed Jason AOlson AndrewMorgan Daniel JHom JasonGallo RobertMcCoy Liam GMombini HaadiLucas ChristopherFotoohi MishaGwiazdon MatthewRestifo DanieleRestrepo DanielHorvitz EricChen JonathanManrai Arjun KRodman Adam