1 Universität Bielefeld, Medizinische Fakultät OWL
✉ Correspondence: Hendrik Friederichs <hendrik.friederichs@uni-bielefeld.de>
This manuscript is a work in progress. However, thank you for your interest. Please feel free to visit this web site again at a later date.
Dieses Manuskript ist noch in Arbeit. Wir danken Ihnen jedoch für Ihr Interesse. Bitte besuchen Sie diese Website zu einem späteren Zeitpunkt noch einmal …
Relevantes Problem: Gesundheitskompetenz beruht auf verschiedenen Fähigkeiten zur Informationsverarbeitung und ist als Grad, in dem Personen in der Lage sind, grundlegende Gesundheitsinformationen und -dienste zu erhalten, zu verarbeiten und zu verstehen, um angemessene Gesundheitsentscheidungen zu treffen, definiert. Sie ist für Patienten essentiell, um medizinische Berichte und Behandlungen zu verstehen. Für Ärzte kommt noch die Fähigkeiten Studienergebnisse zu verstehen, Patienten aufzuklären, klinische Entscheidungen zu treffen und effektiv im medizinischen Team zu kommunizieren, dazu. Künstliche Intelligenz nimmt auch in der Medizin einen immer breiteren Raum ein und kann sowohl Patienten als auch Ärzte in ihrem gesundheitsbezogenen Handeln unterstützen.
Fokussiertes Problem: Gesundheitskompetenz, besteht aus mehreren Formen der Literacy, z. B. risk literacy, graph literacy und scientific literacy skills. Es ist bisher nicht bekannt, inwieweit Large Language Models diese Kompetenzen bezüglich medizinischer Fragestellungen beherrschen.
Gap des Problems: Health Literacy beeinflusst das Risikoverständnis und Entscheidungsverhalten, wobei Studien hauptsächlich Patienten betrachten. Gelegentlich werden auch Fachleute aus dem Gesundheitswesen betrachtet.
Lösung?: Für den Einsatz von KI bei Menschen mit geringerer Gesundheitskompetenz ist es wichtig, Kenntnisse über die Gesundheitskompetenz der eingesetzten Tools zu haben, um die Relevanz und Glaubwürdigkeit in entsprechenden Anwendungsfeldern einschätzen und für die daraus folgenden Entscheidungen berücksichtigen zu können.
Forschungsfragen: Daher wurde eine Studie mit ChatGPT durchgeführt, um deren Fähigkeit zu untersuchen.
Studienpopulation: ChatGPT
Studiendesign: Validierte Fragebögen
Datenerhebung: mittels BNT, Graph Literacy Scale und Test of Scientific Literacy Skills (TOSLS)
Ergebnisparameter: Anzahl der richtigen Antworten insgesamt.
Statistik: Bestimmung der Prozentwerte für die absolute und relative Bewertung der Leistungen im Vergleich mit Patienten- und Fachkollektiven. Evtl. noch weitere Vergleichsberechnungen.
## Hintergrund
### Allgemeineres Problem Large Language Models (LLMs) zeigen inzwischen auch in der Medizin eindrucksvolle Ergebnisse, die sowohl die medizinische Aus- und Weiterbildung (z. B. in der Chirurgie [guthrieOperatingAnestheticReference2024?] betreffen. Für medizinische Prüfungen konnte gezeigt werden, dass bei mehreren lokalen, universitären, nationalen und speziellen Lizenzprüfungen Ergebnisse über den Bestehensgrenzen erzielt wurden [gordonScopingReviewArtificial2024?].
Theoretische und/oder empirische Fokussierung des Problems
Neuere LLM-Generationen übertreffen in der Regel ältere Modelle, insbesondere bei allgemeinen medizinischen Prüfungen [gordonScopingReviewArtificial2024?]. Zudem erzielten LLMs bessere Ergebnisse bei englischsprachigen Fragen, während ihre Leistung in anderen Sprachen variabel war [gordonScopingReviewArtificial2024?].
Fokussiertes Problem-Statement: Gap und möglicher Fortschritt
Aktuell sind Lernende und Lehrende noch recht vorsichtig im Umgang mit LLMs, da die Genauigkeit variiert, obwohl Verbesserungen bei neueren Modellen erkennbar sind.
Fokussierte Forschungsfrage/n
Wir haben eine Studie durchgeführt, um die Leistungsfähigkeit verschiedener Large Language Models (LLMs) im Progress Test Medizin (PTM) zu untersuchen und dabei folgende Fragen zu klären:
- Was ist der Level der Leistungsfähigkeit der aktuell verfügbaren LLMs für deutschsprachige Fragen in der Medizin?
- Zeigen sich in der Leistung der LLMs Unterschiede bezüglich der LLM-Features (8B vs 22B vs 70 B), … ?
- Werden Erinnern-Fragen durch LLMs besser beantwortet als Anwenden-Fragen?
Methoden
Setting und Probanden
Für diese Studie wurden diverse Language Models ausgesucht (siehe Tabelle), die über eine Computerschnittstelle (API) in zukünftige medizinische Tools integriert werden könnten. Die Rationale der Auswahl der LLMs liegt in dem Marktanteil der Hauptinvestoren, die das Training und die Bereitstellung der Models mit sehr hohen Geldsummen finanzieren. So ist zu erwarten, dass eine langfristige Pflege und Weiterentwicklung möglich ist und die getesteten Modelle nicht nur kurzfristig zur Verfügung stehen. Die meisten Anbieter bieten Zugriff auf mehrere Modelle an, die sich bezüglich der Anzahl der zum Training verwandten Parameter als auch in der Verarbeitungsgeschwindigkeit der an sie gestellten Anfragen unterscheiden.
Studiendesign
Die verschiedenen Modelle werden im Rahmen einer Querschnittsstudie anhand ihrer Leistungsfähigkeit in Bezug auf der Beantwortung von 200 Multiple Choice –Fragen eines so genannten Progress Tests verglichen.
Datenerhebung
Die Datenerhebung für diese Studie wurde à priori wie folgt festgelegt: allen Modellen werden zum gleichen Zeitpunkt nacheinander die 200 Multiple Choice –Fragen gestellt. Dür die Anfrage über die API werden folgende Parameter gewählt: Temperature: Diese wird auf einen möglichst geringen Wert eingestellt, um die Antwort zu erhalten, die in dem Modell mit der höchsten Wahrscheinlichkeit generiert wird. Die generierten Antworten werden tabellarisch gesammelt und mit der richtigen Antwort abgeglichen, so dass richtige Antworten zu einem prozentualen Score summiert werden. Zudem wird die Gesamtzeit für die Beantwortung aller 200 Fragen gemessen.
Ergebnisparameter
Die Messergebnisse waren die Gesamtpunktzahl, die das jeweilige Modell in der Beantwortung der Fragen erreicht. Zudem wurde der durchschnittliche Zeitbedarf pro Modell für eine Antwort berechnet, um eine Einschätzung zur Alltagstauglichkeit bei entsprechenden Suchanfragen zu erhalten.
Statistische Methoden
Für die Signifikanz wurde das Standard-Alpha-Niveau von .05 und ein Power-Level von .80 verwendet. Daher benötigten wir eine Stichprobengröße von mindestens XX Teilnehmern, um eine Effektgröße nachzuweisen, die einen minimal bedeutsamen Unterschied (d = .YY) [hattie2023visible?] im Ergebnisniveau zwischen Interventions- und Kontrollgruppe zeigt (a priori berechnet mit G*Power 3.1) [faul2007g?].
Ergebnisse
Studienteilnahme: Rekrutierung und demografische Merkmale
Der Rekrutierungsprozess ist in Abbildung 1 dargestellt. Wie aus Tabelle 1 hervorgeht, weisen die Baselinecharakteristika der Studienpopulationen und der analysierten Stichproben keine signifikanten Unterschiede auf.
Haupt- und Nebenergebnisse
Nach der Auswertung aller Datensätze ergaben sich drei wichtige Erkenntnisse. Die erste ist, dass die Teilnehmer …
Diskussion
Zusammenfassung der Ergebnisse
Unsere Ergebnisse zeigen …
Limitationen: Studienpopulation
möglicher Einfluss der Studienpopulation auf Interpretation und Anwendbarkeit der Ergebnisse …
Die wichtigste Einschränkung dieser Studie ist die …
Limitationen: Studiendesign
möglicher Einfluss des Studiendesigns auf Interpretation und Anwendbarkeit der Ergebnisse …
Vergleich mit bestehender theoretischer und empirischer Forschung
Obwohl die Fähigkeit, … , für Ärzte wichtig ist, haben nur eine Handvoll Studien diese Fertigkeiten untersucht. In diesen Studien wurden …
… ist eine hohe Effektstärke im Vergleich zu Hattie et al. [hattie2023visible?].
Direkte Auswirkungen der Ergebnisse auf Praxis
{{< lipsum 1 >}}Direkte Auswirkungen der Ergebnisse auf Forschung
…
Schlussfolgerungen
In dieser Studie haben wir eindrucksvoll die Leistungsfähigkeit von LLMs in Prüfungssituationen zeigen können. Diese Entwicklung könnte zu einer Neugestaltung der Prüfungsformate führen, um die Integration von Informationen statt bloßem Faktenabruf zu betonen.
References
Declarations
Ethics approval and consent to participate
{{< lipsum 1 >}}Consent for publication
Not applicable
Availability of data and materials
The original data that support the findings of this study are available from Open Science Framework (osf.io, see manuscript-URL).
Competing interests
The authors declare that they have no competing interests.
Funding
The author(s) received no specific funding for this work.
Acknowledgments
The manuscript was linguistically improved using DeepL Pro (DeepL SE, Cologne, Germany). DeepL Pro provided translation and language refinement only to ensure clarity and coherence in English.
Das Manuskript wurde mit DeepL Pro (DeepL SE, Köln, Deutschland) sprachlich verbessert. DeepL Pro diente lediglich der Übersetzung und sprachlichen Verfeinerung, um die Klarheit und Kohärenz im Englischen zu gewährleisten.
The authors are grateful for the insightful comments offered by the anonymous peer reviewers at Ziel-Journal. The generosity and expertise of one and all have improved this study in innumerable ways and saved us from many errors; those that inevitably remain are entirely our own responsibility.
Reuse
Citation
@online{friederichs2024,
author = {Hendrik Friederichs},
title = {Dr. {Chatbot} -\/- the Performance of Openly Accessible Large
Language Models in Medicine},
date = {2024-05-29},
langid = {en}
}