ChatGPT in Progress Testing -- the evolution of AI

Zusammenfassung

Background / Hintergrund: …

Methods / Methoden: …

Results / Ergebnisse: …

Conclusio / Schlussfolgerungen: …

^* These authors contributed equally to this work.

¹ Universität Bielefeld, Medizinische Fakultät OWL
² RWTH Aachen, Fakultät für Maschinenwesen, Aachen, Deutschland.
³ Humboldt-Universität zu Berlin, Charité – Universitätsmedizin Berlin, Kooperationspartner der Freien Universität Berlin, Progress Test Medizin, Charitéplatz 1, Berlin, Deutschland.

^✉ Correspondence: Hendrik Friederichs <hendrik.friederichs@uni-bielefeld.de>

IN PROGRESS …

This manuscript is a work in progress. However, thank you for your interest. Please feel free to visit this web site again at a later date.

Dieses Manuskript ist noch in Arbeit. Wir danken Ihnen jedoch für Ihr Interesse. Bitte besuchen Sie diese Website zu einem späteren Zeitpunkt noch einmal …

STRUKTUR DES MANUSKRIPTS

Relevantes (Studierenden-)Problem: Die Akzeptanz von Künstlicher Intelligenz (KI) hat durch das Aufkommen und die freie Verfügbarkeit von “generative pre-trained transformers” (GPTs) deutlich zugenommen. Im professionellen Bereich sind die Leistungen bisher aber allenfalls ausreichend, so dass ein dortiger Einsatz fraglich ist.
Fokussiertes Problem: Studienlage zu ChatGPT 3.5 allgemein und im akademischen Kontext;
Progress Tests eignen sich besonders zur Messung von Fortschritt durch Vergleich mit verschiedenen Ausbildungsniveaus.
Gap des Problems: Es gibt eine hohe Erwartung an den Einsatz von KI in der Medizin. Die bisherigen Leistungen sind auch in der Medizin bisher aber allenfalls ausreichend.
Lösung?: Gibt es einen Fortschritt durch bessere Leistungen der ChatGPT-Versionen 3.5-turbo und 4?
Forschungsfragen: Wie ist die absolute Leistung von ChatGPT-3.5-turbo und ChatGPT-4 im Progress Test Medizin?
Wie ist die relative Leistung im Vergleich zu ChatGPT-3.5 und Medizinstudierenden der Charité?
Wie sieht die Leistung bei detaillierter Betrachtung der Domänen und Kompetenzlevel aus?
Studienpopulation: User-Interface von ChatGPT (Version vom 24. Mai 2023) und Medizinstudierende der Charité Berlin.
Studiendesign: Kontrollierte Studie
Datenerhebung: 200 Multiple-Choice-Fragen aus dem Progress Test Medizin
Ergebnisparameter: Anzahl der richtigen Antworten insgesamt und pro Domäne bzw. Kompetenzlevel
Statistik: Bestimmung der Prozentwerte für die absolute und z-Scores und Percentilen für die relative Bewertung der Leistungen.

Background / Hintergrund

Broad problem / Allgemeineres Problem

Artificial intelligence (AI) is having a growing influence on healthcare, showing positive results in various medical fields. Its potential to revolutionise healthcare delivery by refining diagnostic accuracy, treatment planning, patient monitoring, and general healthcare outcomes is profound. AI algorithms have been created to examine multifaceted medical data, including medical images, genomic data, and electronic health records, with substantial accuracy and efficiency [1]. In radiology, AI has been utilised for image interpretation, supporting radiologists in identifying and diagnosing illnesses from medical images [2]. Moreover, AI has been employed in pathology, dermatology, and ophthalmology, demonstrating significant potential to enhance disease diagnosis and management [3]. Additionally, AI has the capability to aid personalised medicine by scrutinising individual patient data and presenting tailored treatment plans [4]. It has been utilised to anticipate disease outcomes, recognise high-risk patients, and optimise treatment strategies [5]. AI can also advance precision cardiovascular medicine by improving the precision of diagnosis, prognosis, and risk prediction in cardiovascular diseases [5]. However, it is essential to note that while AI has demonstrated encouraging outcomes, numerous practical applications are still at their outset and require additional exploration and development [6]. Additionally, ethical considerations and regulatory standards must be addressed to ensure the safe and responsible use of AI in medicine [7]. Nevertheless, the incorporation of AI in medicine harbours immense potential for enhancing healthcare outcomes and revolutionising the practice of medicine.

Künstliche Intelligenz (KI) hat einen wachsenden Einfluss auf das Gesundheitswesen und zeigt positive Ergebnisse in verschiedenen medizinischen Bereichen. Sie hat das Potenzial, die Gesundheitsversorgung zu revolutionieren, indem sie die Diagnosegenauigkeit, die Behandlungsplanung, die Patientenüberwachung und die allgemeinen Ergebnisse der Gesundheitsversorgung verfeinert. KI-Algorithmen wurden entwickelt, um vielfältige medizinische Daten, einschließlich medizinischer Bilder, genomischer Daten und elektronischer Gesundheitsakten, mit hoher Genauigkeit und Effizienz zu untersuchen [1]. In der Radiologie wurde KI für die Bildinterpretation eingesetzt, um Radiologen bei der Erkennung und Diagnose von Krankheiten anhand medizinischer Bilder zu unterstützen [2]. Darüber hinaus wurde KI in der Pathologie, Dermatologie und Augenheilkunde eingesetzt, wo sie ein erhebliches Potenzial zur Verbesserung von Krankheitsdiagnose und -management aufweist [3]. Darüber hinaus kann KI die personalisierte Medizin unterstützen, indem sie individuelle Patientendaten prüft und maßgeschneiderte Behandlungspläne vorlegt [4]. Sie wurde eingesetzt, um Krankheitsverläufe vorherzusehen, Hochrisikopatienten zu erkennen und Behandlungsstrategien zu optimieren [5]. KI kann auch die kardiovaskuläre Präzisionsmedizin voranbringen, indem sie die Genauigkeit der Diagnose, Prognose und Risikovorhersage bei Herz-Kreislauf-Erkrankungen verbessert [5]. Es ist jedoch zu beachten, dass KI zwar vielversprechende Ergebnisse gezeigt hat, zahlreiche praktische Anwendungen jedoch noch in den Kinderschuhen stecken und weitere Erforschung und Entwicklung erfordern [6]. Darüber hinaus müssen ethische Überlegungen und regulatorische Standards berücksichtigt werden, um den sicheren und verantwortungsvollen Einsatz von KI in der Medizin zu gewährleisten [7]. Nichtsdestotrotz birgt die Einbindung von KI in die Medizin ein immenses Potenzial für die Verbesserung der Gesundheitsversorgung und die Revolutionierung der medizinischen Praxis.

The field of medical education, in particular, is demonstrating fast and robust growth. The Chat Generative Pretrained Transformer (ChatGPT; OpenAI, San Francisco, CA) model is one of the most promising entities in this area. It is a natural language processing-based model with the ability to generate conversational responses (SOURCE). ChatGPT’s usefulness in medicine extends to various areas: education, research, clinical practice, and decision-making. In terms of healthcare education and research, ChatGPT has demonstrated the ability to improve scientific writing, increase research fairness, and help personalize pedagogical methods [8]. It has played a significant role in creating case scenarios and exam questions, thereby enhancing educational content and pedagogical adaptability [9]. In the clinical field, ChatGPT shows potential for simplifying administrative workflows, thus promoting cost-effectiveness and better health literacy [8]. Its implementation in emergency departments has exhibited promise in enhancing triage procedures, therefore optimising resource allocation and patient outcomes [10]. In specific settings such as dentistry, ChatGPT assists in identifying dental irregularities and enabling dental restorations [11]. Additionally, the algorithm contributes to quicker literature reviews, drug discovery processes, and data analytics in healthcare research [8]. Particularly, its function in medical specialty exams underscores its ability to assess medical knowledge [12].

Insbesondere im Bereich der medizinischen Ausbildung ist ein schnelles und starkes Wachstum zu verzeichnen. Das Chat-Generative-Pretrained-Transformer(ChatGPT)-Modell ist eine der vielversprechendsten Entwicklungen in diesem Bereich. Es handelt sich um ein Modell, das auf der Verarbeitung natürlicher Sprache basiert und in der Lage ist, Gesprächsantworten zu generieren (SOURCE). Der Nutzen von ChatGPT in der Medizin erstreckt sich auf verschiedene Bereiche: Ausbildung, Forschung, klinische Praxis und Entscheidungsfindung. In der Ausbildung und Forschung im Gesundheitswesen hat ChatGPT die Fähigkeit bewiesen, das wissenschaftliche Schreiben zu verbessern, die Fairness in der Forschung zu erhöhen und die pädagogischen Methoden zu personalisieren [8]. ChatGPT hat eine wichtige Rolle bei der Erstellung von Fallszenarien und Prüfungsfragen gespielt und dadurch den Lehrinhalt und die pädagogische Anpassungsfähigkeit verbessert [9]. Im klinischen Bereich hat ChatGPT das Potenzial, administrative Arbeitsabläufe zu vereinfachen und so die Kosteneffizienz und die Gesundheitskompetenz zu verbessern [8]. Der Einsatz in Notaufnahmen hat sich als vielversprechend erwiesen, um die Triageverfahren zu verbessern und damit die Ressourcenzuweisung und die Patientenergebnisse zu optimieren [10]. In bestimmten Bereichen wie der Zahnmedizin hilft ChatGPT bei der Erkennung von Zahnunregelmäßigkeiten und ermöglicht Zahnrestaurationen [11]. Darüber hinaus trägt der Algorithmus zu einer schnelleren Literaturrecherche, Arzneimittelentdeckung und Datenanalyse in der Gesundheitsforschung bei [8]. Insbesondere seine Funktion in medizinischen Fachprüfungen unterstreicht seine Fähigkeit, medizinisches Wissen zu bewerten [12].

However, the implementation of ChatGPT in healthcare presents certain challenges and limitations. Ethical considerations, copyright issues, and concerns regarding transparency and legality require caution [8]. Furthermore, there is a potential for bias, plagiarism, and misinformation [8]. The inclusion of cybersecurity and the risk of infodemics further complicates the issue [8]. Additionally, the technology’s performance metrics vary across medical specialties and have not yet reached a point where they can fully replace traditional diagnostic methods [13]. The quality and safety of ChatGPT responses raise concerns, which require further improvement before responsible implementation [14]. In conclusion, although ChatGPT displays diverse usefulness in healthcare education, research, and clinical practice, it is crucial to approach its correlated ethical and practical limitations with caution. Future efforts are necessary to enhance it and responsibly incorporate it into healthcare systems.

Die Umsetzung von ChatGPT im Gesundheitswesen ist jedoch mit gewissen Herausforderungen und Einschränkungen verbunden. Ethische Erwägungen, Urheberrechtsfragen und Bedenken hinsichtlich Transparenz und Legalität erfordern Vorsicht [8]. Darüber hinaus besteht die Gefahr von Verzerrungen, Plagiaten und Fehlinformationen [8]. Die Einbeziehung der Cybersicherheit und das Risiko der Infodemie verkomplizieren das Problem zusätzlich [8]. Darüber hinaus variieren die Leistungskennzahlen der Technologie je nach medizinischem Fachgebiet und haben noch nicht den Punkt erreicht, an dem sie traditionelle Diagnosemethoden vollständig ersetzen können [13]. Die Qualität und Sicherheit der ChatGPT-Antworten geben Anlass zu Bedenken, die vor einer verantwortungsvollen Implementierung weiter verbessert werden müssen [14]. Zusammenfassend lässt sich sagen, dass ChatGPT trotz seiner vielfältigen Nützlichkeit für die Ausbildung, Forschung und klinische Praxis im Gesundheitswesen mit den damit verbundenen ethischen und praktischen Einschränkungen vorsichtig umgehen muss. Zukünftige Anstrengungen sind notwendig, um es zu verbessern und verantwortungsvoll in die Gesundheitssysteme einzubinden.

There is limited research specifically looking at the performance of artificial intelligence (AI) in medical licensing examinations. Nevertheless, AI has been the subject of extensive study in relation to medical education and healthcare. A systematic review [7] found that AI is mainly used in medical education to support learning, assess student learning and review the curriculum. AI’s potential to provide feedback and a guided learning pathway, as well as decrease costs, constitutes the main reasons for its utilisation in medical education. When ChatGPT 3.5 (???) was tested on United States Medical Licensing Examination (USMLE) Step 1 and Step 2 questions, it achieved 44% and 42% accuracy on the AMBOSS sets, and 64.4% and 57.8% accuracy on the National Board of Medical Examiners (NBME) Free-Step1 and Free-Step2 questionnaires, respectively [15]. According to another study, the performance of ChatGPT on all three USMLE exams was assessed, and the model was found to meet or almost meet the pass mark without any special training or reinforcement [16].

Es gibt nur wenige Untersuchungen, die sich speziell mit der Leistung von künstlicher Intelligenz (KI) bei medizinischen Zulassungsprüfungen befassen. Dennoch ist KI Gegenstand umfangreicher Studien im Zusammenhang mit der medizinischen Ausbildung und dem Gesundheitswesen. Eine systematische Übersichtsarbeit [7] ergab, dass KI in der medizinischen Ausbildung hauptsächlich zur Unterstützung des Lernens, zur Bewertung des Lernens der Studierenden und zur Überprüfung des Lehrplans eingesetzt wird. Die Hauptgründe für den Einsatz von KI in der medizinischen Ausbildung sind das Potenzial, Feedback und einen geführten Lernpfad zu bieten sowie die Kosten zu senken. Als ChatGPT 3.5 (???) an Fragen der United States Medical Licensing Examination (USMLE) Step 1 und Step 2 getestet wurde, erreichte es eine Genauigkeit von 44 % bzw. 42 % bei den AMBOSS-Sets und eine Genauigkeit von 64,4 % bzw. 57,8 % bei den Fragebögen des National Board of Medical Examiners (NBME) Free-Step1 und Free-Step2 [15]. In einer anderen Studie wurde die Leistung von ChatGPT bei allen drei USMLE-Prüfungen bewertet, und es wurde festgestellt, dass das Modell ohne spezielles Training oder Verstärkung die Bestehensgrenze erreicht oder fast erreicht [16].

Nach einem Bericht im Ärzteblatt über einen Nature-Artikel: “Auswertungen ergaben, dass Med-PaLM von Google Research zwar um 17 % besser war, als andere aktuelle Sprachmodelle, aber teilweise immer noch nicht an die Qualität der Antworten von medizinischem Fachpersonal heranreichte. So entsprachen 92,6 % der ausführlichen Antworten von Med-PaLM dem wissenschaftlichen Konsens, was einem ähnlich hohen Niveau entsprach, wie die Antworten von Klinikern (92,9 %). 5,8 % der Antworten von Med-PaLM wurden als potenziell schädlich beurteilt, was ebenfalls vergleichbar war mit prekären Antworten von Medizinern (6,5 %). Stark Ausbaufähig ist das Modell aber noch hinsichtlich inkorrekter oder unpassender Inhalte, die mit einem Anteil von 18,7 % viel häufiger auftraten, als unter den Antworten von Fachpersonal (1,4 %). Das derzeitige Modell (Med-PaLM) zeigt einen ermutigenden Trend, bleibt aber den Klinikern unterlegen, schlussfolgern die Studienautoren.” [17]

Künstliche Intelligenz (KI) hat einen immer größeren Einfluss auf das Gesundheitswesen. Insbesondere im Bereich der medizinischen Ausbildung ist ein schnelles und starkes Wachstum zu verzeichnen. Das Modell Chat Generative Pretrained Transformer (ChatGPT) ist eine der vielversprechendsten Entwicklungen in diesem Bereich. Es ist ein auf natürlicher Sprachverarbeitung basierendes Modell mit der Fähigkeit, Gesprächsantworten zu generieren (SOURCE).

Als ChatGPT 3.5 (???) mit Fragen der United States Medical Licensing Examination (USMLE) Step 1 und Step 2 getestet wurde, erreichte es eine Genauigkeit von 44 % bzw. 42 % bei den AMBOSS-Sets und eine Genauigkeit von 64,4 % bzw. 57,8 % bei den Fragebögen des National Board of Medical Examiners (NBME) Free-Step1 und Free-Step2 [15]. In einer anderen Studie wurde die Leistung von ChatGPT bei allen drei USMLE-Prüfungen bewertet, und es wurde festgestellt, dass das Modell ohne spezielles Training oder Verstärkung die Bestehensgrenze erreicht oder fast erreicht [16]

AI models also have the ability to function effectively not only in English but in other languages as well. A study examined if ChatGPT could pass the M1 and M2 written medical state exams and answer complex medical questions in German. The results indicate that ChatGPT passed the exams after excluding image question [18]. Our research group was able to demonstrate a similar outcome. ChatGPT was able to answer 66% of all multiple-choice questions in a Progress Test, which is equivalent to the level of a state exam. These preliminary outcomes depict the efficacy of ChatGPT in answering intricate medical queries, and state medical exams are used as a model case [18]. Employing the latest models, GPT-3.5 and GPT-4, resulted in a significant surge in performance in the context of the Japanese Medical Licensure Examination (JMLE), as noted by Takagi et al. (2023). GPT-4 attained the qualifying score in the JMLE, signifying its dependability for medical knowledge and clinical reasoning in non-English languages, as mentioned by Takagi et al. (2023).

KI-Modelle sind auch in der Lage, nicht nur auf Englisch, sondern auch in anderen Sprachen effektiv zu arbeiten. In einer Studie wurde untersucht, ob ChatGPT die schriftlichen medizinischen Staatsexamina M1 und M2 bestehen und komplexe medizinische Fragen auf Deutsch beantworten kann. Die Ergebnisse zeigen, dass ChatGPT die Prüfungen nach Ausschluss der Bildfrage bestanden hat [18]. Unsere Forschungsgruppe konnte ein ähnliches Ergebnis nachweisen. ChatGPT war in der Lage, 66% aller Multiple-Choice-Fragen in einem Progress Test zu beantworten, was dem Niveau eines Staatsexamens entspricht. Diese vorläufigen Ergebnisse zeigen die Wirksamkeit von ChatGPT bei der Beantwortung komplizierter medizinischer Fragen, und staatliche medizinische Prüfungen werden als Modellfall verwendet [18]. Der Einsatz der neuesten Modelle, GPT-3.5 und GPT-4, führte zu einem signifikanten Leistungssprung im Rahmen der Japanese Medical Licensure Examination (JMLE), wie von Takagi et al. (2023) festgestellt. GPT-4 erreichte die qualifizierende Punktzahl in der JMLE, was laut Takagi et al. (2023) seine Zuverlässigkeit in Bezug auf medizinisches Wissen und Clinical Reasoning in nicht-englischen Sprachen unterstreicht.

Theoretical and/or empirical focus of the problem / Theoretische und/oder empirische Fokussierung des Problems

Information Literacy:
The ability to recognize when information is needed and to locate, evaluate, and use the needed information effectively.

Health Literacy:
Degree to which individuals have the capacity to obtain, process, and understand basic health information and services needed to make appropriate health decisions.

The importance of health literacy, defined as the degree to which individuals have the capacity to obtain, process, and understand basic health information and services needed to make appropriate health decisions, is evident in several areas of health behaviour and quality of life. Zheng et al. emphasize that low health literacy often correlates with adverse health outcomes, leading to decreased quality of life (QOL), where a pooled correlation coefficient between health literacy and QOL of 0.35 is reported [19]. Miller et al. emphasised the advantageous correlation between health literacy and medical treatment adherence in both chronic and acute ailments. Health literacy interventions elevated both health literacy (r=0.22) and adherence (r=0.16), notably in susceptible patient groups [20]. A systematic review by Kim et al. found a moderate association between eHealth literacy and health-related behaviour, using validated measures such as the eHealth Literacy Scale (eHEALS), with an overall correlation of 0.31 [21]. In summary, these studies emphasise the crucial role of health literacy as a mediator of health-promoting behaviours, treatment adherence and quality of life, and stress the requirement to integrate health literacy within health interventions and strategies.

Die Bedeutung der Gesundheitskompetenz, definiert als das Ausmaß, in dem der/die Einzelne in der Lage ist, grundlegende Gesundheitsinformationen und -dienste zu erhalten, zu verarbeiten und zu verstehen, um angemessene Gesundheitsentscheidungen zu treffen, zeigt sich in verschiedenen Bereichen des Gesundheitsverhaltens und der Lebensqualität. Zheng et al. betonen, dass eine geringe Gesundheitskompetenz häufig mit negativen gesundheitlichen Ergebnissen korreliert, was zu einer verminderten Lebensqualität (QOL) führt, wobei ein gepoolter Korrelationskoeffizient zwischen Gesundheitskompetenz und QOL von 0,35 berichtet wird [19]. Miller et al. betonten den vorteilhaften Zusammenhang zwischen Gesundheitskompetenz und medizinischer Behandlungsadhärenz sowohl bei chronischen als auch bei akuten Erkrankungen. Interventionen zur Förderung der Gesundheitskompetenz erhöhten sowohl die Gesundheitskompetenz (r=0,22) als auch die Therapietreue (r=0,16), insbesondere bei anfälligen Patientengruppen [20]. In einer systematischen Übersichtsarbeit von Kim et al. wurde ein moderater Zusammenhang zwischen elektronischer Gesundheitskompetenz und gesundheitsbezogenem Verhalten festgestellt, wobei validierte Messinstrumente wie die eHealth Literacy Scale (eHEALS) verwendet wurden, mit einer Gesamtkorrelation von 0,31 [21]. Zusammenfassend unterstreichen diese Studien die entscheidende Rolle der Gesundheitskompetenz als Vermittler von gesundheitsfördernden Verhaltensweisen, Therapietreue und Lebensqualität und betonen die Notwendigkeit, Gesundheitskompetenz in Gesundheitsmaßnahmen und -strategien zu integrieren.

Studienlage zu ChatGPT 3.5 [22] NICHT in PubMed; Letter to the editor [23] NICHT in PubMed, spanisches Journal [15] √ [24] NICHT in PubMed; Preprint [25] NICHT in PubMed; Preprint [16] √ [26] √ [27] √ [28] √

Progress tests are widely used in education because they measure learning progress at the individual, cohort, and institutional levels [29]. Also, they have a beneficial impact on learning [30]. In medical education, performance on Progress Tests correlates with performance on state exams in this respect [29].

Studienlage zu ChatGPT 4 [31] [25] [26]

Progress-Tests sind im Bildungswesen weit verbreitet, weil sie den Lernfortschritt auf individueller, kohortenbezogener und institutioneller Ebene messen [29]. Außerdem haben sie selbst einen positiven Einfluss auf das Lernen [30]. In der medizinischen Ausbildung korreliert die Leistung in den Progress Tests sogar mit dem Abschneiden in den Staatsexamina [29].

Focused problem statement / Fokussiertes Problem-Statement: Gap und möglicher Fortschritt

… [32]

Statement of study intent / Fokussierte Forschungsfrage/n

We performed a study of medical students to investigate the following questions:

What is …
Why are …

*Wir haben eine Studie mit Medizinstudierenden durchgeführt, um die folgenden Fragen zu untersuchen:**

*Was ist …**
*Warum sind …**

Methods / Methoden

Setting and subjects / Setting und Probanden

To align with a student-centered approach, we mimicked an everyday approach to using AI for medical students to address multiple-choice questions (MCQs) during data collection. We accessed ChatGPT via the public user interface at chat.openai.com on a mobile device, instead of the application programming interface (API) that might be available for future chatbot utilization. Creating an account required an email verification process. Once logged in, a single-line field enables communicating with the chatbot.

Our study was based on the progress-test-results of medical students at Medical School of Charité Berlin. In Germany, medical school requires a six-year commitment, students commence this directly after secondary school. The curriculum comprises a pre-clinical (first two years) and a clinical (remaining four years) segment. To augment students’ clinical experience, final-year rotations occur across diverse hospital departments.

Um einem studierendenzentrierten Ansatz gerecht zu werden, ahmten wir einen alltäglichen Ansatz zur Nutzung von KI für Medizinstudierende nach, um Multiple-Choice-Fragen (MCQs) während der Datenerfassung zu beantworten. Wir griffen auf ChatGPT über die öffentliche Benutzeroberfläche chat.openai.com auf einem mobilen Gerät zu, anstatt über die Anwendungsprogrammierschnittstelle (API), die für die zukünftige Nutzung von Chatbots verfügbar sein könnte. Das Anlegen eines Kontos erforderte einen E-Mail-Verifizierungsprozess. Nach der Anmeldung ermöglicht ein einzeiliges Feld die Kommunikation mit dem Chatbot.

Unsere Studie basierte auf den Ergebnissen des Progress-Tests von Medizinstudierenden an der Charité Berlin. Das Medizinstudium dauert in Deutschland sechs Jahre und beginnt direkt nach dem Abitur. Das Curriculum umfasst einen vorklinischen (die ersten zwei Jahre) und einen klinischen (die restlichen vier Jahre) Teil. Um die klinische Erfahrung der Studenten zu erweitern, werden die Studenten im letzten Studienjahr in verschiedenen Krankenhausabteilungen eingesetzt.

Study design / Studiendesign

All questions for the Medicine Progress Test were collected in summer 2023 by two researchers (HF, WJF) and then submitted to the ChatGPT interface (version dated May 24, 2023). The biannual Berlin Progress Test consists of 200 multiple-choice questions (MCQs). Every question has a single correct answer. The MCQs are selected from a database and matched to a blueprint, and are not reused for two years after their inclusion [27]. There is a time limit of three hours for students to complete the test, which covers 27 medical specialties and 14 organ systems (see Table 1).

Alle Fragen für den Fortschrittstest Medizin wurden im Sommer 2023 von zwei der beteiligten Wissenschaftler (HF, WJF) gesammelt und dann an die ChatGPT-Schnittstelle übermittelt (Version vom 24. Mai 2023). Der halbjährliche Berliner Progress Test besteht aus 200 Multiple-Choice-Fragen (MCQs). Jede Frage hat eine einzige richtige Antwort. Die MCQs werden aus einer Datenbank ausgewählt und mit einem Bluepring abgeglichen; sie werden nach ihrer Nutzung zwei Jahre lang nicht wiederverwendet [27]. Für die Bearbeitung des Tests, der 27 medizinische Fachgebiete und 14 Organsysteme abdeckt, steht den Studierenden ein Zeitlimit von drei Stunden zur Verfügung (siehe Tabelle 1).

Insert Table 1 here.

Data was collected using the following protocol:

Full MCQs were input into the single-line window. This included the case vignette, question phrasing, and all answer choices.
ChatGPT’s response was copied into a file, from which the next question was imported back to ChatGPT.

Owing to heightened public interest in AI, GPT-4 had a limit of 25 messages every three hours.

Die Datenerhebung erfolgte nach folgendem Protokoll:

Die vollständigen MCQs wurden in das einzeilige Fenster eingegeben. Dies beinhaltete die Fallvignette, die Frageformulierung und alle Antwortmöglichkeiten.
Die Antwort von ChatGPT wurde in eine Datei kopiert, aus der die nächste Frage wieder in ChatGPT importiert wurde.

Aufgrund des gesteigerten öffentlichen Interesses an KI hatte GPT-4 ein Limit von 25 Nachrichten alle drei Stunden.

To mimic the student perspective accurately, no technical enhancements were made to AI access. The generally accessible user interface was employed instead of an API, and questions were entered without added formatting to keep AI readability consistent. German-to-English translations were avoided to prevent student comprehension issues due to potential language barriers. No guidelines regarding answer selection were provided to ChatGPT, nor was feedback on answer accuracy given, as AI benefits from such feedback.

Um die Studierendenperspektive genau nachzubilden, wurden keine technischen Verbesserungen am Zugang zu der KI vorgenommen. Anstelle einer API wurde die allgemein zugängliche Benutzeroberfläche verwendet, und die Fragen wurden ohne zusätzliche Formatierungen eingegeben, um die Lesbarkeit für die KI konsistent zu halten. Übersetzungen vom Deutschen ins Englische wurden vermieden, um Verständnisprobleme der Studierenden aufgrund möglicher Sprachbarrieren zu vermeiden. ChatGPT wurden keine Richtlinien für die Auswahl der Antworten zur Verfügung gestellt, und es wurde auch kein Feedback zur Genauigkeit der Antworten gegeben, da die KI von einem solchen Feedback profitiert.

Post submission and response to all MCQs, the account and all associated data were fully erased as per OpenAI’s instructions.

Nach Einreichung und Beantwortung aller MCQs wurden das Konto und alle damit verbundenen Daten gemäß den Anweisungen von OpenAI vollständig gelöscht.

The study aimed to categorize AI’s strengths and weaknesses more definitively, exploring the competency level at which AI operates. According to the National Competence-Based Learning Objectives Catalogue for Medicine (NKLM), knowledge and skills are differentiated. Competence level 1 represents the “recall” level, and competence level 2 aligns with the “apply” level in the Progress Test Medicine.

Die Studie zielte darauf ab, die Stärken und Schwächen der KI genauer zu kategorisieren und zu untersuchen, auf welchem Kompetenzniveau die KI arbeitet. Gemäss dem Nationalen Kompetenzbasierten Lernzielkatalog Medizin (NKLM) wird zwischen Wissen und Können unterschieden. Die Kompetenzstufe 1 entspricht der Stufe “Erinnern”, die Kompetenzstufe 2 der Stufe “Anwenden” im Progress Test Medizin.

Data collection / Datenerhebung

Data collection for this study was determined à priori as follows:

Input …

Die Datenerhebung für diese Studie wurde à priori wie folgt festgelegt:

Input …

Outcome Measures / Ergebnisparameter

ChatGPT’s answers were compared with the correct answers of the MC questions. The exact wording of the MC answer had to be reproduced in the ChatGPT answer. All matching answers in the Progress Test question were marked as correct, all other answers were marked as incorrect. Uninterpretable, multiple, or alternatively correct answers were marked “NA” (not applicable).

Die Antworten von ChatGPT wurden mit den richtigen Antworten der MC-Fragen verglichen. Der genaue Wortlaut der MC-Antwort musste in der Antwort von ChatGPT wiedergegeben werden. Alle übereinstimmenden Antworten in der Progress Test-Frage wurden als richtig markiert, alle anderen Antworten wurden als falsch eingestuft. Nicht interpretierbare, mehrfache oder alternativ richtige Antworten wurden mit “NA” (not applicable) gekennzeichnet.

Statistical methods / Statistische Methoden

We calculated the proportion of correct responses and also present the mean and standard deviation. We recorded the number of students and the number of correctly answered questions and illustrate the distribution of the percentage of correctly answered questions for each study year and for the total group. Student cohorts cannot be defined by socio-demographic factors due to data protection and test data anonymity. Comparisons were made between ChatGPT’s results and those of students from the same year, based on their percentiles. The study aimed to establish a correlation between the percentage of correct answers in Anderson’s significant categories of knowledge: namely, Factual Knowledge, Conceptual Knowledge, Procedural Knowledge, and Metacognitive Knowledge.

Wir haben den Anteil der richtigen Antworten berechnet und stellen auch den Mittelwert und die Standardabweichung dar. Wir haben die Anzahl der Studierenden und die Anzahl der richtig beantworteten Fragen erfasst und stellen die Verteilung des Prozentsatzes der richtig beantworteten Fragen für jedes Studienjahr und für die Gesamtgruppe dar. Aus Gründen des Datenschutzes und der Anonymität der Testdaten können die Studierendenkohorten nicht nach soziodemografischen Faktoren definiert werden. Die Ergebnisse von ChatGPT wurden mit denen der Studierenden desselben Jahrgangs auf der Grundlage ihrer Perzentile verglichen. Ziel der Studie war es, eine Korrelation zwischen dem Prozentsatz richtiger Antworten in Andersons wichtigen Wissenskategorien herzustellen: Faktenwissen, Begriffswissen, prozedurales Wissen und metakognitives Wissen.

The statistical analysis was conducted in R [33], within the RStudio IDE (Posit Software, Boston, MA). The tidyverse, gt, and ggstatsplot packages [34, 35] were used to generate tables and figures.

Die statistische Analyse wurde in R [33] innerhalb der RStudio IDE (Posit Software, Boston, MA) durchgeführt. Die Pakete tidyverse, gt und ggstatsplot [34, 35] wurden zur Erstellung von Tabellen und Abbildungen verwendet.

Results / Ergebnisse

Recruitment Process and Demographic Characteristics / Studienteilnehmer

The recruitment process is shown in Figure 1. We obtained XX complete data sets (return rate YY.Z%) after contacting …

Der Rekrutierungsprozess ist in Abbildung 1 dargestellt. Wir erhielten XX vollständige Datensätze (Rücklaufquote YY.Z%), nachdem wir Kontakt mit …

Primary and secondary Outcomes / Haupt- und Nebenergebnisse

Gesamtergebnisse

Prozentwerte, jede wievielte Antwort ist falsch, …; sich daraus ergebende Perzentilen im Vergleich zu den Studierenden

Vergleich von Ergebnissen in „Erinnern”- und „Anwenden”-Fragen

(Bezug auf Anderson et al. im Methoden-Teil)

The bar chart above illustrates the performance of the different versions of ChatGPT across the two competencies, ‘Erinnern’ and ‘Anwenden’.

REMEMBER

\(\chi^2_{~Kruskal-Wallis}\) (2) = 14.26, p < 0.001, \(\widehat{\epsilon}^2\) = 0.06, CI₉₅[0.02, 1.00]

APPLY

\(\chi^2_{~Kruskal-Wallis}\) (2) = 30.17, p < 0.001, \(\widehat{\epsilon}^2\) = 0.08, CI₉₅[0.04, 1.00]

Bildhafte Darstellung einer Tabelle, die als eine Art „Heatmap”

die Beantwortung der jeweiligen Frage farblich (rot > grün) darstellt

Analyse der verbleibenden „Falschantworten”

(schon „0” und „1” angeschaut und golden markiert, „2” fehlt noch)

**Domains:**

The domains with the highest proportion of incorrectly answered questions are Diagnostik and Pathogenese, Pathomechanismen, each making up 25% of the incorrectly answered questions.

**Competencies:**

For competencies, ‘Anwenden’ makes up the majority of incorrectly answered questions at 68.75%, while ‘Erinnern’ makes up 31.25%.

This analysis indicates that while ChatGPT-4 has a high overall performance, there are certain areas where it struggles more. In particular, it seems to have more difficulty with the ‘Anwenden’ competency and questions related to the Atmungsorgane organ system and the Diagnostik and Pathogenese, Pathomechanismen domains. However, keep in mind that the number of incorrectly answered questions is relatively small, so these proportions can change significantly with more data.

The mean and standard deviation (sd) for ‘difficulty’ and ‘discrimination’ for the correctly and incorrectly answered questions by ChatGPT-4 are as follows:

1. **Difficulty:**

For incorrectly answered questions, the mean difficulty is approximately 0.226, and the sd is approximately 0.164.

For correctly answered questions, the mean difficulty is approximately 0.375, and the sd is approximately 0.177.

The t-test comparing difficulty between correctly and incorrectly answered questions has a p-value of approximately 0.0013, which is less than 0.05. Therefore, we reject the null hypothesis and conclude that there is a significant difference in difficulty between correctly and incorrectly answered questions. Specifically, the questions that ChatGPT-4 answered incorrectly tend to be more difficult (have lower difficulty scores) than those it answered correctly.

2. **Discrimination:**

For incorrectly answered questions, the mean discrimination is approximately 0.321, and the sd is approximately 0.139.

For correctly answered questions, the mean discrimination is approximately 0.450, and the sd is approximately 0.111.

The t-test comparing discrimination between correctly and incorrectly answered questions has a p-value of approximately 0.000024, which is much less than 0.05. Therefore, we reject the null hypothesis and conclude that there is a significant difference in discrimination between correctly and incorrectly answered questions. Specifically, the questions that ChatGPT-4 answered incorrectly tend to be less discriminatory (have lower discrimination scores) than those it answered correctly.

These results suggest that, the questions ChatGPT-4 answers correctly tend to be more easy and more discriminatory than those it answers incorrectly.

Discussion / Diskussion

Summary / Zusammenfassung der Ergebnisse

After the evaluation of all datasets, the following findings emerged. The first is that …

Nach Auswertung aller Datensätze ergaben sich die folgenden Erkenntnisse: Die erste ist, dass …

Limitation: Studienpopulation

möglicher Einfluss der Studienpopulation auf Interpretation und Anwendbarkeit der Ergebnisse …

Limitation: Studiendesign

möglicher Einfluss des Studiendesigns auf Interpretation und Anwendbarkeit der Ergebnisse …

Integration with prior work / Vergleich mit bestehender theoretischer und empirischer Forschung

In a study assessing ChatGPT’s efficacy in medical specialty exams, it correctly answered questions with success rates ranging from 54.3% to 70.9% [12]. In its best-performing exam, it ranked 1787th out of 22,214 participants, while in its worst-performing exam, it ranked 4428th out of 21,476 participants. It answered a greater proportion of short questions accurately than long questions, as well as single-select multiple-choice questions compared to multi-select multiple-choice questions with statistical significance.

In einer Studie, in der die Wirksamkeit von ChatGPT in medizinischen Fachprüfungen untersucht wurde, beantwortete es Fragen mit Erfolgsquoten zwischen 54,3 % und 70,9 % richtig [12]. In der besten Prüfung belegte es Platz 1787 von 22.214 Teilnehmern, während es in der schlechtesten Prüfung Platz 4428 von 21.476 Teilnehmern belegte. Sie beantwortete einen signifikant größeren Anteil der kurzen Fragen richtig als die langen Fragen sowie die Multiple-Choice-Fragen mit einfacher Auswahl im Vergleich zu den Multiple-Choice-Fragen mit mehrfacher Auswahl.

Another meta-analysis [36] explores the performance of the ChatGPT AI language model in multiple-choice medical exams. The analysis encompasses 19 peer-reviewed articles across various medical specialties, including plastic surgery and anesthesiology. It is noteworthy that the success rate of ChatGPT displayed considerable variance, with performance fluctuating between 40% on biomedical entrance exams and 100% on diabetes knowledge questionnaires. The mean score of ChatGPT was 61.1% with a 95% confidence interval of 56.1% to 66.0%. Only version 3.5 of ChatGPT was included in the study, and a marked heterogeneity of the studies included was apparent. In general, the meta-analysis indicates that ChatGPT may prove to be a valuable resource in the realm of medical education, but with the caution that future iterations of the model and more in-depth analyses are required to fully evaluate its dependability and usefulness.

Eine weitere Meta-Analyse [36] untersucht die Leistung des ChatGPT-KI-Sprachmodells in medizinischen Multiple-Choice-Prüfungen. Die Analyse umfasst 19 von Experten begutachtete Artikel aus verschiedenen medizinischen Fachgebieten, darunter plastische Chirurgie und Anästhesiologie. Es ist bemerkenswert, dass die Erfolgsrate von ChatGPT eine beträchtliche Varianz aufwies, wobei die Leistung zwischen 40 % bei biomedizinischen Aufnahmeprüfungen und 100 % bei Fragebögen zum Diabeteswissen schwankte. Die durchschnittliche Punktzahl von ChatGPT lag bei 61,1 % mit einem 95 %-Konfidenzintervall von 56,1 % bis 66,0 %. In die Studie wurde nur die Version 3.5 von ChatGPT einbezogen, und es zeigte sich eine deutliche Heterogenität der einbezogenen Studien. Im Allgemeinen deutet die Meta-Analyse darauf hin, dass ChatGPT sich als wertvolle Ressource im Bereich der medizinischen Ausbildung erweisen könnte, allerdings mit der Einschränkung, dass künftige Iterationen des Modells und eingehendere Analysen erforderlich sind, um seine Zuverlässigkeit und Nützlichkeit vollständig zu bewerten.

A Chinese research study focuses on the efficiency of ChatGPT, specifically the GPT-3.5 and GPT-4 models, in the domains of medical examinations, medical records, and medical education. The study utilises data from the China National Medical Licensing Examination (CNMLE), the equivalent English-language examination (ENMLE), and the National Entrance Examination for Postgraduate Clinical Medicine Comprehensive Ability (NEEPM) in China. Specifically, GPT-4 demonstrated enhanced performance in comparison to its predecessor GPT-3.5, achieving accuracy rates of 84%, 86%, and 82% in their respective databases, while GPT-3.5 attained accuracy rates of 56%, 76%, and 62%. GPT-4 exhibited excellent verbal fluency and interaction satisfaction and demonstrated potential for group learning and discharge summaries. Nonetheless, the issue of “hallucinations,” which refers to erroneous or deceptive responses, was also highlighted. The authors state that according to the study published in the International Journal of Medical Informatics, GPT-4 is comparable to the medical expertise of Chinese doctors [37].

Eine chinesische Forschungsstudie konzentriert sich auf die Effizienz von ChatGPT, insbesondere der Modelle GPT-3.5 und GPT-4, in den Bereichen medizinische Prüfungen, medizinische Aufzeichnungen und medizinische Ausbildung. Die Studie verwendet Daten der China National Medical Licensing Examination (CNMLE), der entsprechenden englischsprachigen Prüfung (ENMLE) und der National Entrance Examination for Postgraduate Clinical Medicine Comprehensive Ability (NEEPM) in China. Insbesondere zeigte GPT-4 eine verbesserte Leistung im Vergleich zu seinem Vorgänger GPT-3.5 und erreichte Genauigkeitsraten von 84%, 86% und 82% in den jeweiligen Datenbanken, während GPT-3.5 Genauigkeitsraten von 56%, 76% und 62% erreichte. GPT-4 zeichnete sich durch einen ausgezeichneten Redefluss und eine hohe Interaktionszufriedenheit aus und zeigte Potenzial für Gruppenlernen und Entlassungszusammenfassungen. Dennoch wurde auch das Problem der “Halluzinationen” hervorgehoben, das sich auf fehlerhafte oder irreführende Antworten bezieht. Die Autoren stellen fest, dass laut der im International Journal of Medical Informatics veröffentlichten Studie GPT-4 mit dem medizinischen Fachwissen chinesischer Ärzte vergleichbar ist [37].

Implications for practice / Direkte Auswirkungen der Ergebnisse auf Praxis

…

Implications for research / Direkte Auswirkungen der Ergebnisse auf Forschung

…

Conclusions / Schlussfolgerungen

In summary, AI models, particularly ChatGPT models, have shown significant advancements in medical education and examination performance, making them valuable tools for learning and clinical support. The capability of AI models to provide consistent and valuable explanations supports the notion that they can serve as interactive learning tools, extending beyond being merely assessment tools [16] (Takagi et al., 2023).

Zusammenfassend lässt sich sagen, dass KI-Modelle, insbesondere ChatGPT-Modelle, erhebliche Fortschritte in der medizinischen Ausbildung und Prüfungsleistung gezeigt haben, was sie zu wertvollen Instrumenten für das Lernen und die klinische Unterstützung macht. Die Fähigkeit von KI-Modellen, konsistente und wertvolle Erklärungen zu liefern, unterstützt die Vorstellung, dass sie als interaktive Lernwerkzeuge dienen können, die über reine Prüfungsinstrumente hinausgehen [16] (Takagi et al., 2023)

References

1. Ramesh A, Kambhampati C, Monson J, Drew P. Artificial intelligence in medicine. Annals of The Royal College of Surgeons of England. 2004;86:334–8.

2. Gampala S, Vankeshwaram V, Gadula SSP. Is Artificial Intelligence the New Friend for Radiologists? A Review Article. Cureus. 2020. https://doi.org/10.7759/cureus.11137.

3. Yakar D, Ongena YP, Kwee TC, Haan M. Do People Favor Artificial Intelligence Over Physicians? A Survey Among the General Population and Their View on Artificial Intelligence in Medicine. Value in Health. 2022;25:374–81.

4. Lorkowski J, Kolaszyńska O, Pokorski M. Artificial Intelligence and Precision Medicine: A Perspective. Springer International Publishing; 2021. S. 1–11.

5. Mohsen F, Al-Saadi B, Abdi N, Khan S, Shah Z. Artificial Intelligence-Based Methods for Precision Cardiovascular Medicine. Journal of Personalized Medicine. 2023;13:1268.

6. Amisha, Malik P, Pathania M, Rathaur V. Overview of artificial intelligence in medicine. Journal of Family Medicine and Primary Care. 2019;8:2328.

7. Sun L, Yin C, Xu Q, Zhao W. Artificial intelligence for healthcare and medical education: a systematic review. American Journal of Translational Research. 2023;15:4820.

8. Sallam M. ChatGPT Utility in Healthcare Education, Research, and Practice: Systematic Review on the Promising Perspectives and Valid Concerns. Healthcare. 2023;11:887.

9. Mohammad B, Supti T, Alzubaidi M, Shah H, Alam T, Shah Z, u. a. The Pros and Cons of Using ChatGPT in Medical Education: A Scoping Review. IOS Press; 2023.

10. Gebrael G, Sahu KK, Chigarira B, Tripathi N, Mathew Thomas V, Sayegh N, u. a. Enhancing Triage Efficiency and Accuracy in Emergency Rooms for Patients with Metastatic Prostate Cancer: A Retrospective Analysis of Artificial Intelligence-Assisted Triage Using ChatGPT 4.0. Cancers. 2023;15:3717.

11. Alhaidry HM, Fatani B, Alrayes JO, Almana AM, Alfhaed NK. ChatGPT in Dentistry: A Comprehensive Review. Cureus. 2023. https://doi.org/10.7759/cureus.38317.

12. Oztermeli AD, Oztermeli A. ChatGPT performance in the medical specialty exam: An observational study. Medicine. 2023;102:e34673.

13. Lee H. Using ChatGPT as a Learning Tool in Acupuncture Education: Comparative Study. JMIR Medical Education. 2023;9:e47427.

14. Ayoub NF, Lee Y-J, Grimm D, Divi V. Head-to-Head Comparison of ChatGPT Versus Google Search for Medical Knowledge Acquisition. OtolaryngologyHead and Neck Surgery. 2023. https://doi.org/10.1002/ohn.465.

15. Gilson A, Safranek CW, Huang T, Socrates V, Chi L, Taylor RA, u. a. How does ChatGPT perform on the United States medical licensing examination? The implications of large language models for medical education and knowledge assessment. JMIR Medical Education. 2023;9:e45312.

16. Kung TH, Cheatham M, Medenilla A, Sillos C, De Leon L, Elepaño C, u. a. Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLoS digital health. 2023;2:e0000198.

17. Singhal K, Azizi S, Tu T, Mahdavi SS, Wei J, Chung HW, u. a. Large language models encode clinical knowledge. Nature. 2023;1–9.

18. Jung LB, Gudera JA, Wiegand TLT, Allmendinger S, Dimitriadis K, Koerte IK. ChatGPT passes German state examination in medicine with picture questions omitted. Dtsch Arztebl International. 2023;120:373–4.

19. Zheng M, Jin H, Shi N, Duan C, Wang D, Yu X, u. a. The relationship between health literacy and quality of life: a systematic review and meta-analysis. Health and quality of life outcomes. 2018;16:1–10.

20. Miller TA. Health literacy and adherence to medical treatment in chronic and acute illness: a meta-analysis. Patient education and counseling. 2016;99:1079–86.

21. Kim K, Shin S, Kim S, Lee E. The relation between eHealth literacy and health-related behaviors: Systematic review and meta-analysis. Journal of Medical Internet Research. 2023;25:e40778.

22. Al-Shakarchi NJ, Haq IU. ChatGPT Performance in the UK Medical Licensing Assessment: How to Train the Next Generation? Mayo Clinic Proceedings: Digital Health. 2023;1:309–10.

23. Carrasco J, Garcı́a E, Sánchez D, Estrella Porter P, De La Puente L, Navarro J, u. a. Is" ChatGPT" capable of passing the 2022 MIR exam? Implications of artificial intelligence in medical education in Spain?‘ Es capaz „ChatGPT“ de aprobar el examen MIR de 2022? Implicaciones de la inteligencia artificial en la educación.

24. Kaneda Y, Tanimoto T, Ozaki A, Sato T, Takahashi K. Can ChatGPT Pass the 2023 Japanese National Medical Licensing Examination? 2023.

25. Kasai J, Kasai Y, Sakaguchi K, Yamada Y, Radev D. Evaluating gpt-4 and chatgpt on japanese medical licensing examinations. arXiv preprint arXiv:230318027. 2023.

26. Takagi S, Watari T, Erabi A, Sakaguchi K, u. a. Performance of GPT-3.5 and GPT-4 on the Japanese Medical Licensing Examination: comparison study. JMIR Medical Education. 2023;9:e48002.

27. Wang X, Gong Z, Wang G, Jia J, Xu Y, Zhao J, u. a. Chatgpt performs on the chinese national medical licensing examination. 2023.

28. Friederichs H, Friederichs WJ, März M. ChatGPT in medical school: how successful is AI in progress testing? Medical Education Online. 2023;28:2220920.

29. Neeley SM, Ulman CA, Sydelko BS, Borges NJ. The value of progress testing in undergraduate medical education: a systematic review of the literature. Medical Science Educator. 2016;26:617–22.

30. Dion V, St-Onge C, Bartman I, Touchie C, Pugh D. Written-based Progress Testing: a scoping review. Academic Medicine. 2022;97:747–57.

31. Nori H, King N, McKinney SM, Carignan D, Horvitz E. Capabilities of gpt-4 on medical challenge problems. arXiv preprint arXiv:230313375. 2023.

32. Wehkamp K, Krawczak M, Schreiber S. The Quality and Utility of Artificial Intelligence in Patient Care. Deutsches Arzteblatt International. 2023; Forthcoming:arztebl–m2023.

33. R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2019.

34. Wickham H, Averick M, Bryan J, Chang W, McGowan LD, François R, u. a. Welcome to the tidyverse. 2019;4:1686.

35. Iannone R, Cheng J, Schloerke B, Hughes E, Seo J. gt: Easily Create Presentation-Ready Display Tables. 2022.

36. Levin G, Horesh N, Brezinov Y, Meyer R. Performance of ChatGPT in medical examinations: A systematic review and a meta-analysis. BJOG: An International Journal of Obstetrics & Gynaecology. 2023. https://doi.org/10.1111/1471-0528.17641.

37. Wang H, Wu W, Dou Z, He L, Yang L. Performance and exploration of ChatGPT in medical examination, records and education in Chinese: Pave the way for medical AI. International Journal of Medical Informatics. 2023;177:105173.

Declarations

Availability of data and materials / Verfügbarkeit von Daten und Materialien

The original data that support the findings of this study are available from Open Science Framework (osf.io, see manuscript-URL).

Die Originaldaten der Studie sind beim Open Science Framework (osf.io, siehe Manuskript-URL) verfügbar.

Competing interests / Konkurrierende Interessen

The authors declare that they have no competing interests.

Die Autoren erklären, dass sie keine konkurrierenden Interessen haben.*]{color=gray}

Funding / Finanzierung

The author(s) received no specific funding for this work.

Der/die Autor*innen erhielt(en) für diese Arbeit keine spezielle Finanzierung.*

Authors’ contributions / Beiträge der Autor*innen

HF conceived the study and participated in its design and coordination. XX participated in the data acquisition and data analysis. YY participated in the study design. ZZ participated in the design and coordination of the study. All authors helped to draft the manuscript.

HF konzipierte die Studie und beteiligte sich an deren Gestaltung und Koordination. XX war an der Datenerfassung und Datenanalyse beteiligt. YY war an der Gestaltung der Studie beteiligt. ZZ beteiligte sich an der Konzeption und Koordination der Studie. Alle Autor*innen haben an der Erstellung des Manuskripts mitgewirkt.

Acknowledgments / Danksagung

The authors wish to thank Iván Roselló Atanet of the AG Progress Test Medizin for providing progress test data. The authors are grateful for the insightful comments offered by the anonymous peer reviewers at Medical Education Online. The generosity and expertise of one and all have improved this study in innumerable ways and saved us from many errors; those that inevitably remain are entirely our own responsibility.

Die Autoren bedanken sich bei Iván Roselló Atanet von der AG Progress Test Medizin für die Bereitstellung der Progress-Test-Daten. Die Autoren sind dankbar für die aufschlussreichen Kommentare der anonymen Peer-Reviewer von Medical Education Online. Die Großzügigkeit und das Fachwissen eines jeden Einzelnen haben diese Studie auf unzählige Arten verbessert und uns vor vielen Fehlern bewahrt; die, die unvermeidlich bleiben, liegen vollständig in unserer eigenen Verantwortung.

Wiederverwendung

https://creativecommons.org/licenses/by-sa/4.0/deed.de

Zitat

Mit BibTeX zitieren:

@online{friederichs2023,
  author = {Hendrik Friederichs and Wolf Jonas Friederichs and Maren
    März},
  title = {ChatGPT in Progress Testing -\/- the evolution of AI},
  date = {2023-09-06},
  langid = {de}
}

Bitte zitieren Sie diese Arbeit als:

1. Hendrik Friederichs, Wolf Jonas Friederichs, Maren März. ChatGPT in Progress Testing -- the evolution of AI. Medical Education Online. 2023.