Performance of ChatGPT in constructed responses

Die Performance von ChatGPT in freien Antwortformaten

ChatGPT kann Multiple-Choice-Fragen mit beeindruckenden Leistungen beantworten. Gilt dies auch für Fragen mit freien Antwortmöglichkeiten?

Autor:innen
Zugehörigkeit
Veröffentlichungsdatum

8. September 2023

Zusammenfassung

Background / Hintergrund: …

Methods / Methoden: …

Results / Ergebnisse: …

Conclusio / Schlussfolgerungen: …

Schlüsselwörter

Medical Education, Artificial Intelligence

1 Universität Bielefeld, Medizinische Fakultät OWL

Correspondence: Hendrik Friederichs <hendrik.friederichs@uni-bielefeld.de>

IN PROGRESS …

This manuscript is a work in progress. However, thank you for your interest. Please feel free to visit this web site again at a later date.

Dieses Manuskript ist noch in Arbeit. Wir danken Ihnen jedoch für Ihr Interesse. Bitte besuchen Sie diese Website zu einem späteren Zeitpunkt noch einmal …

Relevantes (Studierenden-)Problem: Die Akzeptanz von THEMA hat deutlich zugenommen. Für einen Einsatz im professionellen Bereich sind die Leistungen bisher aber allenfalls ausreichend.
Fokussiertes Problem: Studienlage zu THEMA allgemein und Medical-Education-Kontext;
Progress Tests eignen sich besonders zur Messung von Fortschritt durch Vergleich mit verschiedenen Ausbildungsniveaus.
Gap des Problems: Es gibt eine hohe Erwartung an den Einsatz von THEMA in der Medizin. Die bisherigen Leistungen sind auch in der Medizin bisher aber allenfalls ausreichend.
Lösung?: Gibt es einen Fortschritt durch bessere Leistungen der neuen Möglichkeiten?
Forschungsfragen: Wie ist die absolute Leistung von THEMA im Progress Test Medizin?
Wie ist die relative Leistung im Vergleich zu Medizinstudierenden?
Wie sieht die Leistung bei detaillierter Betrachtung der Domänen und Kompetenzlevel aus?
Studienpopulation: Medizinstudierende.
Studiendesign: Kontrollierte Studie
Datenerhebung: 200 Multiple-Choice-Fragen aus dem Progress Test Medizin
Ergebnisparameter: Anzahl der richtigen Antworten insgesamt und pro Domäne bzw. Kompetenzlevel
Statistik: Bestimmung der Prozentwerte für die absolute und z-Scores und Percentilen für die relative Bewertung der Leistungen.

Background / Hintergrund

Broad problem / Allgemeineres Problem

Artificial intelligence (AI) has the potential to make a positive impact on a range of aspects within our lives. Within multiple fields, including healthcare, medicine, nursing, dentistry, radiology, and orthopaedics, AI technology has been implemented. AI applications within healthcare have focused on improving medical diagnoses, customising medical treatments, managing data, and reducing documentation overload [1]. Within the field of dentistry specifically, AI has been implemented and has demonstrated improved accuracy in endodontic diagnostic and prognostic procedures [2]. In nursing, AI technologies have been utilized to enhance clinical care delivery through numerous means, including patient monitoring and care outcome prediction [3]. In radiology, AI has significant potential to enhance the precision and efficiency of varied tasks, comprising image interpretation and reporting [4]. In a systematic review, the evidence up to July 2022 suggests that AI has been mostly used for clinical specialty training and continuing education in medical education. Particular emphasis has been given to radiology, diagnostics, surgery, cardiology, and dentistry. The main benefits of AI in these fields are increased physician efficiency and enhanced diagnostic accuracy. The study also demonstrated that most medical students are supportive of incorporating AI-specific courses into the current curriculum [5].

Künstliche Intelligenz (KI) hat das Potenzial, sich positiv auf eine Reihe von Aspekten unseres Lebens auszuwirken. In vielen Bereichen, darunter Gesundheitswesen, Medizin, Pflege, Zahnmedizin, Radiologie und Orthopädie, wurde KI-Technologie bereits eingesetzt. KI-Anwendungen im Gesundheitswesen konzentrieren sich auf die Verbesserung medizinischer Diagnosen, die Anpassung medizinischer Behandlungen, die Verwaltung von Daten und die Reduzierung der Dokumentationsflut [1]. Speziell im Bereich der Zahnmedizin wurde KI implementiert und hat eine verbesserte Genauigkeit bei endodontischen Diagnose- und Prognoseverfahren gezeigt [2]. In der Krankenpflege wurden KI-Technologien eingesetzt, um die klinische Versorgung auf vielfältige Weise zu verbessern, einschließlich der Patientenüberwachung und der Vorhersage von Pflegeergebnissen [3]. In der Radiologie birgt KI ein erhebliches Potenzial zur Verbesserung der Präzision und Effizienz verschiedener Aufgaben, darunter Bildinterpretation und Befundung [4]. Eine systematische Überprüfung ergab, dass KI bis Juli 2022 vor allem für die klinische Fachausbildung und die Fortbildung in der medizinischen Ausbildung eingesetzt wurde. Besonderes Augenmerk wurde dabei auf die Radiologie, Diagnostik, Chirurgie, Kardiologie und Zahnmedizin gelegt. Der Hauptnutzen der KI in diesen Bereichen liegt in der Steigerung der ärztlichen Effizienz und der Verbesserung der diagnostischen Genauigkeit. Die Studie zeigte auch, dass die meisten Medizinstudenten die Aufnahme von KI-spezifischen Kursen in den aktuellen Lehrplan befürworten [5].

Artificial intelligence (AI) has the potential to positively impact academic achievement in numerous ways. Although its current effects on academic performance are still developing, it holds promise for improving educational outcomes. The personalisation of learning is one potential impact of AI on academic achievement. AI-powered learning platforms can adjust to individual students’ needs, delivering tailored content and feedback. This individualised approach has the potential to enhance students’ engagement and motivation, subsequently leading to improved academic achievement [6]. Moreover, AI has the capability to automate administrative responsibilities such as scheduling and grading, thereby enabling educators to concentrate more on teaching and mentoring pupils. Additionally, AI can furnish intelligent tutoring systems that offer immediate feedback and support to learners. These systems can identify weaknesses and provide targeted interventions to aid students in enhancing their understanding and performance in particular subjects [6]. This improved efficiency may contribute towards a more effective learning environment and potentially boost academic performance [6]. However, it is essential for teachers to play a crucial role in the effective deployment of AI tools to support student learning [6].

Künstliche Intelligenz (KI) hat das Potenzial, die Studienleistungen auf vielfältige Weise positiv zu beeinflussen. Obwohl sich ihre Auswirkungen auf die akademischen Leistungen derzeit noch in der Entwicklung befinden, ist sie vielversprechend für die Verbesserung von Bildungsergebnissen. Die Personalisierung des Lernens ist eine mögliche Auswirkung der KI auf Studienleistungen. KI-gestützte Lernplattformen können sich auf die Bedürfnisse der einzelnen Studierenden einstellen und maßgeschneiderte Inhalte und Rückmeldungen liefern. Dieser individualisierte Ansatz hat das Potenzial, das Engagement und die Motivation der Studierenden zu steigern, was wiederum zu besseren schulischen Leistungen führt [6]. Darüber hinaus kann KI administrative Aufgaben wie Terminplanung und Benotung automatisieren, so dass sich die Dozierenden stärker auf den Unterricht und die Betreuung der Studierenden konzentrieren können. Darüber hinaus kann KI intelligente Nachhilfesysteme bereitstellen, die den Lernenden sofortiges Feedback und Unterstützung bieten. Diese Systeme können Schwächen erkennen und gezielte Maßnahmen ergreifen, um den Studierenden zu helfen, ihr Verständnis und ihre Leistung in bestimmten Fächern zu verbessern [6]. Diese verbesserte Effizienz kann zu einer effektiveren Lernumgebung beitragen und potenziell die akademischen Leistungen steigern [6]. Allerdings ist es wichtig, dass die Lehrkräfte eine entscheidende Rolle beim effektiven Einsatz von KI-Tools zur Unterstützung des Lernens der Studierenden spielen [6].

Several studies have investigated the effects of AI in medical education and its potential benefits for medical students. One study [7] focused on students’ attitudes towards AI in medical education and disclosed that the majority of students hold a positive perspective towards AI. Moreover, a strong consensus emerged indicating that AI may alter the medical practice, but it would not replace physicians. Another study [8] analysed existing applications of AI in medical education. It identified three primary uses of AI: learning support, assessment of student learning, and curriculum review. Although academic performance was not specifically measured, the potential of AI to provide personalised learning experiences and enhance the effectiveness of medical education was highlighted. Moreover, a systematic review [9] scrutinised the use of AI in undergraduate medical education. It has been found that AI has a constructive effect on pupils’ enthusiasm for technology and their vocational goals. In general, despite limited research directly connecting using AI in education to student academic results, the formerly mentioned research implies that AI has the capacity to elevate the learning experience and elevate students’ curiosity as well as professional aspirations in relevant sectors. It should be noted that the effective integration of AI in education necessitates appropriate implementation and continuous evaluation, including the assessment of such systems’ performance in a medical setting.

Mehrere Studien haben die Auswirkungen von KI in der medizinischen Ausbildung und ihre potenziellen Vorteile für Medizinstudenten untersucht. Eine Studie [7] konzentrierte sich auf die Einstellung der Studierenden zur KI in der medizinischen Ausbildung und zeigte, dass die Mehrheit der Studierenden eine positive Einstellung zur KI hat. Darüber hinaus herrschte ein starker Konsens darüber, dass KI zwar die medizinische Praxis verändern kann, aber nicht den Arzt ersetzen wird. Eine andere Studie [8] analysierte die bestehenden Anwendungen von KI in der medizinischen Ausbildung. Dabei wurden drei Hauptanwendungen von KI identifiziert: Lernunterstützung, Bewertung des studentischen Lernens und Überprüfung des Lehrplans. Obwohl die akademische Leistung nicht speziell gemessen wurde, wurde das Potenzial der KI hervorgehoben, personalisierte Lernerfahrungen zu bieten und die Effektivität der medizinischen Ausbildung zu verbessern. Außerdem wurde in einer systematischen Übersichtsarbeit [9] der Einsatz von KI in der medizinischen Grundausbildung untersucht. Dabei wurde festgestellt, dass KI eine konstruktive Wirkung auf die Technikbegeisterung der Studierenden und ihre beruflichen Ziele hat. Obwohl es nur wenige Untersuchungen gibt, die den Einsatz von KI in der Ausbildung direkt mit den akademischen Ergebnissen der Studierenden in Verbindung bringen, deuten die oben genannten Untersuchungen darauf hin, dass KI die Fähigkeit hat, die Lernerfahrung zu verbessern und die Neugierde der Studierenden sowie ihre beruflichen Ambitionen in den relevanten Bereichen zu steigern. Es ist anzumerken, dass die effektive Integration von KI in die Bildung eine angemessene Umsetzung und kontinuierliche Bewertung erfordert, einschließlich der Bewertung der Leistung solcher Systeme in einem medizinischen Umfeld.

Theoretical and/or empirical focus of the problem / Theoretische und/oder empirische Fokussierung des Problems

ChatGPT, an artificial intelligence language model, has been utilized in medical education and various applications in education [10, 11]. In the realm of educational measurement, ChatGPT has been employed for automated evaluation, development of case scenarios and exam questions, and customized learning [10]. It has the potential to aid teaching, research, and learning support by allowing swift access to information and supporting different educational tasks [11]. Furthermore, a study compared ChatGPT and Google Search as sources of medical knowledge. It discovered that ChatGPT outperformed Google Search in supplying general medical knowledge, but underperformed in providing medical recommendations [12]. However, it is worth noting that implementing ChatGPT technology in education brings about certain limitations and challenges, including the incapability to think beyond current knowledge, production of erroneous data, and probable ethical issues [10].

ChatGPT, ein Sprachmodell der künstlichen Intelligenz, wurde in der medizinischen Ausbildung und für verschiedene Anwendungen im Bildungsbereich eingesetzt [10, 11]. Im Bereich der Bildungsmessung wurde ChatGPT für die automatisierte Bewertung, die Entwicklung von Fallszenarien und Prüfungsfragen sowie für individuelles Lernen eingesetzt [10]. Es hat das Potenzial, Lehre, Forschung und Lernunterstützung zu fördern, indem es einen schnellen Zugang zu Informationen ermöglicht und verschiedene Bildungsaufgaben unterstützt [11]. Darüber hinaus wurden in einer Studie ChatGPT und Google Search als Quellen für medizinisches Wissen verglichen. Dabei wurde festgestellt, dass ChatGPT bei der Bereitstellung von allgemeinem medizinischem Wissen besser abschnitt als Google Search, bei der Bereitstellung von medizinischen Empfehlungen jedoch schlechter abschnitt [12]. Es ist jedoch anzumerken, dass die Implementierung der ChatGPT-Technologie in der Bildung gewisse Einschränkungen und Herausforderungen mit sich bringt, darunter die Unfähigkeit, über den aktuellen Wissensstand hinaus zu denken, die Produktion fehlerhafter Daten und mögliche ethische Probleme [10].

Thus, the objective evaluation of ChatGPT in medical tests is of significant interest. One study analysed ChatGPT’s performance in medical exams and revealed that it obtained the necessary score in a simulated neurosurgical exam [13]. Another study assessed ChatGPT’s performance in a French medical student entrance examination and discovered that ChatGPT’s performance was equivalent to the overall test scores [14]. ChatGPT demonstrated its efficiency in multiple-choice exams. One study assessed the competence of ChatGPT in a radiology exam and ascertained its accuracy in answering 69% of the questions correctly [15]. In another study, ChatGPT’s competences in an ophthalmology knowledge assessment were tested where it answered 46% of the multiple-choice questions correctly [16]. It should be considered that the efficiency of ChatGPT is subject to variation depending on the domain and the level of complexity of the questions posed. All authors stress the necessity of combining human expertise and verification with the utilization of ChatGPT due to concerns regarding the accuracy, originality, and ethical issues associated with AI-generated responses [17]. In general, ChatGPT displays promising prospects for assisting with exam preparation and delivering precise responses in specific domains. The AI tools are constantly improving and producing notable gains in performance. For instance, in the context of treating myopia, ChatGPT-4.0 demonstrated greater accuracy in responses than ChatGPT-3.5 and Google Bard [18]. In a separate investigation, the simulated written neurosurgery exam tested ChatGPT and its successor, GPT-4. The results showed that both ChatGPT and GPT-4 gained good scores on the exam, with GPT-4 surpassing ChatGPT [13].

Daher ist die objektive Bewertung von ChatGPT in medizinischen Tests von großem Interesse. Eine Studie analysierte die Leistung von ChatGPT in medizinischen Prüfungen und zeigte, dass es die erforderliche Punktzahl in einer simulierten neurochirurgischen Prüfung erreichte [13]. Eine andere Studie bewertete die Leistung von ChatGPT in einer französischen Aufnahmeprüfung für Medizinstudenten und stellte fest, dass die Leistung von ChatGPT der Gesamtpunktzahl des Tests entsprach [14]. ChatGPT bewies seine Effizienz in Multiple-Choice-Prüfungen. Eine Studie bewertete die Kompetenz von ChatGPT in einer Radiologieprüfung und stellte fest, dass es 69 % der Fragen richtig beantwortete [15]. In einer anderen Studie wurde die Kompetenz von ChatGPT bei einer Wissensprüfung in der Augenheilkunde getestet, bei der es 46 % der Multiple-Choice-Fragen richtig beantwortete [16]. Es sollte bedacht werden, dass die Effizienz von ChatGPT je nach Fachgebiet und Komplexitätsgrad der gestellten Fragen variieren kann. Alle Autoren betonen die Notwendigkeit der Kombination von menschlicher Expertise und Verifizierung mit der Nutzung von ChatGPT aufgrund von Bedenken hinsichtlich der Genauigkeit, Originalität und ethischen Fragen im Zusammenhang mit KI-generierten Antworten [17]. Im Allgemeinen zeigt ChatGPT vielversprechende Aussichten für die Unterstützung bei der Prüfungsvorbereitung und die Bereitstellung von präzisen Antworten in bestimmten Bereichen. Die KI-Tools werden ständig verbessert und erzielen beachtliche Leistungssteigerungen. Im Zusammenhang mit der Behandlung von Kurzsichtigkeit zeigte ChatGPT-4.0 beispielsweise eine höhere Genauigkeit der Antworten als ChatGPT-3.5 und Google Bard [18]. In einer separaten Untersuchung wurden ChatGPT und sein Nachfolger GPT-4 bei einer simulierten schriftlichen Prüfung in der Neurochirurgie getestet. Die Ergebnisse zeigten, dass sowohl ChatGPT als auch GPT-4 gute Ergebnisse in der Prüfung erzielten, wobei GPT-4 ChatGPT übertraf [13].

Focused problem statement / Fokussiertes Problem-Statement: Gap und möglicher Fortschritt

Statement of study intent / Fokussierte Forschungsfrage/n

We performed a study of medical students to investigate the following questions:

  1. What is …
  2. Why are …

Wir haben eine Studie mit Medizinstudierenden durchgeführt, um die folgenden Fragen zu untersuchen:

  1. Was ist …
  2. Warum sind …

Methods / Methoden

Setting and subjects / Setting und Probanden

Our study was conducted at Medical School …

Unsere Studie wurde an der Medizinischen Fakultät der … durchgeführt.

It takes six years to complete a course in medical school in Germany, with students enrolled directly from secondary schools. The course of study is divided into a pre-clinical section (the first two years) and a clinical section (the last four years). To improve students’ clinical experience, they are rotated in various hospital departments during their final year (“clinical/practical” year). …

Das Medizinstudium in Deutschland dauert sechs Jahre, wobei die Studierenden direkt von den weiterführenden Schulen aufgenommen werden. Das Studium gliedert sich in einen vorklinischen Teil (die ersten beiden Jahre) und einen klinischen Teil (die letzten vier Jahre). Um die klinische Erfahrung der Studenten zu verbessern, werden sie während ihres letzten Jahres (klinisch-praktisches Jahr) in verschiedenen Krankenhausabteilungen eingesetzt.

Study design / Studiendesign

The participants were asked to complete the BNT voluntarily and anonymously.

Ethical approval / Ethikvotum

All participants had to agree verbally to participate. Additionally, they provided informed consent prior to the study by reading the background information and choosing to provide data. Ethical approval was given by the Ethics Committee of the Chamber of Physicians at Westfalen-Lippe and Bielefeld University, Medical School OWL (XXXX-YYY-f-S).

Alle Teilnehmer mussten sich mündlich zur Teilnahme bereit erklären. Zusätzlich gaben sie vor der Studie eine informierte Einwilligung, indem sie die Hintergrundinformationen lasen und sich daraufhin für die Bereitstellung ihrer Daten entschieden. Das Ethikvotum wurde von der Ethikkommission der Ärztekammer Westfalen-Lippe und der Universität Bielefeld, Medizinische Fakultät OWL (XXXX-YYY-f-S) erteilt.

Data collection / Datenerhebung

Data collection for this study was determined à priori as follows:

  • Input …

ChatGPT responses were independently scored by two raters (both MD and Master of Medical Education). Conflicts were resolved by consensus.

Die Datenerhebung für diese Studie wurde à priori wie folgt festgelegt:

  • Input …

Die Antworten von ChatGPT wurden von zwei Bewertern (beide Ärzte und Master of Medical Education) unabhängig bewertet. Konflikte wurden durch Konsens gelöst.

Outcome Measures / Ergebnisparameter

Statistical methods / Statistische Methoden

We used the standard alpha level of .05 for significance and a power level of .80. Therefore, we needed a sample size of at least XX participants to detect an effect size showing a minimally important difference (d = .YY) [19] in outcome level between intervention and control groups (calculated a priori with G*Power 3.1) [20]. Statistical analysis, tables and figures were conducted using R [21] in RStudio IDE (Posit Software, Boston, MA) with the tidyverse-, gt- and ggstatsplot-packages [2224]. Descriptive means and standard deviations were calculated for participants’ age, and total test scores and frequencies were calculated for sex and for solving the case scenarios. Sample means and frequencies were compared with population means and frequencies using one-sample t-tests and chi-square tests, respectively. …

Wir verwendeten das Standard-Alpha-Niveau von .05 für die Signifikanz und ein Power-Niveau von .80. Daher benötigten wir eine Stichprobengröße von mindestens XX Teilnehmern, um eine Effektgröße nachzuweisen, die einen minimal bedeutsamen Unterschied (d = .YY) [19] im Ergebnisniveau zwischen Interventions- und Kontrollgruppe zeigt (a priori* berechnet mit GPower 3.1) [20]. Statistische Analysen, Tabellen und Abbildungen wurden mit R [21] in RStudio IDE (Posit Software, Boston, MA) mit den tidyverse-, gt- und ggstatsplot-Paketen [2224] durchgeführt. Deskriptive Mittelwerte und Standardabweichungen wurden für das Alter der Teilnehmer berechnet, und die Gesamttestwerte und Häufigkeiten wurden für das Geschlecht und für die Lösung der Fallszenarien berechnet. Die Mittelwerte und Häufigkeiten der Stichprobe wurden mit den Mittelwerten und Häufigkeiten der Grundgesamtheit unter Verwendung von t-Tests bzw. Chi-Quadrat-Tests für eine Stichprobe verglichen. …

Results / Ergebnisse

Recruitment Process and Demographic Characteristics / Studienteilnehmer

The recruitment process is shown in Figure 1. We obtained XX complete data sets (return rate YY.Z%) after contacting …

Der Rekrutierungsprozess ist in Abbildung 1 dargestellt. Wir erhielten XX vollständige Datensätze (Rücklaufquote YY.Z%), nachdem wir Kontakt mit …

Primary and secondary Outcomes / Haupt- und Nebenergebnisse

Discussion / Diskussion

Summary / Zusammenfassung der Ergebnisse

After the evaluation of all datasets, the following findings emerged. The first is that …

Nach Auswertung aller Datensätze ergaben sich die folgenden Erkenntnisse: Die erste ist, dass …

Limitation: Studienpopulation

möglicher Einfluss der Studienpopulation auf Interpretation und Anwendbarkeit der Ergebnisse …

Limitation: Studiendesign

möglicher Einfluss des Studiendesigns auf Interpretation und Anwendbarkeit der Ergebnisse …

Integration with prior work / Vergleich mit bestehender theoretischer und empirischer Forschung

Implications for practice / Direkte Auswirkungen der Ergebnisse auf Praxis

Implications for research / Direkte Auswirkungen der Ergebnisse auf Forschung

Conclusions / Schlussfolgerungen

References

1. Lorkowski J, Grzegorowska O, Pokorski M. Artificial Intelligence in the Healthcare System: An Overview. Springer International Publishing; 2021. S. 1–10.
2. Karobari MI, Adil AH, Basheer SN, Murugesan S, Savadamoorthi KS, Mustafa M, u. a. Evaluation of the Diagnostic and Prognostic Accuracy of Artificial Intelligence in Endodontic Dentistry: A Comprehensive Review of Literature. Computational and Mathematical Methods in Medicine. 2023;2023:1–9.
3. Ng ZQP, Ling LYJ, Chew HSJ, Lau Y. The role of artificial intelligence in enhancing clinical nursing care: A scoping review. Journal of Nursing Management. 2021;30:3654–74.
4. Gampala S, Vankeshwaram V, Gadula SSP. Is Artificial Intelligence the New Friend for Radiologists? A Review Article. Cureus. 2020. https://doi.org/10.7759/cureus.11137.
5. Sun L, Yin C, Xu Q, Zhao W. Artificial intelligence for healthcare and medical education: a systematic review. American Journal of Translational Research. 2023;15:4820.
6. Molero Jurado M del M, Pérez-Fuentes M del C, Martos Martínez Á, Barragán Martín AB, Simón Márquez M del M, Gázquez Linares JJ. Emotional intelligence as a mediator in the relationship between academic performance and burnout in high school students. PLOS ONE. 2021;16:e0253552.
7. Buabbas AJ, Miskin B, Alnaqi AA, Ayed AK, Shehab AA, Syed-Abdul S, u. a. Investigating Students Perceptions towards Artificial Intelligence in Medical Education. Healthcare. 2023;11:1298.
8. Varma JR, Fernando S, Ting BY, Aamir S, Sivaprakasam R. The Global Use of Artificial Intelligence in the Undergraduate Medical Curriculum: A Systematic Review. Cureus. 2023. https://doi.org/10.7759/cureus.39701.
9. Park W, Kwon H. Implementing artificial intelligence education for middle school technology education in Republic of Korea. International Journal of Technology and Design Education. 2023. https://doi.org/10.1007/s10798-023-09812-2.
10. Mohammad B, Supti T, Alzubaidi M, Shah H, Alam T, Shah Z, u. a. The Pros and Cons of Using ChatGPT in Medical Education: A Scoping Review. IOS Press; 2023.
11. Hosseini M, Gao CA, Liebovitz DM, Carvalho AM, Ahmad FS, Luo Y, u. a. An exploratory survey about using ChatGPT in education, healthcare, and research. 2023.
12. Ayoub NF, Lee Y-J, Grimm D, Divi V. Head-to-Head Comparison of ChatGPT Versus Google Search for Medical Knowledge Acquisition. OtolaryngologyHead and Neck Surgery. 2023. https://doi.org/10.1002/ohn.465.
13. Ali R, Tang OY, Connolly ID, Zadnik Sullivan PL, Shin JH, Fridley JS, u. a. Performance of ChatGPT and GPT-4 on Neurosurgery Written Board Examinations. Neurosurgery. 2023. https://doi.org/10.1227/neu.0000000000002632.
14. Guigue P-A, Meyer R, Thivolle-Lioux G, Brezinov Y, Levin G. Performance of ChatGPT in French language Parcours d’Accès Spécifique Santé test and in OBGYN. International Journal of Gynecology & Obstetrics. 2023. https://doi.org/10.1002/ijgo.15083.
15. Bhayana R, Krishna S, Bleakney RR. Performance of ChatGPT on a Radiology Board-style Examination: Insights into Current Strengths and Limitations. Radiology. 2023;307.
16. Mihalache A, Popovic MM, Muni RH. Performance of an Artificial Intelligence Chatbot in Ophthalmic Knowledge Assessment. JAMA Ophthalmology. 2023;141:589.
17. Kim JK, Chua M, Rickard M, Lorenzo A. ChatGPT and large language model (LLM) chatbots: The current state of acceptability and a proposal for guidelines on utilization in academic medicine. Journal of Pediatric Urology. 2023. https://doi.org/10.1016/j.jpurol.2023.05.018.
18. Lim ZW, Pushpanathan K, Yew SME, Lai Y, Sun C-H, Lam JSH, u. a. Benchmarking large language models performances for myopia care: a comparative analysis of ChatGPT-3.5, ChatGPT-4.0, and Google Bard. eBioMedicine. 2023;95:104770.
19. Hattie J. Visible learning: The sequel: A synthesis of over 2,100 meta-analyses relating to achievement. Taylor & Francis; 2023.
20. Faul F, Erdfelder E, Lang A-G, Buchner A. G* Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behavior research methods. 2007;39:175–91.
21. R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2019.
22. Wickham H, Averick M, Bryan J, Chang W, McGowan LD, François R, u. a. Welcome to the tidyverse. 2019;4:1686.
23. Iannone R, Cheng J, Schloerke B, Hughes E, Seo J. gt: Easily Create Presentation-Ready Display Tables. 2022.
24. Patil I. Visualizations with statistical details: The’ggstatsplot’approach. Journal of Open Source Software. 2021;6:3167.

Declarations

Availability of data and materials / Verfügbarkeit von Daten und Materialien

The original data that support the findings of this study are available from Open Science Framework (osf.io, see manuscript-URL).

Die Originaldaten der Studie sind beim Open Science Framework (osf.io, siehe Manuskript-URL) verfügbar.

Competing interests / Konkurrierende Interessen

The authors declare that they have no competing interests.

Die Autoren erklären, dass sie keine konkurrierenden Interessen haben.

Funding / Finanzierung

The author(s) received no specific funding for this work.

Der/die Autor*innen erhielt(en) für diese Arbeit keine spezielle Finanzierung.

Authors’ contributions / Beiträge der Autor*innen

HF conceived the study and participated in its design and coordination. XX participated in the data acquisition and data analysis. YY participated in the study design. ZZ participated in the design and coordination of the study. All authors helped to draft the manuscript.

HF konzipierte die Studie und beteiligte sich an deren Gestaltung und Koordination. XX war an der Datenerfassung und Datenanalyse beteiligt. YY war an der Gestaltung der Studie beteiligt. ZZ beteiligte sich an der Konzeption und Koordination der Studie. Alle Autorinnen haben an der Erstellung des Manuskripts mitgewirkt.*

Acknowledgments / Danksagung

The authors are grateful for the insightful comments offered by the anonymous peer reviewers at Medical Education Online. The generosity and expertise of one and all have improved this study in innumerable ways and saved us from many errors; those that inevitably remain are entirely our own responsibility.

Die Autoren sind dankbar für die aufschlussreichen Kommentare der anonymen Peer-Reviewer von Medical Education Online. Die Großzügigkeit und das Fachwissen eines jeden Einzelnen haben diese Studie auf unzählige Arten verbessert und uns vor vielen Fehlern bewahrt; die, die unvermeidlich bleiben, liegen vollständig in unserer eigenen Verantwortung.

Wiederverwendung

Zitat

Mit BibTeX zitieren:
@online{friederichs2023,
  author = {Hendrik Friederichs and Robert Kleinert},
  title = {Performance of ChatGPT in constructed responses},
  date = {2023-09-08},
  langid = {de}
}
Bitte zitieren Sie diese Arbeit als:
1. Hendrik Friederichs, Robert Kleinert. Performance of ChatGPT in constructed responses. Medical Education Online. 2023.