Masterarbeit Hochschul- und Wissenschaftsmanagement

Implementierung eines praktischen Progress-Tests im Studium der Humanmedizin – eine testtheoretische Analyse

Critical Thinking

Life Long Learning

Forschung

Lehre

Organisation

Autor:in

Zugehörigkeit

Hendrik Friederichs

Medizinische Fakultät OWL, Universität Bielefeld

Veröffentlichungsdatum

27. März 2023

Zusammenfassung

Hintergrund

Das Medizinstudium ist anspruchsvoll und setzt hohe schulische Leistungen für die Zulassung voraus. Trotz strenger Auswahl der Studierenden sind aber Studienverzögerungen und -abbrüche keine Seltenheit. Daher ist ein effektiver Wissenserwerb für die angehende Mediziner*innen entscheidend, um den Studienerfolg zu sichern. Im Medizinstudium werden aber neben theoretischem Wissen aber auch praktische Fähigkeiten und Fertigkeiten immer wichtiger.

Um hohe Kompetenzstandards aufrechtzuerhalten, ist die Überprüfung des Lernfortschritts in der Ausbildung in den letzten Jahren zu einem wichtigen Thema geworden. Mit sog. Progress Tests werden Studierende während des Studiums in regelmäßigen Abständen getestet. Diese Progress Tests werden international immer beliebter, um den Wissenszuwachs von Medizinstudierenden zu messen. Sie ermöglichen es, Stärken und Schwächen der Studierenden zu identifizieren und Lehrstrategien anzupassen.

In dem hier dargestellten Projekt wurde ein praktischer Progress Test entwickelt, um Studierenden regelmäßig Feedback zum Erwerb ihrer praktischen Fertigkeiten zu geben und um sie auf zukünftige praktische Prüfungen im Staatsexamen vorzubereiten. Praktische Tests haben jedoch oft Probleme mit der Zuverlässigkeit (Reliabilität) der Prüfungsergebnisse. Gerade die Zuverlässigkeit der Prüfungsergebnisse ist für einen praktischen Progress Test aber entscheidend, um aus diesem einen Nutzen für Lehrende und Studierende zu ziehen.

Diesem Problem soll mit einer Kombination von praktischen Stationen und Multiple-Choice-Fragen in dem neuen praktischen Progress Test begegnet werden. Die Studierenden sollen in den Stationen praktische Fertigkeiten anwenden, um Informationen zu Patienten(fällen) zu generieren oder einzuordnen. Anschließend werden zu den gewonnenen Informationen Multiple-Choice-Fragen zu den Konzepten Diagnose, Therapie, Data Literacy und Kommunikation gestellt.

Methoden

In dieser Kohortenstudie wurde der Lernfortschritt in den praktischen Fertigkeiten von Studierenden unterschiedlicher Fachsemester (FS) derselben Fakultät anhand eines neu entwickelten praktischen Progress Tests untersucht. Für den praktischen Progress Test wurden die Konzepte Diagnose, Therapie, Data Literacy und Kommunikation thematisch in 15 Prüfstationen integriert. Mit den aus den Stationen generierten Informationen mussten die Studierenden anschließend 50 Multiple-Choice-Fragen beantworten. Die von den Studierenden richtig beantworteten Fragen wurden mit einem Punkt bewertet und zu einem Gesamtscore addiert. Daraus wurden im Rahmen der klassischen Testtheorie das Gesamtergebnis, der Schwierigkeitsindex und die Trennschärfen der einzelnen Aufgaben und schließlich die Gesamtreliabilität des praktischen Progress Tests berechnet.

Ergebnisse

Von den 118 immatrikulierten Studierenden des 1. und 3. Fachsemesters der Medizinischen Fakultät OWL konnten für die Studie insgesamt 115 (1. FS: n = 60, 71 % weiblich; 3. FS: n = 55, 67 % weiblich) in die Studie eingeschlossen werden. Der durchschnittlich erreichte Gesamtscore der Studierenden aus dem ersten Semester lag bei 29,9 ± 9,2 %, der der Studierenden aus dem dritten Semester bei 47,8 ± 9,9 %, was insgesamt einem Schwierigkeitsindex von 0,39 entspricht. Damit zeigten die Studierenden nach einem Jahr Studium den erwarteten Lernfortschritt (Differenz = 17,9 %, 95-%-Konfidenzintervall [14 %; 22 %], t(106,77) = 9,80, p < 0,001; Cohen’s d = 1,90, 95-%-Konfidenzintervall [1,44; 2,35]).

Im Durchschnitt liegen die Trennschärfen der einzelnen Aufgaben (Diskriminationsindex D = 0,30, punktbiserialer Korrelationskoeffizient r = 0,31 und modifizierter punktbiserialer Korrelationskoeffizient r’ = 0,26) im akzeptablen bis guten Bereich. Allerdings weisen gut ein Drittel der Aufgaben einen modifizierten punktbiserialen Pearson-Korrelationskoeffizient r’ von kleiner 0,2 auf. Insgesamt weisen Fragen mit einem Schwierigkeitsindex zwischen 0,2 und 0,8 eine höhere Trennschärfe auf.

Daraus ergibt sich ein Cronbachs \(\alpha\) von 0,83 für den gesamten praktischen Progress Test, was ein guter Indikator für ein Erreichen der geforderten Mindestreliabilität von 0,8 ist.

Diskussion

Die hier vorgelegte Untersuchung zeigt, dass der an der Medizinischen Fakultät OWL eingeführte praktische Progress Test in der Lage ist, den Lernfortschritt der Studierenden in ihren praktischen Fertigkeiten im ersten Studienjahr zuverlässig zu bestimmen. Die Reliabilitäten des Gesamtergebnisses und der Subskalen für die Konzepte Diagnose und Data Literacy weisen die für zuverlässige Multiple-Choice-Tests erforderlichen Werte auf.

Die Betrachtung der einzelnen Aufgaben zeigt aber vor allem in dem Konzept Therapie Probleme mit der Trennschärfe, so dass für die weitere Entwicklung des praktischen Progress Tests dieser Aufgabentyp vereinfacht werden sollte.

Eine gute Beurteilung der medizinischen Kompetenz erfordert jedoch auch mehrere Prüfungsmethoden, da keine einzelne Methode die gesamte medizinische Kompetenz erfassen kann.

Hintergrund

Das Studium der Humanmedizin ist eine große Herausforderung für die Studierenden, trotz des für die Zulassung zum Studium aufwendigen Selektionsprozesses. Das Medizinstudium erfreut sich in Deutschland großer Beliebtheit und so bewerben sich jedes Jahr mehr als 40.000 junge Menschen auf die 9.500 verfügbaren Studienplätze [1]. Chancen auf einen Studienplatz haben dementsprechend nur junge Menschen mit sehr guten schulischen Leistungen und mit ebenso guten Ergebnissen in einem zusätzlichen obligatorischen Intelligenztest (sog. TMS - Test für medizinische Studiengänge). In einem bundesweiten und transparenten Verfahren werden dann die besten Bewerber*innen für ein Medizinstudium ausgewählt. Trotz dieser hohen Anforderungen an die Zulassung stellt das Studium selbst ebenfalls eine Herausforderung für die Medizinstudierenden dar. Dies zeigt sich u.a. darin, dass knapp 25 % der Studierenden das Studium bis zum 1. Staatsexamen verzögert absolvieren und etwa 10 % das Studium dann innerhalb von durchschnittlich 4 Jahren abbrechen [2]. Für Studierende, die die Prüfungen nicht in der Regelstudienzeit bestehen, bedeutet dies zumindest eine Verlängerung der ohnehin schon langen Studiendauer (6 1/4 Jahre) mit entsprechendem Zeitverlust. Weitere Herausforderungen, wie die Gefährdung von Stipendien, können zu den bestehenden finanziellen Problemen hinzukommen. Um die für das Studium vorgesehene lange Dauer nicht noch weiter zu verlängern, ist eine qualitativ hochwertige Lehre notwendig und stellt einen hohen Anspruch an alle Beteiligten dar. Insbesondere ist ein effektiver Wissenserwerb für die angehende Mediziner*innen entscheidend, um den Studienerfolg zu sichern.

1. Statista GmbH. Anzahl der Bewerber und Studienplätze in bundesweiten NC-Studiengängen im Wintersemester 2019/2020. 2022. https://de.statista.com/statistik/daten/studie/36728/umfrage/bewerber-und-studienplaetze-in-bundesweiten-nc-studiengaengen/. Zugegriffen 25. Oktober 2022.

2. Heublein U, Ebert J, Hutzsch C, Isleib S, König R, Richter J, u. a. Zwischen Studienerwartungen und Studienwirklichkeit. Ursachen des Studienabbruchs, beruflicher Verbleib der Studienabbrecherinnen und Studienabbrecher und Entwicklung der Studienabbruchquote an deutschen Hochschulen. 2017;1.

Wissenserwerb im Medizinstudium

Die Bedeutung von Wissen für die Angehörigen der Gesundheitsberufe kann gar nicht hoch genug eingeschätzt werden, da es die Grundlage für eine effektive Patientenversorgung bildet und für fundierte Entscheidungen in verschiedenen klinischen Kontexten unerlässlich ist. Medizinische Fachkräfte benötigen ein breites Spektrum an Wissen, das Grundlagenwissenschaften, klinische Fertigkeiten, Kommunikationsfähigkeiten und ethische Grundsätze umfasst, um genaue Diagnosen zu stellen, angemessene Behandlungspläne zu entwickeln und die Sicherheit der Patienten zu gewährleisten [3]. Darüber hinaus erfordert die rasche Entwicklung der medizinischen Wissenschaft und der Gesundheitspraxis eine Verpflichtung zum lebenslangen Lernen, die es ermöglicht, mit neuen Entdeckungen, Technologien und Richtlinien Schritt zu halten [4]. Es werden außerdem Kenntnisse in Bereichen wie kulturelle Kompetenz, Gesundheitsförderung und interprofessionelle Zusammenarbeit zunehmend als wesentlich für die Optimierung der Patientenergebnisse und den Umgang mit den unterschiedlichen Bedürfnissen verschiedener Patientengruppen anerkannt [5, 6]. Letztlich sind der Erwerb und die kontinuierliche Weiterentwicklung von Wissen für die Angehörigen der Gesundheitsberufe unerlässlich, da sie die Grundlage für eine qualitativ hochwertige, evidenzbasierte und patientenorientierte Versorgung bilden.

3. Epstein RM, Hundert EM. Defining and assessing professional competence. Jama. 2002;287:226–35.

4. Davis D, O’Brien MAT, Freemantle N, Wolf FM, Mazmanian P, Taylor-Vaisey A. Impact of formal continuing medical education: do conferences, workshops, rounds, and other traditional continuing education activities change physician behavior or health care outcomes? Jama. 1999;282:867–74.

5. Betancourt JR, Green AR, Carrillo JE, u. a. Defining cultural competence: a practical framework for addressing racial/ethnic disparities in health and health care. Public health reports. 2003;118:293.

6. Reeves S, Pelone F, Harrison R, Goldman J, Zwarenstein M. Interprofessional collaboration to improve professional practice and healthcare outcomes. Cochrane database of systematic reviews. 2017.

7. Norman GR. The adult learner: a mythical species. Academic medicine. 1999;74:886–9.

8. Dornan T, Boshuizen H, King N, Scherpbier A. Experience-based learning: a model linking the processes and outcomes of medical students’ workplace learning. Medical education. 2007;41:84–91.

10. Sandars J. The use of reflection in medical education: AMEE Guide No. 44. Medical teacher. 2009;31:685–95.

11. Van Merriënboer JJ, Sweller J. Cognitive load theory in health professional education: design principles and strategies. Medical education. 2010;44:85–93.

Demzufolge ist der Wissenserwerb von Medizinstudierenden ein entscheidender Aspekt der medizinischen Ausbildung, da er die Grundlage für die Entwicklung kompetenter medizinischer Fachkräfte bildet, die in der Lage sind, eine qualitativ hochwertige Patientenversorgung zu gewährleisten. Der Prozess des Erwerbs und Behaltens von medizinischem Wissen umfasst komplexe kognitive und metakognitive Fähigkeiten, die durch verschiedene Lehrmethoden und Lernerfahrungen unterstützt werden [7]. Medizinische Ausbilder sind ständig bemüht, effektive Lehrstrategien wie problembasiertes Lernen, fallbasierten Unterricht und Simulationen zu identifizieren und umzusetzen, um den Wissenserwerb der Studierenden zu maximieren und das langfristige Behalten zu erleichtern [8, 9]. Darüber hinaus wird zunehmend die Bedeutung von selbstgesteuertem Lernen, Reflexion und Feedback als wesentlicher Bestandteil des Wissenserwerbsprozesses von Medizinstudierenden erkannt [10]. Letztendlich hängt der erfolgreiche Wissenserwerb von Medizinstudierenden von einer Kombination aus gut konzipierten Ausbildungsmaßnahmen und der Entwicklung von Fähigkeiten zum selbstgesteuerten Lernen ab, die zusammen zur Entwicklung von kompetenten Fachkräften im Gesundheitswesen beitragen [11].

Die Lernerfolgskontrolle in der medizinischen Ausbildung ist ein entscheidender Faktor, um sicherzustellen, dass zukünftige Angehörige der Gesundheitsberufe über das Wissen und die Fähigkeiten verfügen, die für eine qualitativ hochwertige Patientenversorgung erforderlich sind. Diese reichen von traditionellen schriftlichen Prüfungen wie Multiple-Choice-Fragen bis hin zu innovativeren Techniken wie objektive strukturierte klinischen Prüfungen (OSCE), die klinisches Denken und praktische Fähigkeiten messen [12–14]. Effektive Evaluationsmethoden dienen nicht nur dazu, den Fortschritt der Studierenden zu messen, sondern liefern auch wertvolles Feedback an die Fakultäten, das in die Curriculumentwicklung und Lehrstrategien einfließen kann [15]. Darüber hinaus kann der Einsatz von formativen und summativen Evaluationen während der gesamten medizinischen Ausbildung das selbstregulierte Lernen und eine Kultur des lebenslangen Lernens unter den Angehörigen der Gesundheitsberufe fördern [16]. Abschließend wird das erworbene medizinische Wissen der Medizinstudierenden in Form von Staatsexamina geprüft, so dass das Bestehen dieser Prüfungen das wichtigste formale Studienziel für Medizinstudierende ist.

14. Van Der Vleuten CP, Schuwirth LW. Assessing professional competence: from methods to programmes. Medical education. 2005;39:309–17.

16. Eva KW, Armson H, Holmboe E, Lockyer J, Loney E, Mann K, u. a. Factors influencing responsiveness to feedback: on the interplay between fear, confidence, and reasoning processes. Advances in health sciences education. 2012;17:15–26.

Praktische Fertigkeiten im Medizinstudium

Die Aneignung von medizinischem Wissen ist ein zentrales Element der ärztlichen Ausbildung, aber nicht zuletzt seit der Pisa-Studie aus den Jahren 2000/2001 ist der Begriff der Kompetenz aus der Bildung nicht mehr wegzudenken. Dabei ist die Kompetenz im Allgemeinen als ” […] die Fähigkeit und Fertigkeit, in den bestimmten Gebieten Probleme zu lösen, sowie die Bereitschaft, dies auch zu tun und umzusetzen […]” [17], definiert. Auch in der Ausbildung der Medizinstudierenden findet das Bedürfnis, die jungen Menschen besser auf die praktischen Anforderungen des Berufes vorzubereiten, schon lange einen breiten Anklang. So ist es nur konsequent, dass die Ausbildung praktischer Fertigkeiten von Medizinstudierenden – nicht zuletzt durch eine entsprechende Änderung der Approbationsordnung im Jahr 2002 – eine höhere Akzeptanz und Wertschätzung findet und somit einen immer breiteren Raum in der Ausbildung einnimmt. Das heutige Ziel der ärztlichen Weiterbildung ist laut Approbationsordnung “der wissenschaftlich-praktisch in der Medizin ausgebildete Arzt, der zur eigenverantwortlichen und selbständigen ärztlichen Berufsausübung, zur Weiterbildung und selbstständiger Fortbildung befähigt ist.” (aus §1 der Approbationsordnung für Ärzte [ÄAppO] vom 27. Juni 2002). Die Ausbildung zum Arzt soll demzufolge auf wissenschaftlicher Grundlage und zudem praxis- und patientenbezogen durchgeführt werden und den angehenden Mediziner dazu befähigen, mit Abschluss des Studiums kompetent und vor allem eigenverantwortlich zu handeln.

17. Weinert F. Vergleichende Leistungsmessung in Schulen–eine umstrittene Selbstverständlichkeit, Leistungsmessungen in Schulen, Weinert, FE. 2001.

18. Mangione S, Nieman LZ. Cardiac auscultatory skills of internal medicine and family practice trainees: a comparison of diagnostic proficiency. Jama. 1997;278:717–22.

19. March SK, Bedynek Jr JL, Chizner MA. Teaching cardiac auscultation: effectiveness of a patient-centered teaching conference on improving cardiac auscultatory skills. In: Mayo Clinic Proceedings. Elsevier; 2005. S. 1443–8.

20. Cooke M, Irby DM, Sullivan W, Ludmerer KM. American medical education 100 years after the Flexner report. New England journal of medicine. 2006;355:1339–44.

21. Bradley P. The history of simulation in medical education and possible future directions. Medical education. 2006;40:254–62.

Dennoch werden nach wie vor erhebliche Defizite in den Leistungen der Studierenden und der jungen Ärzte in Weiterbildung beklagt und auch immer wieder festgestellt [18, 19]. Es wird immer wieder kritisiert, dass die Medizinischen Hochschulen (auch international) weiterhin zu theoretisch ausbilden, dass also die Betonung zu sehr auf der Vermittlung von wissensbasierten Inhalten liegt [20]. Als Reaktion darauf findet international eine Verschiebung von zuvor rein kognitiven Lernzielen zu mehr praktischen und kompetenzbasierten Lernzielen in der medizinischen Aus- und Weiterbildung statt [21], die intensiv wissenschaftlich begleitet wird.

Aufgrund einer deutlich zunehmenden Diskussion in der medizinischen Aus- und Weiterbildung haben z. B. Frank et al. in einem systematischen Review aus 173 Publikationen eine Definition der lompetenzbasierten medizinischen Aus- und Weiterbildung für das 21. Jahrhundert vorgelegt: „Kompetenzbasierte Ausbildung ist ein Ansatz zur Vorbereitung von Ärzten auf die Praxis, der sich grundsätzlich an den Fähigkeiten von Absolventen orientiert und auf Kompetenzen aufbaut, die aus einer Analyse der Bedürfnisse der Gesellschaft und der Patienten abgeleitet sind. Sie relativiert den zeitbasierten Unterricht und verspricht mehr Transparenz, Flexibilität und Fokussierung auf den Lerner.” [22] – Übersetzung des Autors). So führt eine kompetenzbasierte Ausrichtung des Lehrplans zu einer größeren Fokussierung auf den Lernenden, indem die individuellen Lernstile der Studierenden mit dem jeweils unterschiedlichen Zeitbedarf zum Erlernen einer Kompetenz berücksichtigt wird (siehe auch [23].

22. Frank JR, Mungroo R, Ahmad Y, Wang M, De Rossi S, Horsley T. Toward a definition of competency-based education in medicine: a systematic review of published definitions. Medical teacher. 2010;32:631–7.

23. Frank JR, Snell LS, Cate OT, Holmboe ES, Carraccio C, Swing SR, u. a. Competency-based medical education: theory to practice. Medical teacher. 2010;32:638–45.

24. Miller GE. The assessment of clinical skills/competence/performance. Academic medicine. 1990;65:S63–7.

25. Harden RM, Stevenson M, Downie WW, Wilson G. Assessment of clinical competence using objective structured examination. Br Med J. 1975;1:447–51.

13. Harden RM. Revisiting „Assessment of clinical competence using an objective structured clinical examination (OSCE)“. Medical education. 2016;50:376–9.

26. Boulet JR, McKinley DW, Norcini JJ, Whelan GP. Assessing the comparability of standardized patient and physician evaluations of clinical skills. Advances in Health Sciences Education. 2002;7:85–97.

27. Hodges B, McIlroy JH. Analytic global OSCE ratings are sensitive to level of training. Medical education. 2003;37:1012–6.

28. Khan KZ, Ramachandran S, Gaunt K, Pushkar P. The objective structured clinical examination (OSCE): AMEE guide no. 81. Part I: an historical and theoretical perspective. Medical teacher. 2013;35:e1437–46.

29. Bartfay WJ, Rombough R, Howse E, LeBlanc R. The OSCE approach in nursing education: Objective structured clinical examinations can be effective vehicles for nursing education and practice by promoting the mastery of clinical skills and decision-making in controlled and safe learning environments. The Canadian Nurse. 2004;100:18.

30. Khan KZ, Gaunt K, Ramachandran S, Pushkar P. The objective structured clinical examination (OSCE): AMEE guide no. 81. Part II: organisation & administration. Medical teacher. 2013;35:e1447–63.

Die Bewertung klinischer Fertigkeiten umfasst ein breites Spektrum von Fähigkeiten, darunter Anamneseerhebung, körperliche Untersuchung, Verfahrenstechniken, Kommunikation und klinisches Denken [24]. Die Objective Structured Clinical Examination (OSCE) ist einer der am weitesten verbreiteten Ansätze, da sie eine standardisierte und umfassende Bewertung der verschiedenen klinischen Fertigkeiten ermöglicht [25]. OSCEs sind zu einem wesentlichen Bestandteil der medizinischen Ausbildung geworden, da sie eine praktische und standardisierte Methode zur Bewertung klinischer Kompetenzen darstellen [12, 13]. Trotz ihres weit verbreiteten Einsatzes gibt es nach wie vor Fragen zur Reliabilität von OSCEs, wobei sich die Bedenken vor allem auf die Subjektivität der Prüfer, die Variabilität der Stationsinhalte und die mögliche Beeinträchtigung der Leistung durch die Angst der Studierenden beziehen [26]. Zahlreiche Studien haben die Reliabilität von OSCEs untersucht, und immer mehr Belege deuten darauf hin, dass OSCEs bei ordnungsgemäßer Gestaltung und Durchführung tatsächlich ein zuverlässiges und valides Maß für die klinische Kompetenz darstellen können [27, 28]. Um die Zuverlässigkeit von OSCEs zu erhöhen, ist es entscheidend, klare Bewertungskriterien festzulegen, eine standardisierte Prüferschulung durchzuführen und eine ausreichende Anzahl von Stationen einzusetzen, um potenzielle Schwankungen zu berücksichtigen [29]. Letztendlich sind OSCEs ein wertvolles Instrument in der medizinischen Ausbildung, aber ihre Zuverlässigkeit hängt von der konsequenten Anwendung dieser bewährten Verfahren ab. Dadurch sind OSCEs leider sehr aufwändig [30] und gerade in der Situation einer noch im Aufbau befindlichen Fakultät schwierig umzusetzen.

Neben den OSCEs wurden weitere Beurteilungsinstrumente wie die direkte Beobachtung von prozeduralen Fertigkeiten (Direct Observation of Procedural Skills, DOPS [31]), Mini-CEX [32] und arbeitsplatzbezogene Beurteilungen (Workplace Based Assessments, WPBA [33]) eingeführt, um die traditionellen Prüfungsmethoden zu ergänzen und eine ganzheitlichere Beurteilung der klinischen Fertigkeiten in authentischen Situationen zu ermöglichen.

31. McLeod R, Mires G, Ker J. Direct observed procedural skills assessment in the undergraduate setting. The clinical teacher. 2012;9:228–32.

32. Norcini JJ, Blank LL, Arnold GK, Kimball HR. The mini-CEX (clinical evaluation exercise): a preliminary investigation. Annals of internal medicine. 1995;123:795–9.

33. Hamdy H. AMEE Guide Supplements: Workplace-based assessment as an educational tool. Guide supplement 31.1–viewpoint. Medical teacher. 2009;31:59–60.

Progress Tests

Um den kumulativen Zuwachs an medizinischem Wissen zu bewerten, erfreuen sich Progress Tests international zunehmender Beliebtheit [34]. Sie wurden Ende der 1970er Jahre unabhängig voneinander an der University of Missouri-Kansas City School of Medicine [35] und an der Universität Maastricht in den Niederlanden [36, 37] eingeführt und werden heute weltweit in medizinischen Studiengängen eingesetzt. Ein von der Association for Medical Education in Europe (AMEE) herausgegebener Leitfaden beschreibt folgende Schlüsselelemente von Progress Tests [38]:

35. Arnold L, Willoughby TL. The quarterly profile examination. Academic Medicine: Journal of the Association of American Medical Colleges. 1990;65:515–6.

37. Schuwirth LW, Vleuten CP van der. The use of progress testing. Perspectives on medical education. 2012;1:24–30.

38. Wrigley W, Van Der Vleuten CP, Freeman A, Muijtjens A. A systemic framework for the progress test: strengths, constraints and issues: AMEE Guide No. 71. Medical teacher. 2012;34:683–97.

Durchführung bei allen Studierenden eines Studiengangs
Regelmäßige Testintervalle während des gesamten Studiums
Stichproben aus dem gesamten Wissensbereich, der von den Studierenden am Ende des Studiums erwartet wird, unabhängig vom Studienjahr.

In Deutschland wird den medizinischen Fakultäten ein von der Berliner Charité durchgeführter Progress Test (PTM – Progress Test Medizin) angeboten, an dem derzeit 17 medizinische Fakultäten aus Deutschland, Österreich und der Schweiz teilnehmen. Progress Tests enthalten eine umfassende Prüfung der gesamten Endziele des Studiengangs [36]. Er enthält ca. 200 Fragen zu medizinischem Wissen in einem Multiple-Choice-Format auf Examens-Niveau und wird von etwa 11.000 Studierenden zu Beginn jedes Semesters absolviert.

36. Vleuten CVD, Verwijnen G, Wijnen W. Fifteen years of experience with progress testing in a problem-based learning curriculum. Medical Teacher. 1996;18:103–9.

39. Osterberg K, Kölbel S, Brauns K. Der Progress Test Medizin: Erfahrungen an der Charité Berlin. GMS Z Med Ausbild. 2006;23:2006–23.

Der PTM ist ein formativer Test. Dies bedeutet, dass die teilnehmenden Studierenden nicht durchfallen können, sondern dieser Test auf eine Rückmeldung zu ihrem Wissen und ihren Wissenszuwachs während ihres Studiums abzielt. So liegt eine weitere Stärke des PTM darin, dass er eine Bewertung des aktuellen Wissensstands ermöglicht, ohne dass die Studierenden sich darauf vorbereiten [39]. Die Studierenden werden durch die Möglichkeit, anzugeben, dass sie die Antwort nicht wissen, davon abgehalten, blind zu raten. So bietet sich die Möglichkeit, abrufbares und dauerhaftes Wissen zu messen.

Progress Tests haben sich inzwischen als zuverlässiges Instrument [34] erwiesen und können daher zur Messung des Wissenszuwachses in der Medizin eingesetzt werden. Progress Tests können so auch auf einer individuellen Ebene dazu beitragen, die Stärken und Schwächen der Studierenden zu identifizieren und diesen eine entsprechende Rückmeldung geben. Zudem ermöglichen sie den Lehrenden, ihre Lehrstrategien besser auf die individuellen Bedürfnisse abzustimmen [40]. Der Erfolg von Progress Tests ist jedoch von einer durchdachten Umsetzung der Testverfahren und der Integration des Feedbacks in den Lernprozess abhängig [41].

34. Freeman A, Van Der Vleuten C, Nouns Z, Ricketts C. Progress testing internationally. Medical Teacher. 2010;32:451–5.

40. Van Der Vleuten CP, Schuwirth L, Driessen E, Govaerts M, Heeneman S. Twelve tips for programmatic assessment. Medical teacher. 2015;37:641–6.

41. Schauber SK, Hecht M, Nouns ZM, Kuhlmey A, Dettmer S. The role of environmental and individual characteristics in the development of student achievement: a comparison between a traditional and a problem-based-learning curriculum. Advances in health sciences education. 2015;20:1033–52.

42. Bianchi F, Stobbe K, Eva K. Comparing academic performance of medical students in distributed learning sites: the McMaster experience. Medical teacher. 2008;30:67–71.

44. Peeraer G, De Winter B, Muijtjens A, Remmen R, Bossaert L, Scherpbier A. Evaluating the effectiveness of curriculum change. Is there a difference between graduating student outcomes from two different curricula? Medical teacher. 2009;31:e64–8.

Da Progress Tests zum Vergleich von Curricula verwendet werden können [42–44], möchten die meisten Fakultäten mit Modell- oder Reformstudiengängen damit den Lernerfolg ihrer Studierenden im Vergleich zu traditionellen Studiengängen überwachen. Typische Beispiele sind ein PBL-basiertes Curriculum an der Charité in Berlin oder ein reformorientiertes Curriculum an der Ruhr-Universität Bochum, die beide einen parallelen traditionellen Track hatten. Daneben lässt sich mit Progress Tests auch für die gesamte Fakultät und fächerspezifisch der Wissenszuwachs bestimmen, was eine Steuerung und inhaltliche Weiterentwicklung der Lehre erlaubt. So nutzen auch alleinstehende Modellstudiengänge wie die in 2021 gegründete Medizinische Fakultät OWL diese Art der Supervision für die Curriculumentwicklung.

Entwicklung eines Progress Tests für praktische Fertigkeiten

An der Universität Bielefeld hat zum Wintersemester 2021/2022 die neue Medizinische Fakultät OWL ihren Lehrbetrieb aufgenommen und ist mit 60 Erstsemestern in das Medizinstudium gestartet. Dabei ist die Neugründung einer medizinischen Fakultät ein seltener Vorgang. So wurde die letzte bundesdeutsche medizinische Fakultät in den achtziger Jahren in Witten-Herdecke gegründet, allerdings in privater Trägerschaft. Nach 40 Jahren ohne Neugründung befinden sich nun die medizinischen Fakultäten in Augsburg und in Bielefeld in diesem Prozess, so dass Erfahrungen im Aufbau einer medizinischen Fakultät unter heutigen Bedingungen gering sind.

Der Anspruch an diesen Prozess wird insofern noch erhöht, dass die Medizinische Fakultät OWL ihre Studierenden in einem Modellstudiengang ausbildet. Dieser schafft die Möglichkeit, das Curriculum selbstbestimmter zu gestalten, da der erste Teil der sog. Ärztlichen Prüfung als fakultätseigene Prüfung (sog. Äquivalenzprüfung) abgehalten werden darf. Normale Studiengänge dagegen nehmen an einer bundeseinheitlichen Prüfung teil, was bedingt, dass die Unterrichtsinhalte für die Studierenden bis zu diesem Studienzeitpunkt festgelegt sind. So kann eine Fakultät mit Modellstudiengang theoretische und klinische Inhalte besser verzahnen und mit der geforderten Kompetenzorientierung in Einklang bringen.

Diese Kompetenzorientierung in der medizinischen Ausbildung wird auch im aktuellen Entwurf der ärztlichen Ausbildungsordnung (sog. ärztliche Approbationsordnung, ÄAppO) für 2025 weiterentwickelt. Durch den politischen Willen, die ÄAppO in naher Zukunft zu ändern [45], sind weitere Herausforderung für die neu gegründeten Fakultäten absehbar. Es ist unter anderem angekündigt, dass die Staatsexamina durch praktische Prüfungen an Stationen erweitert werden sollen [46]. “Der Zweite Abschnitt der Ärztlichen Prüfung besteht aus zehn Stationen in einer vorgegebenen Abfolge (Parcours). Eine Station kann eine oder mehrere klinisch-praktische Aufgaben umfassen. […] Bei den klinisch-praktischen Aufgaben werden Simulationspatienten oder Simulationspatientinnen, Simulatoren, Modelle oder Medien eingesetzt.” [§86 (2), (3) Arbeitsentwurf des Bundesministeriums für Gesundheit zur Approbationsordnung für Ärzte und Ärztinnen (ÄApprO)]. Dazu werden im Nationalen Kompetenzbasierten Lernzielkatalog Medizin (NKLM) drei zu erreichende Ebenen beschrieben, die bezüglich ihrer Komplexität zunehmen: Faktenwissen, Handlungs- und Begründungswissen und Handlungskompetenz. Multiple-Choice-Prüfungen sind diesbezüglich meistens zur Ebene Faktenwissen, OSCE’s meistens zur Ebene Handlungswissen zuzuordnen. Damit soll der medizinische Kompetenzerwerb weiter standardisiert werden.

45. Richter-Kuhlmann E. Neue Approbationsordnung 2025. Dtsch Arztebl. 2020;117.

46. Richter-Kuhlmann E. Ärztliche Approbationsordnung: Ärzteorganisationen sehen Nachbesserungsbedarf. 2021. https://www.aerzteblatt.de/nachrichten/sw/Approbationsordnung?s=&p=1&n=1&nid=120199. Zugegriffen 20. März 2022.

Trotz der Herausforderungen, die mit der Neugründung einer medizinischen Fakultät verbunden sind, ist die Verpflichtung, die Studierenden der Medizin auch zu einem erfolgreichen Abschluss des Staatsexamens zu führen, von absolut zentraler Bedeutung. Um die Medizinstudierenden adäquat auf die neu aufkommende Prüfungsform in den Staatsexamina vorzubereiten, bot es sich in für den neu zu gestaltenden Modellstudiengang an der Medizinischen Fakultät OWL in Bielefeld an, auch für praktische Fertigkeiten einen Progress Test zu entwickeln und zu implementieren.

Obwohl schon für die Staatsexamina angekündigt, sind praktische Prüfungen noch nicht vollständig in der medizinischen Ausbildung etabliert. Praktische Tests haben jedoch oft Probleme mit der Zuverlässigkeit der Prüfungsergebnisse, in dem Sinne, dass die sog. Reliabilität, also die Reproduzierbarkeit der Prüfungsergebnisse [47], häufig nicht in ausreichendem Maße gewährleistet ist. Prinzipiell zeigen praktische Prüfungen Probleme mit der Reliabilität, gerade wenn es nicht um prozedurale Fertigkeiten geht. Die entsprechende Höhe der Reliabilität ist für diese Form der Prüfung scheinbar schwer zu erreichen [48]. So konnte beispielsweise an der Medizinischen Fakultät Heidelberg im Rahmen einer durchgeführten OSCE- Prüfung die geforderte Mindestreliabilität von 0,8 trotz intensiver Bemühungen nur fast erreichen [49]. Dies ist auch eine Herausforderung für praktische Progress Tests. Während die Reliabilität von Multiple-Choice-Prüfungen also generell als sehr gut angesehen wird und auch entsprechend hohe Werte gefordert werden [50], wird die Reliabilität von praktischen Prüfungen kritisch beurteilt [51].

47. Downing SM. Reliability: on the reproducibility of assessment data. Medical education. 2004;38:1006–12.

48. Gordon M, Farnan J, Grafton-Clarke C, Ahmed R, Gurbutt D, McLachlan J, u. a. Non-technical skills assessments in undergraduate medical education: a focused BEME systematic review: BEME Guide No. 54. Medical teacher. 2019;41:732–45.

49. Nikendei C, Jünger J. OSCE-praktische Tipps zur Implementierung einer klinisch-praktischen Prüfung. GMS Z Med Ausbild. 2006;23:2006–23.

Fragestellung der Masterthese

In dem hier dargestellten Projekt wird ein praktischer Progress Test entwickelt, um Studierenden regelmäßig Feedback zum Erwerb ihrer praktischen Fertigkeiten zu geben und sie auf zukünftige praktische Prüfungen im Staatsexamen vorzubereiten. Gerade die Zuverlässigkeit der Messergebnisse ist für einen praktischen Progress Test aber entscheidend, um aus diesem einen Nutzen für Lehrende und Studierende zu ziehen. Diesem Problem soll mit einer Kombination von praktischen Stationen und Multiple-Choice-Fragen in dem neuen praktischen Progress Test begegnet werden. Die Studierenden sollen in den Stationen praktische Fertigkeiten anwenden, um Informationen zu Patienten(fällen) zu generieren oder einzuordnen. Anschließend werden zu den gewonnenen Informationen Multiple-Choice-Fragen zu den Konzepten Diagnose, Therapie, Data Literacy und Kommunikation gestellt.

Ziel der hier vorgelegten Masterarbeit ist die Untersuchung des neuen praktischen Progress Tests an der Medizinischen Fakultät OWL anhand von Testparametern der klassischen Testtheorie, um Aussagen über die Zuverlässigkeit der Messergebnisse des Tests zu gewinnen. Dafür wird im Rahmen einer Kohortenstudie der Lernfortschritt in den praktischen Fertigkeiten von Studierenden unterschiedlicher Fachsemester (FS) derselben Fakultät untersucht. Es sollen so Hinweise für die zukünftige Weiterentwicklung des praktischen Progress Tests gewonnen werden.

Methoden

Klassische Testtheorie

Im Folgenden soll ein kurzer Überblick über den testtheoretischen Hintergrund der in dieser Untersuchung verwendeten Analysen gegeben werden. Es wird die Klassische Testtheorie in Abgrenzung zur Item-Response-Theorie in Anlehnung an Krumm et al. [52] dargestellt, die für eine Vertiefung des Themengebiets empfohlen werden.

52. Krumm S, Schmidt-Atzert L, Amelang M. Grundlagen diagnostischer Verfahren. Psychologische Diagnostik. 2021;39–207.

53. Spearman C. " General Intelligence" Objectively Determined and Measured.(im Original von 1904). 1961.

54. Cronbach LJ. Coefficient alpha and the internal structure of tests. psychometrika. 1951;16:297–334.

55. Lord F, Novick M, Birnbaum A. Statistical theories of mental test scores. Addison-Wesley, Reading, MA; 1968.

Die klassische Testtheorie (KTT) wurde im frühen 20. Jahrhundert entwickelt, um die Zuverlässigkeit und Gültigkeit psychologischer Tests zu bewerten. Die Ursprünge der KTT gehen u. a.auf die Arbeiten von Spearman [53, im Original von 1904] zurück, der Modelle zum Verständnis der Natur von Intelligenz und Persönlichkeit vorschlug. Später wurde die KTT von mehreren Statistikern, wie Cronbach [54] und Lord & Novick [55], formalisiert. So bildet die KTT einen statistischen Rahmen für die Analyse und Interpretation psychometrischer Testergebnisse. Die zentrale Idee der KTT ist, dass jedes beobachtete Testergebnis aus zwei Komponenten besteht: einem wahren Ergebnis und einem Fehlerergebnis. Das wahre Ergebnis ist das hypothetische Ergebnis, das eine Person erzielt hätte, wenn kein Messfehler vorgelegen hätte. Der Fehlerwert hingegen ist die Differenz zwischen dem beobachteten Ergebnis und dem wahren Ergebnis. Die KTT definiert die Reliabilität als das Ausmaß, in dem ein Test frei von Zufallsfehlern ist, und bietet mehrere Methoden zur Schätzung der Reliabilität.

Die KTT ist seit vielen Jahren ein nützliches Instrument für psychologische Messungen, aber die jüngsten Entwicklungen haben zu neuen Rahmen und Modellen für die Bewertung der Zuverlässigkeit und Gültigkeit psychologischer Tests geführt. Ein solcher Rahmen ist die Item-Response-Theorie (IRT), die die Wahrscheinlichkeit, dass eine Person auf ein Item richtig antwortet, als eine Funktion des latenten Merkmals der Person und der Merkmale der Aufgaben modelliert. So vertreten die KTT und die IRT unterschiedliche Ansichten darüber, wie die Fähigkeit oder Leistung einer Person in einem Test gemessen und verstanden werden kann. Die KTT geht davon aus, dass die beobachtete Punktzahl von Teilnehmer*innen die Summe ihrer tatsächlichen Fähigkeiten und des zufälligen Fehlers ist. Der Fehler ist dementsprechend für alle gleich, unabhängig vom Fähigkeitsniveau. Die IRT geht davon aus, dass die Wahrscheinlichkeit einer Person, eine Aufgabe richtig zu beantworten, sowohl von ihren Fähigkeiten als auch von den Merkmalen der Aufgabe abhängt, z. B. von ihrer Schwierigkeit oder ihrem Unterscheidungsvermögen. Es wird nicht davon ausgegangen, dass die Fehler bei allen teilnehmenden Personen gleich sind.

Während sich die KTT also auf den Test als Ganzes konzentriert, geht sie davon aus, dass jede Aufgabe gleichermaßen zur Leistung einer Person beiträgt. Die IRT setzt den Fokus auf die einzelne Testaufgaben. Es wird untersucht, wie jede einzelne Aufgabe mit den Fähigkeiten einer Person zusammenhängt, wobei davon ausgegangen wird, dass einige Aufgaben informativer oder bedeutsamer sein können als andere. Dies hat auch Folgen für die weitere Entwicklung eines Tests. Bei der KTT konzentrieren sich Testentwickler in der Regel auf die Reliabilität und Validität des gesamten Tests, indem sie die durchschnittlichen Ergebnisse und die Variabilität zwischen den Testteilnehmern betrachten. So haben KTT-basierte Tests in der Regel einen festen Satz von Aufgaben für alle Teilnehmer*innen. Bei der IRT konzentrieren sich die Testentwickler dagegen auf die Eigenschaften der einzelnen Aufgaben, um Tests zu entwickeln, die anpassungsfähiger sind und ein breiteres Spektrum von Kompetenzen besser messen können. So können IRT-basierte Tests adaptiv sein, d. h. sie passen die Aufgaben auf der Grundlage früherer Antworten einer Person an.

Der auffälligste Unterschied für die an der Testdurchführung beteiligten Personen ist aber, dass die KTT Rohwerte oder einfache Transformationen (z. B. Perzentilen) verwendet, um die Leistung einer Person darzustellen. Diese sind für viele Anwender*innen gut verständlich und erlauben Diskussionen über die erzielten Ergebnisse. Die IRT verwendet ausgefeiltere Modelle, die im Allgemeinen relativ komplexe Schätzverfahren erfordern, um die Fähigkeiten einer Person einzuschätzen. Dies bedarf einer intensiven Schulung der an der Testdurchführung beteiligten Personen und ist im Alltag der klinisch tätigen Ärzt*innen nicht leicht umzusetzen. Deshalb findet sich für die durch die KTT generierten Testkennwerte eine deutlich höhere Akzeptanz und deshalb wird die KTT auch in der hier vorgelegten Studie verwendet.

Ziel der hier vorgelegten testtheoretischen Prüfungsauswertung ist eine klare und differenzierte Ergebnispräsentation, die eine sinnvolle Rückmeldung an die verantwortlichen Lehrenden ermöglicht. Diese sollen zur weiteren Verbesserung des praktischen Progress Tests im Sinne einer Revision befähigt werden.

Eine wesentliche Einschränkung der KTT besteht darin, dass sie keine numerischen Informationen über die Validität eines Tests oder anders ausgedrückt darüber liefert, inwieweit er das misst, was er messen soll. Hier liegt es an der Testentwicklung, dem durch sorgfältige Aufgabenauswahl Rechnung zu tragen. Insbesondere sollte durch eine hinreichend breite und repräsentative inhaltliche Abdeckung des Themengebiets eine Konstruktunterrepräsentation vermieden werden [56]. Des Weiteren ist eine Klarheit der Aufgabenstellung wichtig, um nicht zusätzliche Varianz zu erzeugen [57].

56. Downing SM. Validity: on the meaningful interpretation of assessment data. Medical education. 2003;37:830–7.

57. Downing SM. Threats to the validity of clinical teaching assessments: what about rater error? Medical education. 2005;39:353–5.

Vorbereitungen und Vorstudien

Zum Studienstart 2021 an der Medizinischen Fakultät OWL wurde somit ein praktischer Progress Test entwickelt. Die teilnehmenden Studierenden sollten an 12 Stationen jeweils praktische Fertigkeiten anwenden, um Informationen zu Diagnose und Therapie der Patienten(fälle) zu generieren oder einzuordnen. Pro Station hatten die Studierenden drei Minuten Zeit, um die an sie gestellte Aufgabe zu bewältigen. Da man sich bei so vielen Stationen nicht alles merken konnte, bekamen die Studierenden für evtl. Notizen ein Klemmbrett mit Notizzettel und Stift mitgegeben. Mit den pro Station generierten Informationen mussten die Studierenden nach Durchlauf des Parcours jeweils 5 Multiple-Choice-Fragen pro Station (insgesamt 60 MC-Fragen) beantworten (schematischer Ablauf siehe Abbildung 1).

Abbildung 1: Schematischer Ablauf praktischer Progress Test, Medizinische Fakultät OWL

Die MC-Fragen hatten jeweils ca. 5 Antwort-Optionen. Obwohl neuere Ergebnisse der Lehrforschung zu einer Reduktion der Antwort-Optionen auf bis zu drei Optionen raten [58], wurde diese Anzahl beibehalten, da sie in medizinischen Staatsexamina üblich ist.

58. Rodriguez MC. Three options are optimal for multiple-choice items: A meta-analysis of 80 years of research. Educational measurement: issues and practice. 2005;24:3–13.

Für das Bestehen der Staatsexamina im Medizinstudium müssen 60 % der MC-Fragen richtig beantwortet werden. So wurden auch für den praktischen Progress Test richtige Antworten in den MC-Fragen zu einem Score addiert und den entsprechenden Prozentwert umgerechnet. Als Antwortmöglichkeit wird zusätzlich eine “weiß nicht”-Option angeboten. Die Studierenden können durch den Parcours mit den Testfragen nicht durchfallen, es handelt sich um ein sog. formatives Assessment.

Formal ermöglicht das konzeptionierte Verfahren eine hinreichende Objektivität zur Messung von praktischen Fertigkeiten im Medizinstudium. Der nächste Schritt bestand im Nachweis einer entsprechenden Reliabilität der Messungen. In einem ersten Schritt galt es also nachzuweisen, dass im Studium weiter fortgeschrittene Studierende auch wirklich besser in dem Test abschneiden. Dafür wurden für den ersten Durchgang als Vergleichs-Kohorte Studierende im 5. Fachsemester an der Medizinischen Fakultät Münster gebeten, ebenfalls diese erste Version des praktischen Progress Tests durchzuführen. Es wurden für die Implementierung auch “Kontroll-Stationen” in den Test integriert, bei denen die Studierendenkohorten keine signifikanten Unterschiede zeigen sollten. Die Ethikkommission der Ärztekammer Westfalen-Lippe hatte dieser Studie ein positives Votum gegeben (Aktenzeichen: 2021-740-f-S, siehe Anhang) und die entsprechende Erhebung hat im Dezember 2021 stattgefunden.

Nach Analyse der Ergebnisse und deren Vorstellung auf einem Fachkongress (Jahrestagung der Gesellschaft für medizinische Ausbildung im September 2022, Abstract im Anhang) wurde ein sehr positives Stimmungsbild bezüglich der Machbarkeit und Relevanz der praktischen Progress Tests für die zukünftige Entwicklung der ärztlichen Ausbildung in Deutschland zurückgemeldet. Für die Analyse wurde aber bemängelt, dass die Erhebung an zwei Kohorten mit unterschiedlichem Selektions- und Ausbildungsprofieln vorgenommen wurde. Dies würde die Gültigkeit und Interpretierbarkeit der Ergebnisse schmälern.

Studiendesign

Mit Wintersemester 2022/2023 wurde dann an der Medizinischen Fakultät OWL eine zweite Kohorte von Medizinstudierenden immatrikuliert, so dass der Progress Test mit Studierenden aus dem 1. und 3. Fachsemester durchgeführt werden konnte. So wurde die Studie als Beobachtungsstudie mit zwei Kohorten konzipiert. Der einzige Unterschied zwischen den beiden beobachteten Gruppen bestand im Studienfortschritt der Teilnehmer.

Dies entspricht formal einer vollständigen Implementierung des praktischen Progress Tests, da erstmalig mit demselben praktischen Progress Test Studierende aus verschiedenen Fachsemestern an derselben Fakultät getestet werden konnten. Die Anzahl der Studierenden und die Variabilität des Studienfortschritts sind aber aufgrund der Aufbausituation noch minimal.

Für die Teilnehmer wurde der praktische Progress Test anhand der der Erfahrung der Vorsemester weiterentwickelt, so dass diese 15 Prüfstationen bewältigen müssen. Inhaltlich wurden die Konzepte Diagnose, Therapie, Data Literacy und Kommunikation in die Stationen integriert:

Konzepte Diagnose und Therapie

Die Rolle von Diagnose und Therapie in der medizinischen Ausbildung ist von entscheidender Bedeutung, da diese beiden Kernkompetenzen die Grundlage für eine wirksame Patientenversorgung bilden und von den Angehörigen der Gesundheitsberufe beherrscht werden müssen. Die Diagnose umfasst den Prozess des Sammelns, Interpretierens und Zusammenfassens klinischer Informationen, um den Zustand eines Patienten festzustellen, während die Therapie die Auswahl und Durchführung geeigneter Behandlungspläne zur Behandlung oder Heilung des festgestellten Zustands umfasst. Sowohl für die Diagnose als auch für die Therapie müssen Medizinstudierende eine solide Grundlage in den Grundlagenwissenschaften, klinische Fertigkeiten und kritisches Denken entwickeln sowie Fähigkeiten in den Bereichen Kommunikation, Zusammenarbeit und ethische Entscheidungsfindung erwerben [59]. Um den Erwerb dieser Kompetenzen zu erleichtern, werden in der medizinischen Ausbildung verschiedene Lehrmethoden wie fallbasiertes Lernen, problemorientiertes Lernen und simulationsbasiertes Training eingesetzt, die es den Studierenden ermöglichen, aktiv zu lernen und ihr Wissen in authentischen klinischen Szenarien anzuwenden [60, 61]. Zusammenfassend lässt sich sagen, dass die Vermittlung und Bewertung diagnostischer und therapeutischer Kompetenzen in der medizinischen Ausbildung von entscheidender Bedeutung für die Ausbildung gut ausgebildeter Gesundheitsfachkräfte ist, die in der Lage sind, die Komplexität der klinischen Praxis effektiv zu bewältigen und eine qualitativ hochwertige, patientenorientierte Versorgung zu leisten.

59. Epstein RM. Assessment in medical education. New England journal of medicine. 2007;356:387–96.

60. Dolmans DH, De Grave W, Wolfhagen IH, Van Der Vleuten CP. Problem-based learning: Future challenges for educational practice and research. Medical education. 2005;39:732–41.

61. Barry Issenberg S, Mcgaghie WC, Petrusa ER, Lee Gordon D, Scalese RJ. Features and uses of high-fidelity medical simulations that lead to effective learning: a BEME systematic review. Medical teacher. 2005;27:10–28.

Konzept Data Literacy

Die Rolle der Datenkompetenz in der medizinischen Ausbildung hat zunehmend an Bedeutung gewonnen, da die Angehörigen der Gesundheitsberufe mit einer wachsenden Menge komplexer medizinischer Daten konfrontiert sind und der Schwerpunkt auf evidenzbasierter Medizin liegt. Data Literacy bezieht sich auf die Fähigkeit, Daten zu verstehen, zu interpretieren und kritisch zu bewerten, um Entscheidungen zu treffen und die klinische Praxis zu verbessern [62]. Dazu gehören Kompetenzen wie statistisches Denken, das Verständnis von Studiendesigns und die kritische Beurteilung von Forschungsliteratur [63]. Die Aufnahme von Data Literacy in die Lehrpläne der medizinischen Ausbildung stellt sicher, dass künftige Fachkräfte des Gesundheitswesens in der Lage sind, sich in der riesigen Menge an verfügbaren medizinischen Informationen zurechtzufinden, die Qualität und Relevanz von Forschungsergebnissen zu erkennen und diese Erkenntnisse zur Verbesserung der Patientenversorgung anzuwenden [64]. Darüber hinaus fördert die Data Literacy eine Kultur des kontinuierlichen Lernens und Forschens, die für die Aufrechterhaltung der beruflichen Kompetenz in einer sich rasch entwickelnden medizinischen Landschaft unerlässlich ist. Zusammenfassend lässt sich sagen, dass Data Literacy eine zentrale Rolle in der medizinischen Ausbildung spielt, da sie Fachkräfte des Gesundheitswesens in die Lage versetzt, fundierte Entscheidungen zu treffen und eine evidenzbasierte Krankenversorgung zu leisten, was letztlich die Ergebnisse für die Patienten verbessert.

62. Hoffmann I, Behrends M, CONSORTIUM H, Marschollek M. Data Literacy in Medical Education–An Expedition into the World of Medical Data. Advances in Informatics, Management and Technology in Healthcare. 2022;295:257.

63. Norman GR, Eva KW. Diagnostic error and clinical reasoning. Medical education. 2010;44:94–100.

64. Ioannidis JP, Greenland S, Hlatky MA, Khoury MJ, Macleod MR, Moher D, u. a. Increasing value and reducing waste in research design, conduct, and analysis. The Lancet. 2014;383:166–75.

Konzept Kommunikation

Kommunikation spielt in der medizinischen Ausbildung eine wichtige Rolle, da effektive Kommunikationsfähigkeiten ein wesentlicher Faktor für den Aufbau enger Beziehungen zu Patienten, die Steigerung der Patientenzufriedenheit und die Gewährleistung optimaler Ergebnisse der Gesundheitsversorgung sind. Gute Kommunikation beinhaltet nicht nur die Fähigkeit, Informationen klar und einfühlsam zu vermitteln, sondern auch die Fähigkeit, aktiv zuzuhören, sich auf unterschiedliche Patientenbedürfnisse einzustellen und mit Kollegen aus verschiedenen Bereichen des Gesundheitswesens zusammenzuarbeiten [65–67]. Da die Bedeutung der Kommunikation erkannt wurde, wird in der medizinischen Ausbildung zunehmend Wert auf die Entwicklung dieser Fähigkeiten gelegt, und zwar durch verschiedene pädagogische Ansätze wie standardisierte Patientengespräche, Rollenspiele und Workshops zum Training von Kommunikationsfähigkeiten [68, 69]. Darüber hinaus werden Kommunikationsfähigkeiten häufig durch Methoden wie OSCEs bewertet, die die Fähigkeit von Medizinstudierenden beurteilen, in einer Vielzahl klinischer Kontexte effektiv mit Patienten und Familien zu interagieren [12]. Letztendlich trägt die Aufrechterhaltung und Verbesserung der Kommunikationsfähigkeiten in der medizinischen Ausbildung zur Entwicklung gut ausgebildeter Gesundheitsfachkräfte bei, die besser in der Lage sind, mit der Komplexität der Patientenversorgung umzugehen und einen kooperativen, patientenzentrierten Ansatz in der Gesundheitsversorgung zu fördern.

65. Makoul G. Essential elements of communication in medical encounters: the Kalamazoo consensus statement. Academic medicine. 2001;76:390–3.

67. Bachmann C, Kiessling C, Härtl A, Haak R. Communication in health professions: a European consensus on inter-and multi-professional learning objectives in German. GMS journal for medical education. 2016;33.

68. Kurtz S, Silverman J, Benson J, Draper J. Marrying content and process in clinical method teaching: enhancing the Calgary–Cambridge guides. Academic Medicine. 2003;78:802–9.

69. Nestel D, Tierney T. Role-play for medical students learning about communication: guidelines for maximising benefits. BMC medical education. 2007;7:1–9.

12. Harden RM, Gleeson F. Assessment of clinical competence using an objective structured clinical examination (OSCE). Medical education. 1979;13:39–54.

70. Humphris G, Kaney S. Assessing the development of communication skills in undergraduate medical students. Medical education. 2001;35:225–31.

71. Simpson M, Buckman R, Stewart M, Maguire P, Lipkin M, Novack D, u. a. Doctor-patient communication: the Toronto consensus statement. BMJ: British Medical Journal. 1991;303:1385.

15. Norcini JJ. Current perspectives in assessment: the assessment of performance at work. Medical education. 2005;39:880–9.

72. Bokken L, Linssen T, Scherpbier A, Van Der Vleuten C, Rethans J-J. Feedback by simulated patients in undergraduate medical education: a systematic review of the literature. Medical education. 2009;43:202–10.

Die Bewertung von Kommunikation in der medizinischen Ausbildung stellt eine Reihe von Herausforderungen dar, da die Bewertung dieser komplexen und nuancierten Fähigkeiten sowohl subjektiv als auch schwer zu quantifizieren sein kann. Ein Hauptproblem ist die Variabilität der Bewertungsmethoden und das Fehlen standardisierter Kriterien für die Bewertung von Kommunikationsfähigkeiten [70]. Diese Inkonsistenz kann zu Ungleichheiten im Bewertungsprozess und zu Schwierigkeiten beim Vergleich von Leistungen zwischen verschiedenen Institutionen oder Kontexten führen [71]. Darüber hinaus konzentrieren sich die meisten Assessmentinstrumente, wie die schon oben beschriebenen OSCEs, hauptsächlich auf einzelne Aspekte der Kommunikation, die möglicherweise die Feinheiten authentischer Patienteninteraktionen nicht vollständig erfassen oder den Einfluss von Kontextfaktoren nicht berücksichtigen [15]. Darüber hinaus kann die Verwendung standardisierter Patienten, obwohl sie für die Simulation realer Begegnungen wertvoll ist, aufgrund subjektiver Wahrnehmungen und Erwartungen an die Patientenrolle zu potenziellen Verzerrungen im Beurteilungsprozess führen [72]. Zusammenfassend lässt sich sagen, dass die Bewältigung der Herausforderungen bei der Bewertung von Kommunikationsfähigkeiten in der medizinischen Ausbildung von entscheidender Bedeutung ist, um eine genaue Bewertung dieser Schlüsselkompetenzen zu gewährleisten.

Für den Progress Test im WS 2022/2023 wurden 15 Stationen gebildet, die in Tabelle 1 aufgeführt sind. Mit den aus den Stationen generierten Informationen mussten die Studierenden anschließend insgesamt 50 Multiple-Choice-Fragen beantworten.

Tabelle 1: Thematische Verteilung der Stationen im praktischen Progress Test WS 2022/2023
Stations-Nr.	Thema der Station	Anzahl an MC-Fragen	Integrierte Konzepte
1	Lumbalgie bei Bandscheibenprolaps L5	5	Diagnose, Therapie
2	Opiat-Überdosierung	5	Diagnose, Therapie
3	Otitis media	5	Diagnose, Therapie
4	Kahnbeinfraktur	5	Diagnose, Therapie
5	Gesprächsvideo I	1	Kommunikation
6	Pharma-Werbung – Therapeutische Wirksamkeit	5	Data Literacy
7	Gesprächsvideo II	1	Kommunikation
8	Mikroskopie-Bild Brustkrebs	5	Diagnose, Therapie
9	Gesprächsvideo III	1	Kommunikation
10	HIV-Selbsttest	5	Data Literacy
11	Gesprächsvideo IV	1	Kommunikation
12	Schäumender Urin	4	Diagnose, Therapie
13	Gesprächsvideo V	1	Kommunikation
14	Information aus Medien - Blah-Zeitung	5	Data Literacy
15	Gesprächsvideo VI	1	Kommunikation

Teilnehmer

Teilnehmer dieser Studie waren Studierende des 1. und 3. Fachsemesters der Medizinischen Fakultät OWL. In jedem Semester gibt es 60 Studienplätze, die vollständig besetzt sind. Somit ist die Stichprobengröße für diese Erhebung auf die potenziell 120 Studierenden begrenzt.

Die Veranstaltung “praktischer Progress Test” war für alle Studierende als curriculare Lehreinheit mit einem festen Termin im Lehrplan geplant und für alle Studierenden in der ersten Semesterwoche terminiert. Für den Einschluss in der Studie konnten nur die Studierenden gewertet werden, die auch tatsächlich an der Erhebung am 13. oder 14. Oktober 2022 teilgenommen haben. Studierende, die sich kurzfristig abgemeldet hatten oder nicht erschienen sind, wurden demzufolge nicht einbezogen.

Datenerhebung

Erhobene Parameter für die Studie waren Angaben der Studierenden zu Alter und Geschlecht, sowie ihre durch den Erhebungszeitpunkt festzustellende Zugehörigkeit zum 1. oder 3. Fachsemester.

Die Studierenden wurden vor der Erhebung zu ihrem Einverständnis zur Studienteilnahme gefragt. Mit Angabe ihres Alters und Geschlechts erklärten sich die Studierenden mit der pseudonymisierten Datenerhebung und -auswertung einverstanden. Eine Nicht-Teilnahme hatte keine negativen Konsequenzen.

Es wurden nur vollständig ausgefüllte Multiple-Choice-Fragebögen in die Wertung einbezogen. Die richtige beantworteten Fragen der Studierenden wurden mit einem Punkt bewertet und zu einem Gesamtscore addiert. Falsch oder mit der “weiß nicht”-Option beantwortete Fragen wurden mit 0 Punkten gewertet.

Ergebnismessgröße und statistische Methoden

Für die quantitative Analyse des praktischen Progress Tests orientiert sich die hier vorgelegte Studie am in der Medizindidaktik etablierten Vorgehen von Möltner et al [50]. Die Autor*innen schlagen analytische Schritte vor, die sowohl von den Frageerstellern (klinisch tätige Ärzt*innen) gut verstanden werden, als auch für andere Formen als Multiple-Choice-Tests (z. B. OSCE-Prüfungen) anwendbar sind. Demzufolge wird das Vorgehen wie folgt strukturiert, um die Prüfung zu auszuwerten:

Ergebnisübersicht

Das Gesamtergebnis wird sowohl tabellarisch als auch grafisch in verschiedenen Varianten dargestellt. Dies erlaubt erste Hinweise auf das Vorhandensein von Ausreißern im Datensatz (z.B. bei Abbruch der Prüfung), die bei den späteren Analysen (von Trennschärfen und der Reliabilität, siehe unten) zu verzerrten Ergebnissen führen könnten.

Die endgültige Identifikation der Ausreißer erfolgt mittels objektiver statistischer Methoden, hier der Feststellung, ob eine Abweichung von mehr als der dreifachen Standardabweichung vom Mittelwert vorliegt.

Anschließend werden die Ergebnisse der Konzept-Subskalen ebenfalls grafisch und tabellarisch dargestellt.

Analyse der Aufgaben

Häufigkeiten der gewählten Antwort-Optionen

Die Bestimmung der Häufigkeiten der gewählten Antwort-Optionen dient der Beurteilung der Antwortalternativen. Falls diese sogar häufiger als die richtige Antwort gewählt werden, kann dies ein Hinweis auf Fehler in der richtigen Antwort oder eine ungenügende inhaltliche Abgrenzung zur richtigen Antwort sein. Auch selten oder nie gewählte Antwort-Optionen sollten bezüglich ihrer Sinnhaftigkeit überprüft werden.

Hier ist zu beachten, dass die “weiß nicht”-Option von den Studierenden aufgrund ihres Ausbildungsstandes naturgemäß häufig gewählt werden wird und nicht gemäß der oben genannten Kriterien in die Bewertung einbezogen wird. Diese Option kann zudem die Anteile der andern Antwortoptionen verschieben, was in einer Analyse ebenfalls zu beachten ist.

Aufgabenschwierigkeiten

In der darauffolgenden teststatistischen Analyse der (Einzel-)Aufgaben wird die Schwierigkeit berechnet. Die Schwellenwerte des Schwierigkeitsindex in Multiple-Choice-Tests spielen eine entscheidende Rolle bei der Bewertung der Qualität von Prüfungsaufgaben, da sie ein Maß dafür sind, wie leicht oder schwer eine Aufgabe für die Prüfungsteilnehmer ist. Der Schwierigkeitsindex, der häufig als Anteil oder Prozentsatz ausgedrückt wird, wird als Verhältnis der Anzahl der Prüfungsteilnehmer, die eine Aufgabe richtig beantwortet haben, zur Gesamtzahl der Prüfungsteilnehmer berechnet. Aufgaben mit einem Schwierigkeitsindex zwischen 0,2 und 0,8 werden häufig als optimal angesehen [73]. Hierbei ist zu beachten, dass für die Prüfungsgruppe gut lösbare Aufgaben eine hohe Aufgaben-Schwierigkeit, schwierig zu lösende Aufgaben dagegen eine geringe Aufgaben-Schwierigkeit aufweisen. Bei der Festlegung geeigneter Schwellenwerte für den Schwierigkeitsindex ist es allerdings wichtig, den spezifischen Kontext und Zweck des Assessments zu berücksichtigen.

Für eine gute Differenzierung in medizinischen Prüfungen werden so häufig Werte zwischen 0,4 und 0,8 empfohlen [50]. Konkret bedeutet dies, dass eine Aufgabe im Mittel zu 60 % gelöst werden sollte. Für Multiple-Choice-Fragen mit Einfachauswahl (wie auch im hier dargestellten Fall) bedeutet dies auch, dass im Durchschnitt 60 % der Studierenden diese Multiple-Choice-Frage richtig beantwortet haben sollten. Dies entspricht auch der typischen Bestehensgrenze in den medizinischen Staatsexamina. Somit ist zu bedenken, dass Teilnehmer an einem Progress-Test noch auf dieses Niveau hinarbeiten und damit die erreichte Schwierigkeit in dieser Studie niedriger ausfallen sollte. Die Aufgaben-Schwierigkeiten werden ebenfalls tabellarisch dargestellt.

Trennschärfe-Indizes

Um die Unterscheidungsfähigkeit einer Aufgabe zwischen guten und schlechten Prüfungsteilnehmern darzustellen, wird die Trennschärfe bestimmt. Die Trennschärfe in Multiple-Choice-Tests bezieht sich auf die Fähigkeit der Testaufgaben, zwischen leistungsstarken und leistungsschwachen Studierenden zu unterscheiden. Die Trennschärfe kann mit verschiedenen statistischen Indizes gemessen werden.

Hier wird die Trennschärfe über den Diskriminationsindex D, den punktbiserialen Korrelationskoeffizient r nach Pearson-Bravais und in seiner modifizierten Form (r’) dargestellt.

Diskriminationsindex D

Der Diskriminationsindex D stellt die Differenz der mittleren Schwierigkeit von Studierenden mit guter Gesamtprüfungsleistung und der von Studierenden mit schlechter Gesamtprüfungsleistung dar. Dafür werden die Prüfungsteilnehmer in eine gute, mittlere und schlechte Gruppe unterteilt. Die Unterteilung kann unterschiedlich vorgenommen werden, üblich (und auch hier verwendet) ist die Einteilung nach Kelley [74], in der die 27 % Teilnehmer mit den niedrigsten Punktzahlen für die schlechte Gruppe und analog die 27 % Teilnehmer mit den höchsten Punktzahlen für die gute Gruppe genommen werden. Ein höherer Diskriminationsindex zeigt an, dass die Aufgabe effektiver zwischen Schülern mit guten und solchen mit schlechten Leistungen im Test unterscheidet.
Es gibt verschiedene Richtlinien für die Interpretation von Diskriminationsindizes, häufig werden aber Aufgaben mit einem Diskriminationsindex von 0,2 oder höher als exzellent, solche zwischen 0,1 und 0,19 als gut und solche unter 0,1 als durchschnittlich eingestuft, während welche mit Werten um 0 oder schlechter möglicherweise überarbeitet oder entfernt werden sollten [73].

74. Kelley TL. The selection of upper and lower groups for the validation of test items. Journal of educational psychology. 1939;30:17.

Punktbiserialer Korrelationskoeffizient r

Berechnet wird der punktbiseriale Korrelationskoeffizient r (oder Pearson-Moment-Korrelation), bei dem die Antworten auf jede Aufgabe mit der Gesamtleistung des Tests korreliert werden. Dieser Korrelationskoeffizient kann noch durch unten stehende Modifikation für den hier benötigten Zweck optimiert werden.

Modifizierter punktbiserialer Korrelationskoeffizient r’

Berechnet wird der modifizierte punktbiseriale Korrelationskoeffizient r’ für jede Aufgabe, wobei die Antworten auf die Aufgaben mit der Gesamttestleistung korreliert werden, ohne die jeweilige Aufgabe in der Gesamtleistung des Tests zu berücksichtigen.

Insgesamt kann die Trennschärfe von Multiple-Choice-Tests in Abhängigkeit vom Kontext, der Qualität der Testaufgaben und den Fähigkeiten der Studierenden variieren. Daher ist es wichtig, die Trennschärfe von Multiple-Choice-Aufgaben bei der Erstellung oder Auswahl von Testaufgaben für die Verwendung in Prüfungen sorgfältig zu bewerten. Generell gelten dabei Trennschärfen r’ als gut, wenn sie über 0,3 liegen. Trennschärfen zwischen 0,2 und 0,3 gelten als noch akzeptabel, darunter als marginal bis schlecht [50].

Ableitung von Empfehlungen zu den Aufgaben

Durch grafische Darstellung der Aufgaben bzgl. ihres Schwierigkeitsindex gegen die Trennschärfe lassen sich allgemeine Empfehlungen zu zukünftigen Aufgabenstellungen ableiten.

Konkret sollen in diesem Schritt einzelne Aufgaben mit schlechten Kennwerten identifiziert werden. Durch Elimination dieser schlechten Aufgaben für zukünftige Durchführungen des praktischen Progress Tests lassen sich langfristig Verbeserungen in der Gesamtreliabilität des Tests erzielen.

Anschließend werden die Einzelantworten ausgewertet, indem sie ebenfalls bezüglich ihrer Häufigkeit und Trennschärfe analysiert werden. Hier sollten die falschen Antwortmöglichkeiten eine negative Trennschärfe aufweisen und es gilt vor allem, Aufgaben zu identifizieren, in denen eine falsche Antwort von den Studierenden häufiger als die richtige Alternative gewählt worden ist (durch unklare Abgrenzung voneinander oder sogar einer fehlerhafte “Richtig”-Antwort).

Bestimmung von Cronbachs “\(\alpha\) if deleted”

Das dazu kalkulierte “\(\alpha\) if deleted” entspricht der Reliabilität ohne die zu untersuchende Aufgabe und identifiziert so evtl. Aufgaben, die die Reliabilität der Gesamtprüfung mindern können. Diese Aufgaben können dann zur Erhöhung der Zuverlässigkeit der Gesamtprüfung herausgenommen werden.

Reliabilität der Gesamtprüfung

Abschließend wird die Reliabilität der gesamten Prüfung bestimmt. Hier geht es um die Zuverlässigkeit bzw. um die Reproduzierbarkeit der Prüfungsergebnisse [75]. Diese kann mittels des Cronbachs-\(\alpha\)-Koeffizienten ermittelt werden, der einen Mindestwert für die Reliabilität der berechneten Prüfung darstellt. (Das cronbachsche \(\alpha\) (Alpha) ist eine nach Lee Cronbach benannte Maßzahl für die interne Konsistenz einer Skala. Im folgenden Text wird hierfür die etablierte Schreibweise und Bezeichnung “Cronbachs \(\alpha\)” verwendet, obwohl es andere Schreibweisen und Bezeichnungen gibt [76].)

75. Downing SM. Reliability: on the reproducibility of assessment data. Medical Education. 2004;38:1006–12.

76. Cho E. Making reliability reliable: A systematic approach to reliability coefficients. Organizational Research Methods. 2016;19:651–82.

Cronbachs \(\alpha\)-Schwellenwerte in Multiple-Choice-Tests sind wichtig für die Beurteilung der Zuverlässigkeit der internen Konsistenz dieser Bewertungen, da sie ein Maß dafür sind, inwieweit die Testaufgaben miteinander verbunden sind und ein einziges zugrunde liegendes Konstrukt erfassen. Cronbachs \(\alpha\), liegt zwischen 0 und 1, wobei höhere Werte auf eine höhere interne Konsistenz hinweisen [77]. Obwohl es keinen allgemein anerkannten Schwellenwert für akzeptable Werte von Cronbachs \(\alpha\) gibt, gibt es verschiedene Vorschläge für die Interpretation dieser Werte im Kontext von Bildungsevaluationen.

So schlagen Jorion et al. vor, dass ein Cronbachs \(\alpha\) von 0,9 oder höher eine ausgezeichnete Reliabilität anzeigt, Werte zwischen 0,8 und 0,89 als gut, Werte zwischen 0,7 und 0,79 als akzeptabel angesehen werden können [73]. Tavalkol et al. schlagen eine ähnliche Interpretation vor [77], während Möltner et al. auf eine in der Literatur zu findende Mindestreliabilität von 0,8 hinweisen [50]. Somit können Werte unter 0,7 als fragwürdig interpretiert werden, insbesondere bei Tests mit hohen Anforderungen.

Man kann zudem noch die notwendige Zahl von Prüfungsfragen zum Erreichen der oben erwähnten Mindestreliabilitäten berechnen. Dies würde bei der hier vorgelegten Studie im Falle eines Nichterreichens einer Reliabilität von 0,8 durchgeführt.

Ergebnisse

Rekrutierungsprozess und demografische Merkmale der Teilnehmer*innen

Für die Studie konnten insgesamt 115 der 118 für die Semester immatrikulierten Studierende einbezogen werden, die an dem praktischen Progress Test teilgenommen haben. Davon waren 60 Studierende aus dem ersten, 55 Studierende aus dem dritten Fachsemester. Fünf Studierende haben keine Angaben zu ihrem Alter, ein/e Studierende/r zusätlich keine Angabe zum Geschlecht gemacht und damit keine Teilnahmebereitschaft für die Studie erklärt. Die entsprechenden Datensätze wurden für die weitere Analyse ausgeschlossen. Der Rekrutierungsprozess der Studienteilnehmer*innen ist in Abbildung 2 dargestellt.

Abbildung 2: CONSORT-Diagramm des Rekrutierungsprozesses der Studienteilnehmer*innen

Wie aus Tabelle 2 hervorgeht, weisen die beiden untersuchten Studienpopulationen aus dem 1. und 3. Fachsemester keine signifikanten Unterschiede bezüglich ihrer Geschlechtsverteilung auf. Dass die Studierenden aus dem 3. Fachsemester signifikant älter sind, ist erwartbar. Dafür ist das Alter im Median wiederum gleich (20,0 Jahre).

Tabelle 2: Merkmale der Studienteilnehmer*innen
Variable	N	Gesamt, N = 115¹	Semesterzuordnung		p-Wert²
Variable	N	Gesamt, N = 115¹	1, N = 60¹	3, N = 55¹	p-Wert²
Alter	110	20.00 (19.00, 22.00)	20.00 (19.00, 22.00)	20.00 (20.00, 24.75)	0.005
Unbekannt		5	4	1
Geschlecht	114				0.65
männlich		35 (31%)	17 (29%)	18 (33%)
weiblich		79 (69%)	42 (71%)	37 (67%)
Unbekannt		1	1	0
¹ Median (IQR) oder Häufigkeit (in %)
² Wilcoxon-Mann-Whitney-Test; Chi-Quadrat-Test auf Unabhängigkeit

Übersicht der erzielten Gesamtergebnisse

Nach der Auswertung aller Datensätze kristallisierten sich folgende Gesamtergebnisse heraus:

Abbildung 3: Ergebnisse Implementierung praktischer Progress Test im Studium Humanmedizin Wintersemester 2022/2023

Der durchschnittlich erreichte Gesamtscore der Studierenden aus dem ersten Semester lag bei 29,9 ± 9,2 %, der der Studierenden aus dem dritten Semester bei 47,8 ± 9,9 %. In der durchgeführten Analyse der Daten mit einem Welch Two Sample t-test konnte ein signifikanter und großer Unterschied (nach Cohen [78]) zwischen den Studierenden beider Semester festgestellt werden (Differenz = 0,18, 95-%-Konfidenzintervall [0,14; 0,22], t(106,77) = 9,80, p < 0,001; Cohen’s d = 1,90, 95-%-Konfidenzintervall [1,44; 2,35]), siehe Abbildung 3.

Histogramm der Punktwerte

Das Histogramm der Punktwerte findet sich in Abbildung 4.

Abbildung 4: Histogramm der richtigen Antworten von Studierenden im Wintersemester 2022/2023

Identifikation von Ausreißern

Der durchschnittlich erreichte Gesamtscore der Studierenden aus dem ersten Semester lag bei 29,9 ± 9,2 % (Range 8 bis 52 %), der der Studierenden aus dem dritten Semester bei 47,8 ± 9,9 % (Range 32 bis 72 %). Damit lagen alle Scores innerhalb der jeweiligen dreifachen Standardabweichung und somit waren keine Ausreißer auszuschließen.

Übersicht der erzielten Gesamtergebnisse

Die folgende Tabelle 3 zeigt die Übersicht der erzielten Testkennwerte für das Gesamtergebnis des praktischen Progress Tests.

Tabelle 3: Übersicht der erzielten Testkennwerte für das Gesamtergebnis
Variable	Wert
Durchschnittlicher Gesamtscore	0,39
Cronbachs Alpha	0,83
Durchschnittlicher Schwierigkeitsindex	0,39
Durchschnittlicher Diskriminationsindex	0,30
Durchschnittlicher punktbiserialer Korrelationskoeffizient	0,31
Durchschnittlicher modifizierter punktbiserialer Korrelationskoeffizient	0,26

Die Bestimmung der notwendigen Zahl von Prüfungsfragen für die Mindestreliabilität von 0,8 ist somit aufgrund der erzielten Ergebnisse nicht notwendig.

Ergebnisse der Konzept-Subskalen

Im Vergleich der Subskalen der oben beschriebenen Konzepte mit dem (nicht parametrischen) Mann-Whitney-U-Test konnte ebenfalls jeweils ein signifikanter und großer Unterschied (nach Cohen 1988) zwischen den Studierenden beider Semester festgestellt werden (p jeweils ≤ 0,001, n = 110), siehe auch Abbildung 5.

Die folgende Tabelle 4 zeigt den Schwierigkeitsindex, die Trennschärfe-Indizes und die Reliabilität der in den Subskalen abgebildeten Konzepte.

Tabelle 4: Kennwerte der Subskalen für die Konzepte im praktischen Progress Test
Konzept	Cronbachs Alpha der Subgruppe	Durchschnittlicher Schwierigkeitsindex	Durchschnittlicher Diskriminationsindex	Durchschnittlicher punktbiserialer Korrelationskoeffizient	Durchschnittlicher modifizierter punktbiserialer Korrelationskoeffizient
Diagnose	0,83	0,23	0,42	0,44	0,39
Therapie	0,47	0,15	0,21	0,21	0,17
Kommunikation	0,42	0,67	0,30	0,28	0,22
Data Literacy	0,70	0,64	0,25	0,27	0,21

Hier zeigt sich, dass die Mindestreliabilität für die Konzepte Diagnose und (eingeschränkt) Data Literacy in den geforderten Bereichen liegen. Dagegen liegt Cronbachs \(\alpha\) für die Konzepte Kommunikation und Therapie im zu niedrigen Bereich von 0,42 bzw. 0,47. Bei Therapie fällt zudem der sehr niedrige durchschnittliche Schwierigkeitsindex auf.

Ergebnisse der Aufgaben

Häufigkeiten der gewählten Antwort-Optionen

Die tabellarische Darstellung mit der Bestimmung der Häufigkeiten der gewählten Antwort-Optionen für jede Aufgabe findet sich im Anhang (siehe Tabelle 6). Bemerkenswert ist, dass von den 11 auffälligen Fragen mehr als die Hälfte (sechs) aus dem Konzept-Bereich Therapie kommen. Drei weitere sind dem Konzept Diagnose, zwei aus dem Konzept Data Literacy. Wie schon bei der Betrachtung der Konzepte fällt auf, dass die hier auffälligen Fragen generell einen niedrigen Schwierigkeitsindex von 0,03 bis maximal 0,23 aufweisen (siehe nachfolgenden Abschnitt). Diese Aufgaben konnten also nur wenige Studierende lösen.

Berechnung der Aufgabenschwierigkeiten

Der Schwierigkeitsindex der Aufgaben liegt im Bereich von 0,03 bis 0,94, schöpft also fast das ganze Spektrum aus. Gut ein Drittel der Fragen (n = 17, 34 %) liegt dabei unter 0,2. Sechs Fragen lagen oberhalb von 0,8, so dass insgesamt 46 % der Fragen außerhalb des für Multiple-Choice-Tests empfohlenen Bereiches liegen.

Berechnung der Trennschärfe-Indizes für die einzelnen Aufgaben

In der folgenden Tabelle 5 werden die Trennschärfe-Indizes Diskriminationsindex, punktbiserialer Korrelationskoeffizient r und modifizierter punktbiserialer Korrelationskoeffizient r’ für jede Aufgabe dargestellt.

Tabelle 5: Kennwerte für (Einzel-)Aufgaben im praktischen Progress Test
Frage-ID	Bezeichnung der Aufgabe	Konzept	Schwierigkeitsindex	Diskriminationsindex	Punktbiserialer Korrelationskoeffizient	Modifizierter punktbiserialer Korrelationskoeffizient
3	Frage 1	Diagnose	0,20	0,29	0,30	0,24
4	Frage 2	Therapie	0,19	0,38	0,41	0,36
5	Frage 3	Diagnose	0,35	0,73	0,62	0,57
6	Frage 4	Diagnose	0,22	0,41	0,51	0,46
7	Frage 5	Diagnose	0,37	0,71	0,60	0,55
8	Frage 6	Therapie	0,04	0,06	0,08	0,05
9	Frage 7	Therapie	0,03	0,00	−0,01	−0,03
10	Frage 8	Therapie	0,16	0,32	0,33	0,28
11	Frage 9	Therapie	0,16	0,23	0,28	0,23
12	Frage 10	Therapie	0,04	0,03	0,08	0,05
13	Frage 11	Therapie	0,17	0,12	0,08	0,03
14	Frage 12	Diagnose	0,34	0,50	0,43	0,37
15	Frage 13	Diagnose	0,04	0,12	0,32	0,29
16	Frage 14	Diagnose	0,20	0,23	0,27	0,22
17	Frage 15	Diagnose	0,11	0,15	0,13	0,09
18	Frage 16	Diagnose	0,26	0,44	0,50	0,45
19	Frage 17	Diagnose	0,35	0,41	0,37	0,30
20	Frage 18	Therapie	0,30	0,38	0,30	0,24
21	Frage 19	Therapie	0,12	0,18	0,29	0,24
22	Frage 20	Therapie	0,06	0,00	−0,03	−0,07
23	Frage 21	Kommunikation	0,37	0,27	0,23	0,16
24	Frage 22	Data Literacy	0,56	0,32	0,26	0,18
25	Frage 23	Data Literacy	0,92	0,00	0,01	−0,03
26	Frage 24	Data Literacy	0,83	0,27	0,32	0,27
27	Frage 25	Data Literacy	0,59	0,32	0,26	0,19
28	Frage 26	Data Literacy	0,85	0,09	0,13	0,08
29	Frage 27	Kommunikation	0,70	0,21	0,18	0,12
30	Frage 28	Diagnose	0,18	0,38	0,40	0,35
31	Frage 29	Diagnose	0,34	0,77	0,65	0,60
32	Frage 30	Therapie	0,17	0,18	0,23	0,18
33	Frage 31	Diagnose	0,19	0,47	0,54	0,50
34	Frage 32	Diagnose	0,11	0,32	0,49	0,45
35	Frage 33	Kommunikation	0,51	0,62	0,48	0,42
36	Frage 34	Data Literacy	0,06	0,09	0,11	0,08
37	Frage 35	Data Literacy	0,76	0,12	0,17	0,10
38	Frage 36	Data Literacy	0,63	0,35	0,34	0,27
39	Frage 37	Data Literacy	0,30	0,23	0,29	0,23
40	Frage 38	Data Literacy	0,23	0,38	0,34	0,29
41	Frage 39	Kommunikation	0,74	0,29	0,30	0,23
42	Frage 40	Diagnose	0,28	0,41	0,43	0,37
43	Frage 41	Diagnose	0,12	0,23	0,33	0,28
44	Frage 42	Diagnose	0,22	0,50	0,54	0,49
45	Frage 43	Therapie	0,37	0,59	0,52	0,47
46	Frage 44	Kommunikation	0,74	0,29	0,26	0,19
47	Frage 45	Data Literacy	0,74	0,47	0,47	0,42
48	Frage 46	Data Literacy	0,84	0,41	0,43	0,39
49	Frage 47	Data Literacy	0,76	0,29	0,32	0,26
50	Frage 48	Data Literacy	0,74	0,23	0,29	0,22
51	Frage 49	Data Literacy	0,83	0,21	0,26	0,20
52	Frage 50	Kommunikation	0,94	0,12	0,23	0,19

Diskriminationsindex D

Hier zeigt sich, dass 36 von 50 Aufgaben einen Diskriminationsindex D von größer 0,2 aufweisen. Fast alle der Aufgaben mit niedrigem D liegen bezüglich ihres Schwierigkeitsindex außerhalb der üblichen Bandbreite von 0,4 bis 0,8 (12/13) bzw. 0,3 bis 0,9 (11/13) KORRIGIEREN !!! 0,2 bis 0,8.

Punktbiserialer Korrelationskoeffizient r

Modifizierter punktbiserialer Korrelationskoeffizient r’

17 der 50 Aufgaben weisen einen modifizierten punktbiserialen Pearson-Korrelationskoeffizient r’ von kleiner 0,2 auf. Hier stimmen 11 mit einem zu niedrigen Diskriminationindex überein. Zwei Aufgaben weisen eine bessere Bewertung als über den Diskriminationsindex und sechs Aufgaben eine schlechtere Bewertung auf. Insgesamt liegen aber 17 Aufgaben über der Grenze von 0,3, ab der Aufgaben sogar als “gut” eingeschätzt werden.

Abgeleitete Empfehlungen zu den Aufgaben

In der näheren Betrachtung der Antwort-Optionen deutet sich schon an, dass einzelne Aufgaben mit einem niedrigen Schwierigkeitsindex ein kritisches Antwortverhalten der Studierenden provozieren. Zur Erleichterung der Analyse wird deshalb der Schwierigkeitsindex zusammen mit den Trennschärfe-Indizes dargestellt.

Darstellung Schwierigkeitsindex vs. Trennschärfe der einzelnen Aufgaben

In der folgenden Abbildung Abbildung 6 wird für die einzelnen Aufgaben der Schwierigkeitsindex gegenüber dem Diskriminationsindex bzw. dem modifizierten punktbiserialen Pearson-Korrelationskoeffizient aufgetragen.

Abbildung 6: Schwierigkeitsindex vs. Diskriminationsindex (A) bzw. modifizierter punktbiserialer Pearson-Korrelationskoeffizient (B) der einzelnen Aufgaben

In den beiden Grafiken zeigt sich der schon zuvor dargestellte Zusammenhang. Fragen mit einem Schwierigkeitsindex zwischen 0,2 und 0,8 (gestrichelte Linien in der Grafik) weisen eine höhere Trennschärfe auf.

Bestimmung von “\(\alpha\) if deleted” für jede Aufgabe

Cronbachs \(\alpha\) ohne Einberechnung der jeweiligen Aufgabe lag immer bei 0,82-0,83, so dass keine Minderung der Gesamtreliabilität durch eine einzelne Aufgabe erkennbar ist.

Empfehlungen zur Aufgaben-Auswahl

Aus den Referenzwerten für die berechneten Kennwerte kann man Empfehlungen für das Behalten oder Weglassen von einzelnen Aufgaben für zukünftige Tests ableiten. Im Rahmen dieser Studie soll geschaut werden, ob sich bestimmte Muster erkennen lassen, die die Aufgabenerstellung für die nächsten Progress Tests leiten können.

So emmpfehlen Jorion et al. Aufgaben beizubehalten, wenn der Schwierigkeitsindex zwischen 0,2 und 0,8 liegt und der Diskriminationsindex größer als 0,2 ist [siehe 73]. Für die Bewertung einer Aufgabe wird ein Diskriminationsindex über 0,1 aber noch als akzeptabel gewertet. Allerdings weisen gut ein Drittel der Aufgaben einen modifizierten punktbiserialen Pearson-Korrelationskoeffizient r’ von kleiner 0,2 auf.

So wurden für die Empfehlungen zur Aufgaben-Auswahl Aufgaben mit einem Schwierigkeitsindex von kleiner 0,2 oder größer 0,8 identifiziert, die entweder einen Diskriminationsindex D von kleiner 0,1 oder einen modifizierten punktbiserialen Pearson-Korrelationskoeffizient r’ von kleiner 0,2 aufwiesen. Dies ist bei sechs (von insgesamt 12) Therapie-Aufgaben der Fall, die alle einen niedrigen Schwierigkeitsindex aufweisen. Auch drei Data Literacy-Aufgaben mit zweimalig zu niedrigem und einmalig zu hohem Schwierigkeitsindex fielen so auf. Aus den Konzepten Diagnose (zu schwierig) und Kommunikation (zu leicht) konnten jeweils eine weitere Aufgabe identifiziert werden.

Diskussion

In dieser Untersuchung konnte gezeigt werden, dass der an der Medizinischen Fakultät OWL eingeführte praktische Progress Test den Lernfortschritt der Studierenden im ersten Studienjahr messen kann. Der Anstieg des Gesamtscores deutet auf eine stetige Zunahme der praktischen Fertigkeiten hin, so wie in der Hypothese zur Studie dargestellt. Die Reliabilitäten des Gesamtergebnisses und der Subskalen für die Konzepte Diagnose und Data Literacy weisen die für zuverlässige Multiple-Choice-Tests erforderlichen Werte auf. Aus der Analyse der einzelnen Aufgaben lassen sich aber auch Hinweise für eine weitere Verbesserung dieses neuen Testformats entnehmen. So zeigt die Betrachtung der Aufgaben vor allem in dem Konzept Therapie mit der Trennschärfe Probleme, die mit einem niedrigen Schwierigkeitsindex einhergingen. Für die weitere Entwicklung des praktischen Progress Tests sollte dieser Aufgabentyp vereinfacht werden, damit die Zuverlässigkeit der Prüfungsergebnisse erhöht wird. Insgesamt sprechen die Ergebnisse also dafür, dass der praktische Progress Test ein reliables Instrument zur Messung des Lerneffekts in der medizinischen Ausbildung sein kann.

Die Steigerung des erzielten Gesamtscores der Studierenden in dem praktischen Progress Test von 30 auf 48 % entsprach einer Effektstärke Cohen’s d von 1,90, was auf eine sehr große Effektstärke hinweist. Es gibt bisher allerdings wenig Referenzwerte für die Effektstärken zum Lernen in der medizinischen Ausbildung. Im Allgemeinen bezieht sich die Lehrforschung häufig auf die von Cohen angegebenen Werte. In seiner einflussreichen Arbeit zur Power-Analyse [78] schlägt Cohen für den Vergleich von arithmetischen Mitteln eine Standardisierung der Effektstärken vor, indem er die Maßeinheit der abhängigen Variable durch die Standardabweichung der jeweiligen Population teilt (Cohen’s d genannt). Cohen selbst stellt in seinen Ausführungen klar, dass die Definitionen willkürlich sind und dass “die Gefahr besteht, dass sie missverstanden werden” ([78], S. 12). Cohen schlägt für eine mittelere Effektstärke einen Wert von d=0,5 vor (kleine Effektgröße: d=0,2, große Effektgröße: d=0,8) [78].

78. Cohen J. Statistical power analysis for the behavioral sciences. Routledge Academic; 1969.

79. Görlich D, Friederichs H. Using longitudinal progress test data to determine the effect size of learning in undergraduate medical education–a retrospective, single-center, mixed model analysis of progress testing results. Medical education online. 2021;26:1972505.

Gerade im Vergleich zu den bekannten Werten aus Progress Tests, die das Wissen der Studierenden testen, scheinen die hier gefundenen Werte sehr hoch zu sein. In einer selbst durchgeführten Studie an der Medizinischen Fakultät Münster [79] konnten wir ermitteln, dass die durchschnittliche Effektstärke für den Progress des Wissens in einem Studienjahr bei gut 0,5 liegt. Insgesamt konnten die Münsteraner Studierenden während der untersuchten Studienphase (1. bis 5. Studienjahr) den Anteil der richtig beantworteten Fragen von 16,6 % (Standardabweichung (SD): 10,8 %) auf 50,9 % (SD: 15,7 %) steigern. Wir konnten zeigen, dass der stärkste Zuwachs an medizinischem Grundwissen zwischen dem 1. und 2. Studienjahr (d=0,81), der stärkste Zuwachs an klinischem Wissen zwischen dem 2. und 3. Studienjahr (d =0,94) stattfindet, also immer zu Beginn der jeweiligen Art der Wissensvermittlung (an einer traditionellen Fakultät). Dies könnte auch für die Vermittlung von praktischen Fertigkeiten für die hier untersuchten Studierenden gelten, so dass die hohe Effektstärke von 1,90 evtl. im weiteren Studienverlauf absinken wird.

Interessanterweise wächst auch durch eine primär praktisch orientierte Ausbildung auch das medizinische Wissen weiter an. So konnten Raupach et al. eine Effektgröße der Wissenssteigerung von 0,87 im letzten Jahr oder “praktischen” Jahr des Studiums messen [80]. In dieser Phase durchlaufen Studierende verschiedene Krankenhausabteilungen. Man kann postulieren, dass die Studierenden in dieser Phase des Studium einen starken Anstieg in ihren praktischen Fertigkeiten haben und der Anstieg des Wissens nur ein “Nebeneffekt” ist. Dies ist z. B. auch für das medizinische Simulationstraining ein bekannter Effekt [9]. Dies unterstreicht zum einen die Bedeutung der Vermittlung praktischer Fertigkeiten für den Erwerb medizinischen Wissens, erklärt aber vielleicht ebenfalls die Größe des im praktischen Progress Test gemessenen Effekts.

80. Raupach T, Vogel D, Schiekirka S, Keijsers C, Ten Cate O, Harendza S. Increase in medical knowledge during the final year of undergraduate medical education in Germany. GMS Zeitschrift für Medizinische Ausbildung. 2013;30.

9. Cook DA, Hatala R, Brydges R, Zendejas B, Szostek JH, Wang AT, u. a. Technology-enhanced simulation for health professions education: a systematic review and meta-analysis. Jama. 2011;306:978–88.

73. Jorion N, Gane BD, James K, Schroeder L, DiBello LV, Pellegrino JW. An analytic framework for evaluating the validity of concept inventory claims. Journal of Engineering Education. 2015;104:454–96.

77. Tavakol M, Dennick R. Making sense of Cronbach’s alpha. International journal of medical education. 2011;2:53.

50. Möltner A, Schellberg D, Jünger J. Grundlegende quantitative Analysen medizinischer Prüfungen. GMS Z Med Ausbild. 2006;23:2006–23.

51. Brannick MT, Erol-Korkmaz HT, Prewett M. A systematic review of the reliability of objective structured clinical examination scores. Medical education. 2011;45:1181–9.

Die gefundene Reliabilität für den praktischen Progress Test liegt mit einem Cronbachs \(\alpha\) von 0,83 im Bereich der von Jorion et al. als gut beschriebenen Werte [73]. Dies gilt auch für die von Tavalkol et al. [77] und Möltner et al. [50] vorgeschlagenen Interpretationen dieses zentralen Wertes. Um die hier gefundenen Ergebnisse mit denen von ähnlichen praktischen Prüfungen aus der Lehrforschung zu vergleichen, ist die Berechnung der Werte der jeweiligen Semesterkohorten notwendig. Auch die hier gefundene Mindestreliabilität (als Cronbachs \(\alpha\)) pro Semesterkohorte ist mit Werten von 0,71 für die Erstsemester und 0,85 für die Drittsemester besser als bei den meisten in der Lehrforschung publizierten OSCEs mit 0,66 (95-%-Konfidenzintervall 0,62–0,70) [51].

Für praktische Progress Tests ist eine hohe Reliabilität aus mehreren Gründen essenziell: Es geht dabei wie bei anderen Tests erst einmal um die korrekte Einordnung der Perfomance der Studierenden bei einer einzelnen Testteilnahme. Nur so können die Studierenden Rückschlüsse auf ihren aktuellen Lernstand im Sinne eines darauf auszurichtenden Lernverhaltens (Auswahl von Praktika, etc.) ziehen. Aber auch bei mehreren Testteilnahmen ist die Zuverlässigkeit der Messergebnisse hochgradig relevant, um den Lernfortschritt innerhalb eines bestimmten Zeitraums bestimmen zu können. Dafür ist die korrekte Messung des aktuellen Ausbildungsstandes der praktischen Fertigkeiten im Studienverlauf zu mehreren Messzeitpunkten nötig. Nur so kann für die individuellen Studierenden als auch für die Kohorte eine Perspektive in Richtung abschließender Staatsexamina erarbeitet werden.

Durch die Analyse der Reliabilitäten der Subskalen fielen allerdings die für die Konzepte Kommunikation und Therapie nicht ausreichenden Werte auf. Während sich die Werte für Kommunikation durch die geringe Aufgabenanzahl erklären lassen, ergaben sich für das Konzept Therapie erst durch die Analyse der einzelnen Aufgaben Hinweise für eine eventuelle Ursache. Hier zeigte immerhin die Hälfte der Aufgaben Probleme mit der Trennschärfe. Auffällig war der niedrige Schwierigkeitsindex der Aufgaben, der mit einem kritischen Antwortverhalten der Studierenden bezüglich der ausgewählten Antwortoptionen einherging. Die Aufgaben waren für die Studierenden in den ersten Semestern also zu schwierig. Obwohl hier ein Verbesserung der Studierenden im Studienverlauf zu erwarten ist, ist für die Durchführung eines praktischen Progress Tests eine Vereinfachung dieses Aufgabentyps anzuraten, um auch in den ersten Semestern eine Lernkurve darstellen zu können. Da medizinische Therapien sehr komplex werden können, ist auch bei einer Anpassung des Schwierigkeitsindex kein Deckeneffekt im weiteren Studienverlauf zu erwarten.

Gerade für eine neu gegründete Fakultät ist ein gut gemachtes Qualitätsmanagement der Lehre sehr wichtig, um die Studierenden zu einem erfolgreichen Studienabschluss zu führen. Um die Lehrleistung messen zu können, ist es notwendig, glaubwürdige Daten zu gewinnen. Zur Beurteilung der Lehrleistung im Medizinstudium werden daher häufig studentische Lehrevaluationen herangezogen. Sie sind einfach und kostengünstig durchzuführen und daher weit verbreitet. Es gibt inzwischen viele Studien zu Lehrveranstaltungsevaluationen, was die Durchführung von sog. Meta-Analysen zu entsprechenden Multisektions-Studien erlaubt. Es hat sich jedoch herausgestellt, dass die in den 1980er Jahren festgestellte positive Korrelation zwischen Lehrveranstaltungsbewertungen und der Effektivität der Hochschullehre [81] aufgrund verbesserter Meta-Analysetechniken und der wachsenden Datenmenge nicht mehr haltbar ist. Uttl et al. haben zeigen können [82], dass alle bisher beschriebenen Korrelationskoeffizienten nahezu auf Null sinken (r=0,09), wenn man die künstliche Verzerrung durch falsche Gewichtung der Ergebnisse von kleinen Studien und Ausreißern korrigiert. Es muss daher davon ausgegangen werden, dass Lehrveranstaltungsevaluationen vermutlich nicht geeignet sind, zuverlässige Aussagen über die Effektivität der Lehre von Hochschullehrenden zu treffen. So drängen sich Progress Tests als Alternative auf. Wenn es gelingt, dieses Testformat noch weiter zu verbessern, stehen den medizinischen Fakultäten zuverlässige und aussagekräftige Daten zu ihrer Lehre zur Verfügung.

81. Cohen PA. Student ratings of instruction and student achievement: A meta-analysis of multisection validity studies. Review of educational research. 1981;51:281–309.

82. Uttl B, White CA, Gonzalez DW. Meta-analysis of faculty’s teaching effectiveness: Student evaluation of teaching ratings and student learning are not related. Studies in Educational Evaluation. 2017;54:22–42.

Limitationen

Bei Betrachtung der hier vorgelegten Ergebnisse ist wichtig, einen möglichen Einfluss des Studienrahmens auf die Interpretation und Anwendbarkeit der Ergebnisse zu beachten. Durch die Auswahl von Studierenden aus dem 1. und 3. Semester sind die Ergebnisse nicht automatisch auf das ganze Medizinstudium anwendbar. Der hier dargestellte Progress in praktischen Fertigkeiten muss sich nicht so in die Zukunft fortsetzen. Es ist eher ein Absinken des Progresses erwartbar. Auch die Auswahl einer Studienpopulation aus einem Modellstudiengang schränkt die Anwendbarkeit der Ergebnisse für z. B. traditionelle Studiengänge stark ein. So sind weitere Studien nötig, bis zuverlässige Ergebnisse zur Anwendbarkeit von praktischen Progress Tests vorhanden sind.

Schlussfolgerung

Die Ergebnisse der hier vorgelegten Untersuchung sprechen dafür, dass der praktische Progress Test ein reliables Instrument zur Messung der medizinisch-praktischen Ausbildung sein kann. Perspektivisch können die gefundenen Ergebnisse im praktischen Progress Test dazu dienen, die in Zukunft wahrscheinlich stattfindenden praktischen Stations-Prüfungen in den Staatsexamina entsprechend zu gestalten. Auch in den Staatsexamina muss die Reliabilität für eine gerechte Prüfung hoch sein, so dass ausreichende Erfahrungen für eine in diesem Sinne erfolgreiche Prüfungsgestaltung vonnöten sind.

Insgesamt kann gezeigt werden, dass der für die Zukunft der medizinischen Ausbildung formulierte Anspruch, dass sich Prüfungen von einem ‘assessment of learning’ zu einem ‘assessment for learning’ weiterentwickeln sollten [83], mit Hilfe von (praktischen) Progress Tests angegangen werden kann. Allerdings ist auch klar, dass eine gute Beurteilung eine Vielzahl von Prüfungsmethoden erfordert, da keine einzelne Methode die gesamte medizinische Kompetenz von Medizinstudierenden oder Ärzt*innen erfassen kann [84].

83. Schuwirth LW, Van der Vleuten CP. Programmatic assessment: from assessment of learning to assessment for learning. Medical teacher. 2011;33:478–85.

84. Schuwirth LW, Van der Vleuten CP. How to design a useful test: the principles of assessment. Understanding medical education: evidence, theory, and practice. 2018;275–89.

Anhang

Ethikvotum

Abstract auf der GMA 2022

Bestimmung der Häufigkeiten der Einzelantworten

Tabelle 6: Aufgaben mit jeweiligem Prozentsatz der Studierenden, die die Antwortoption gewählt haben
Frage-Nr.	Titel	Antwort	Konzept	Anteil der gewählten Antwort (in Prozent)
Frage-Nr.	Titel	Antwort	Konzept	?	a	b	c	d	e
3	Frage 1	d	Diagnose	41,82	6,36	11,82	14,55	20,00	5,45
4	Frage 2	b	Therapie	38,18	37,27	19,09	0,00	0,91	4,55
5	Frage 3	a	Diagnose	52,73	35,45	0,91	1,82	6,36	2,73
6	Frage 4	c	Diagnose	43,64	10,00	16,36	21,82	7,27	0,91
7	Frage 5	e	Diagnose	44,55	9,09	4,55	4,55	0,00	37,27
8	Frage 6	b	Therapie	41,82	11,82	3,64	38,18	4,55	0,00
9	Frage 7	c	Therapie	24,55	60,00	2,73	2,73	9,09	0,91
10	Frage 8	a	Therapie	50,91	16,36	10,00	10,00	6,36	6,36
11	Frage 9	c	Therapie	50,00	0,91	3,64	16,36	0,91	28,18
12	Frage 10	c	Therapie	66,36	10,00	13,64	3,64	5,45	0,91
13	Frage 11	b	Therapie	39,09	2,73	17,27	9,09	1,82	30,00
14	Frage 12	e	Diagnose	41,82	10,91	3,64	3,64	5,45	34,55
15	Frage 13	d	Diagnose	42,73	19,09	9,09	10,00	4,55	14,55
16	Frage 14	e	Diagnose	64,55	2,73	10,00	0,00	2,73	20,00
17	Frage 15	b	Diagnose	45,45	8,18	10,91	24,55	5,45	5,45
18	Frage 16	e	Diagnose	46,36	0,00	15,45	3,64	9,09	25,45
19	Frage 17	e	Diagnose	32,73	3,64	10,00	1,82	16,36	35,45
20	Frage 18	c	Therapie	33,64	14,55	5,45	30,00	16,36	0,00
21	Frage 19	c	Therapie	59,09	9,09	5,45	11,82	6,36	8,18
22	Frage 20	b	Therapie	35,45	22,73	5,45	15,45	20,91	0,00
23	Frage 21	c	Kommunikation	10,91	6,36	18,18	37,27	14,55	12,73
24	Frage 22	c	Data Literacy	3,64	20,91	3,64	55,45	16,36	0,00
25	Frage 23	b	Data Literacy	0,91	0,91	91,82	1,82	4,55	0,00
26	Frage 24	c	Data Literacy	2,73	10,00	1,82	82,73	2,73	0,00
27	Frage 25	d	Data Literacy	4,55	35,45	0,91	0,00	59,09	0,00
28	Frage 26	b	Data Literacy	3,64	1,82	85,45	3,64	5,45	0,00
29	Frage 27	e	Kommunikation	4,55	21,82	3,64	0,00	0,00	70,00
30	Frage 28	a	Diagnose	40,91	18,18	1,82	5,45	2,73	30,91
31	Frage 29	d	Diagnose	39,09	1,82	15,45	7,27	33,64	2,73
32	Frage 30	d	Therapie	67,27	3,64	2,73	5,45	17,27	3,64
33	Frage 31	d	Diagnose	43,64	10,91	1,82	12,73	19,09	11,82
34	Frage 32	e	Diagnose	79,09	3,64	2,73	1,82	1,82	10,91
35	Frage 33	a	Kommunikation	26,36	50,91	5,45	1,82	12,73	2,73
36	Frage 34	d	Data Literacy	17,27	20,00	46,36	4,55	5,45	6,36
37	Frage 35	a	Data Literacy	7,27	76,36	10,91	0,00	5,45	0,00
38	Frage 36	b	Data Literacy	10,91	16,36	62,73	5,45	4,55	0,00
39	Frage 37	a	Data Literacy	14,55	30,00	40,91	8,18	6,36	0,00
40	Frage 38	a	Data Literacy	20,91	22,73	16,36	23,64	16,36	0,00
41	Frage 39	e	Kommunikation	13,64	3,64	2,73	1,82	4,55	73,64
42	Frage 40	c	Diagnose	47,27	13,64	8,18	28,18	2,73	0,00
43	Frage 41	a	Diagnose	68,18	11,82	3,64	9,09	3,64	3,64
44	Frage 42	e	Diagnose	57,27	3,64	11,82	5,45	0,00	21,82
45	Frage 43	a	Therapie	40,00	37,27	5,45	4,55	6,36	6,36
46	Frage 44	b	Kommunikation	6,36	0,00	74,55	3,64	10,91	4,55
47	Frage 45	b	Data Literacy	10,91	7,27	74,55	1,82	3,64	1,82
48	Frage 46	d	Data Literacy	8,18	0,00	1,82	2,73	84,55	2,73
49	Frage 47	a	Data Literacy	0,91	75,45	20,91	2,73	0,00	0,00
50	Frage 48	a	Data Literacy	5,45	73,64	19,09	1,82	0,00	0,00
51	Frage 49	a	Data Literacy	2,73	82,73	8,18	4,55	1,82	0,00
52	Frage 50	d	Kommunikation	1,82	0,00	4,55	0,00	93,64	0,00

Andere Formate

Zusammenfassung

Hintergrund

Methoden

Ergebnisse

Diskussion

Hintergrund

Wissenserwerb im Medizinstudium

Praktische Fertigkeiten im Medizinstudium

Progress Tests

Entwicklung eines Progress Tests für praktische Fertigkeiten

Fragestellung der Masterthese

Methoden

Klassische Testtheorie

Vorbereitungen und Vorstudien

Studiendesign

Teilnehmer

Datenerhebung

Ergebnismessgröße und statistische Methoden

Ergebnisübersicht

Analyse der Aufgaben

Häufigkeiten der gewählten Antwort-Optionen

Aufgabenschwierigkeiten

Trennschärfe-Indizes

Diskriminationsindex D

Punktbiserialer Korrelationskoeffizient r

Modifizierter punktbiserialer Korrelationskoeffizient r’

Ableitung von Empfehlungen zu den Aufgaben

Bestimmung von Cronbachs “\(\alpha\) if deleted”

Reliabilität der Gesamtprüfung

Ergebnisse

Rekrutierungsprozess und demografische Merkmale der Teilnehmer*innen

Übersicht der erzielten Gesamtergebnisse

Histogramm der Punktwerte

Identifikation von Ausreißern

Übersicht der erzielten Gesamtergebnisse

Ergebnisse der Konzept-Subskalen

Ergebnisse der Aufgaben

Häufigkeiten der gewählten Antwort-Optionen

Berechnung der Aufgabenschwierigkeiten

Berechnung der Trennschärfe-Indizes für die einzelnen Aufgaben

Diskriminationsindex D

Punktbiserialer Korrelationskoeffizient r

Modifizierter punktbiserialer Korrelationskoeffizient r’

Abgeleitete Empfehlungen zu den Aufgaben

Darstellung Schwierigkeitsindex vs. Trennschärfe der einzelnen Aufgaben

Bestimmung von “\(\alpha\) if deleted” für jede Aufgabe

Empfehlungen zur Aufgaben-Auswahl

Diskussion

Limitationen

Schlussfolgerung

Anhang

Ethikvotum

Abstract auf der GMA 2022

Bestimmung der Häufigkeiten der Einzelantworten

Literaturverzeichnis