Stations-Nr. | Thema der Station | Anzahl an MC-Fragen | Integrierte Konzepte |
---|---|---|---|
1 | Lumbalgie bei Bandscheibenprolaps L5 | 5 | Diagnose, Therapie |
2 | Opiat-Überdosierung | 5 | Diagnose, Therapie |
3 | Otitis media | 5 | Diagnose, Therapie |
4 | Kahnbeinfraktur | 5 | Diagnose, Therapie |
5 | Gesprächsvideo I | 1 | Kommunikation |
6 | Pharma-Werbung – Therapeutische Wirksamkeit | 5 | Data Literacy |
7 | Gesprächsvideo II | 1 | Kommunikation |
8 | Mikroskopie-Bild Brustkrebs | 5 | Diagnose, Therapie |
9 | Gesprächsvideo III | 1 | Kommunikation |
10 | HIV-Selbsttest | 5 | Data Literacy |
11 | Gesprächsvideo IV | 1 | Kommunikation |
12 | Schäumender Urin | 4 | Diagnose, Therapie |
13 | Gesprächsvideo V | 1 | Kommunikation |
14 | Information aus Medien - Blah-Zeitung | 5 | Data Literacy |
15 | Gesprächsvideo VI | 1 | Kommunikation |
Masterarbeit Hochschul- und Wissenschaftsmanagement
Implementierung eines praktischen Progress-Tests im Studium der Humanmedizin – eine testtheoretische Analyse
Zusammenfassung
Hintergrund
Das Medizinstudium ist anspruchsvoll und setzt hohe schulische Leistungen für die Zulassung voraus. Trotz strenger Auswahl der Studierenden sind aber Studienverzögerungen und -abbrüche keine Seltenheit. Daher ist ein effektiver Wissenserwerb für die angehende Mediziner*innen entscheidend, um den Studienerfolg zu sichern. Im Medizinstudium werden aber neben theoretischem Wissen aber auch praktische Fähigkeiten und Fertigkeiten immer wichtiger.
Um hohe Kompetenzstandards aufrechtzuerhalten, ist die Überprüfung des Lernfortschritts in der Ausbildung in den letzten Jahren zu einem wichtigen Thema geworden. Mit sog. Progress Tests werden Studierende während des Studiums in regelmäßigen Abständen getestet. Diese Progress Tests werden international immer beliebter, um den Wissenszuwachs von Medizinstudierenden zu messen. Sie ermöglichen es, Stärken und Schwächen der Studierenden zu identifizieren und Lehrstrategien anzupassen.
In dem hier dargestellten Projekt wurde ein praktischer Progress Test entwickelt, um Studierenden regelmäßig Feedback zum Erwerb ihrer praktischen Fertigkeiten zu geben und um sie auf zukünftige praktische Prüfungen im Staatsexamen vorzubereiten. Praktische Tests haben jedoch oft Probleme mit der Zuverlässigkeit (Reliabilität) der Prüfungsergebnisse. Gerade die Zuverlässigkeit der Prüfungsergebnisse ist für einen praktischen Progress Test aber entscheidend, um aus diesem einen Nutzen für Lehrende und Studierende zu ziehen.
Diesem Problem soll mit einer Kombination von praktischen Stationen und Multiple-Choice-Fragen in dem neuen praktischen Progress Test begegnet werden. Die Studierenden sollen in den Stationen praktische Fertigkeiten anwenden, um Informationen zu Patienten(fällen) zu generieren oder einzuordnen. Anschließend werden zu den gewonnenen Informationen Multiple-Choice-Fragen zu den Konzepten Diagnose, Therapie, Data Literacy und Kommunikation gestellt.
Ziel der hier vorgelegten Masterarbeit ist die Untersuchung des neuen praktischen Progress Tests an der Medizinischen Fakultät OWL anhand von Testparametern der klassischen Testtheorie, um Aussagen über die Zuverlässigkeit der Messergebnisse des Tests zu gewinnen. Es sollen Hinweise für die zukünftige Weiterentwicklung des praktischen Progress Tests gewonnen werden.
Methoden
In dieser Kohortenstudie wurde der Lernfortschritt in den praktischen Fertigkeiten von Studierenden unterschiedlicher Fachsemester (FS) derselben Fakultät anhand eines neu entwickelten praktischen Progress Tests untersucht. Für den praktischen Progress Test wurden die Konzepte Diagnose, Therapie, Data Literacy und Kommunikation thematisch in 15 Prüfstationen integriert. Mit den aus den Stationen generierten Informationen mussten die Studierenden anschließend 50 Multiple-Choice-Fragen beantworten. Die von den Studierenden richtig beantworteten Fragen wurden mit einem Punkt bewertet und zu einem Gesamtscore addiert. Daraus wurden im Rahmen der klassischen Testtheorie das Gesamtergebnis, der Schwierigkeitsindex und die Trennschärfen der einzelnen Aufgaben und schließlich die Gesamtreliabilität des praktischen Progress Tests berechnet.
Ergebnisse
Von den 118 immatrikulierten Studierenden des 1. und 3. Fachsemesters der Medizinischen Fakultät OWL konnten für die Studie insgesamt 115 (1. FS: n = 60, 71 % weiblich; 3. FS: n = 55, 67 % weiblich) in die Studie eingeschlossen werden. Der durchschnittlich erreichte Gesamtscore der Studierenden aus dem ersten Semester lag bei 29,9 ± 9,2 %, der der Studierenden aus dem dritten Semester bei 47,8 ± 9,9 %, was insgesamt einem Schwierigkeitsindex von 0,39 entspricht. Damit zeigten die Studierenden nach einem Jahr Studium den erwarteten Lernfortschritt (Differenz = 17,9 %, 95-%-Konfidenzintervall [14 %; 22 %], t(106,77) = 9,80, p < 0,001; Cohen’s d = 1,90, 95-%-Konfidenzintervall [1,44; 2,35]).
Im Durchschnitt liegen die Trennschärfen der einzelnen Aufgaben (Diskriminationsindex D = 0,30, punktbiserialer Korrelationskoeffizient r = 0,31 und modifizierter punktbiserialer Korrelationskoeffizient r’ = 0,26) im akzeptablen bis guten Bereich. Allerdings weisen gut ein Drittel der Aufgaben einen modifizierten punktbiserialen Pearson-Korrelationskoeffizient r’ von kleiner 0,2 auf. Insgesamt weisen Fragen mit einem Schwierigkeitsindex zwischen 0,2 und 0,8 eine höhere Trennschärfe auf.
Daraus ergibt sich ein Cronbachs \(\alpha\) von 0,83 für den gesamten praktischen Progress Test, was ein guter Indikator für ein Erreichen der geforderten Mindestreliabilität von 0,8 ist.
Diskussion
Die hier vorgelegte Untersuchung zeigt, dass der an der Medizinischen Fakultät OWL eingeführte praktische Progress Test in der Lage ist, den Lernfortschritt der Studierenden in ihren praktischen Fertigkeiten im ersten Studienjahr zuverlässig zu bestimmen. Die Reliabilitäten des Gesamtergebnisses und der Subskalen für die Konzepte Diagnose und Data Literacy weisen die für zuverlässige Multiple-Choice-Tests erforderlichen Werte auf.
Die Betrachtung der einzelnen Aufgaben zeigt aber vor allem in dem Konzept Therapie Probleme mit der Trennschärfe, so dass für die weitere Entwicklung des praktischen Progress Tests dieser Aufgabentyp vereinfacht werden sollte.
Eine gute Beurteilung der medizinischen Kompetenz erfordert jedoch auch mehrere Prüfungsmethoden, da keine einzelne Methode die gesamte medizinische Kompetenz erfassen kann.
Hintergrund
Das Studium der Humanmedizin ist eine große Herausforderung für die Studierenden, trotz des für die Zulassung zum Studium aufwendigen Selektionsprozesses. Das Medizinstudium erfreut sich in Deutschland großer Beliebtheit und so bewerben sich jedes Jahr mehr als 40.000 junge Menschen auf die 9.500 verfügbaren Studienplätze [1]. Chancen auf einen Studienplatz haben dementsprechend nur junge Menschen mit sehr guten schulischen Leistungen und mit ebenso guten Ergebnissen in einem zusätzlichen obligatorischen Intelligenztest (sog. TMS - Test für medizinische Studiengänge). In einem bundesweiten und transparenten Verfahren werden dann die besten Bewerber*innen für ein Medizinstudium ausgewählt. Trotz dieser hohen Anforderungen an die Zulassung stellt das Studium selbst ebenfalls eine Herausforderung für die Medizinstudierenden dar. Dies zeigt sich u.a. darin, dass knapp 25 % der Studierenden das Studium bis zum 1. Staatsexamen verzögert absolvieren und etwa 10 % das Studium dann innerhalb von durchschnittlich 4 Jahren abbrechen [2]. Für Studierende, die die Prüfungen nicht in der Regelstudienzeit bestehen, bedeutet dies zumindest eine Verlängerung der ohnehin schon langen Studiendauer (6 1/4 Jahre) mit entsprechendem Zeitverlust. Weitere Herausforderungen, wie die Gefährdung von Stipendien, können zu den bestehenden finanziellen Problemen hinzukommen. Um die für das Studium vorgesehene lange Dauer nicht noch weiter zu verlängern, ist eine qualitativ hochwertige Lehre notwendig und stellt einen hohen Anspruch an alle Beteiligten dar. Insbesondere ist ein effektiver Wissenserwerb für die angehende Mediziner*innen entscheidend, um den Studienerfolg zu sichern.
Wissenserwerb im Medizinstudium
Die Bedeutung von Wissen für die Angehörigen der Gesundheitsberufe kann gar nicht hoch genug eingeschätzt werden, da es die Grundlage für eine effektive Patientenversorgung bildet und für fundierte Entscheidungen in verschiedenen klinischen Kontexten unerlässlich ist. Medizinische Fachkräfte benötigen ein breites Spektrum an Wissen, das Grundlagenwissenschaften, klinische Fertigkeiten, Kommunikationsfähigkeiten und ethische Grundsätze umfasst, um genaue Diagnosen zu stellen, angemessene Behandlungspläne zu entwickeln und die Sicherheit der Patienten zu gewährleisten [3]. Darüber hinaus erfordert die rasche Entwicklung der medizinischen Wissenschaft und der Gesundheitspraxis eine Verpflichtung zum lebenslangen Lernen, die es ermöglicht, mit neuen Entdeckungen, Technologien und Richtlinien Schritt zu halten [4]. Es werden außerdem Kenntnisse in Bereichen wie kulturelle Kompetenz, Gesundheitsförderung und interprofessionelle Zusammenarbeit zunehmend als wesentlich für die Optimierung der Patientenergebnisse und den Umgang mit den unterschiedlichen Bedürfnissen verschiedener Patientengruppen anerkannt [5, 6]. Letztlich sind der Erwerb und die kontinuierliche Weiterentwicklung von Wissen für die Angehörigen der Gesundheitsberufe unerlässlich, da sie die Grundlage für eine qualitativ hochwertige, evidenzbasierte und patientenorientierte Versorgung bilden.
Demzufolge ist der Wissenserwerb von Medizinstudierenden ein entscheidender Aspekt der medizinischen Ausbildung, da er die Grundlage für die Entwicklung kompetenter medizinischer Fachkräfte bildet, die in der Lage sind, eine qualitativ hochwertige Patientenversorgung zu gewährleisten. Der Prozess des Erwerbs und Behaltens von medizinischem Wissen umfasst komplexe kognitive und metakognitive Fähigkeiten, die durch verschiedene Lehrmethoden und Lernerfahrungen unterstützt werden [7]. Medizinische Ausbilder sind ständig bemüht, effektive Lehrstrategien wie problembasiertes Lernen, fallbasierten Unterricht und Simulationen zu identifizieren und umzusetzen, um den Wissenserwerb der Studierenden zu maximieren und das langfristige Behalten zu erleichtern [8, 9]. Darüber hinaus wird zunehmend die Bedeutung von selbstgesteuertem Lernen, Reflexion und Feedback als wesentlicher Bestandteil des Wissenserwerbsprozesses von Medizinstudierenden erkannt [10]. Letztendlich hängt der erfolgreiche Wissenserwerb von Medizinstudierenden von einer Kombination aus gut konzipierten Ausbildungsmaßnahmen und der Entwicklung von Fähigkeiten zum selbstgesteuerten Lernen ab, die zusammen zur Entwicklung von kompetenten Fachkräften im Gesundheitswesen beitragen [11].
Die Lernerfolgskontrolle in der medizinischen Ausbildung ist ein entscheidender Faktor, um sicherzustellen, dass zukünftige Angehörige der Gesundheitsberufe über das Wissen und die Fähigkeiten verfügen, die für eine qualitativ hochwertige Patientenversorgung erforderlich sind. Diese reichen von traditionellen schriftlichen Prüfungen wie Multiple-Choice-Fragen bis hin zu innovativeren Techniken wie objektive strukturierte klinischen Prüfungen (OSCE), die klinisches Denken und praktische Fähigkeiten messen [12–14]. Effektive Evaluationsmethoden dienen nicht nur dazu, den Fortschritt der Studierenden zu messen, sondern liefern auch wertvolles Feedback an die Fakultäten, das in die Curriculumentwicklung und Lehrstrategien einfließen kann [15]. Darüber hinaus kann der Einsatz von formativen und summativen Evaluationen während der gesamten medizinischen Ausbildung das selbstregulierte Lernen und eine Kultur des lebenslangen Lernens unter den Angehörigen der Gesundheitsberufe fördern [16]. Abschließend wird das erworbene medizinische Wissen der Medizinstudierenden in Form von Staatsexamina geprüft, so dass das Bestehen dieser Prüfungen das wichtigste formale Studienziel für Medizinstudierende ist.
Praktische Fertigkeiten im Medizinstudium
Die Aneignung von medizinischem Wissen ist ein zentrales Element der ärztlichen Ausbildung, aber nicht zuletzt seit der Pisa-Studie aus den Jahren 2000/2001 ist der Begriff der Kompetenz aus der Bildung nicht mehr wegzudenken. Dabei ist die Kompetenz im Allgemeinen als ” […] die Fähigkeit und Fertigkeit, in den bestimmten Gebieten Probleme zu lösen, sowie die Bereitschaft, dies auch zu tun und umzusetzen […]” [17], definiert. Auch in der Ausbildung der Medizinstudierenden findet das Bedürfnis, die jungen Menschen besser auf die praktischen Anforderungen des Berufes vorzubereiten, schon lange einen breiten Anklang. So ist es nur konsequent, dass die Ausbildung praktischer Fertigkeiten von Medizinstudierenden – nicht zuletzt durch eine entsprechende Änderung der Approbationsordnung im Jahr 2002 – eine höhere Akzeptanz und Wertschätzung findet und somit einen immer breiteren Raum in der Ausbildung einnimmt. Das heutige Ziel der ärztlichen Weiterbildung ist laut Approbationsordnung “der wissenschaftlich-praktisch in der Medizin ausgebildete Arzt, der zur eigenverantwortlichen und selbständigen ärztlichen Berufsausübung, zur Weiterbildung und selbstständiger Fortbildung befähigt ist.” (aus §1 der Approbationsordnung für Ärzte [ÄAppO] vom 27. Juni 2002). Die Ausbildung zum Arzt soll demzufolge auf wissenschaftlicher Grundlage und zudem praxis- und patientenbezogen durchgeführt werden und den angehenden Mediziner dazu befähigen, mit Abschluss des Studiums kompetent und vor allem eigenverantwortlich zu handeln.
Dennoch werden nach wie vor erhebliche Defizite in den Leistungen der Studierenden und der jungen Ärzte in Weiterbildung beklagt und auch immer wieder festgestellt [18, 19]. Es wird immer wieder kritisiert, dass die Medizinischen Hochschulen (auch international) weiterhin zu theoretisch ausbilden, dass also die Betonung zu sehr auf der Vermittlung von wissensbasierten Inhalten liegt [20]. Als Reaktion darauf findet international eine Verschiebung von zuvor rein kognitiven Lernzielen zu mehr praktischen und kompetenzbasierten Lernzielen in der medizinischen Aus- und Weiterbildung statt [21], die intensiv wissenschaftlich begleitet wird.
Aufgrund einer deutlich zunehmenden Diskussion in der medizinischen Aus- und Weiterbildung haben z. B. Frank et al. in einem systematischen Review aus 173 Publikationen eine Definition der lompetenzbasierten medizinischen Aus- und Weiterbildung für das 21. Jahrhundert vorgelegt: „Kompetenzbasierte Ausbildung ist ein Ansatz zur Vorbereitung von Ärzten auf die Praxis, der sich grundsätzlich an den Fähigkeiten von Absolventen orientiert und auf Kompetenzen aufbaut, die aus einer Analyse der Bedürfnisse der Gesellschaft und der Patienten abgeleitet sind. Sie relativiert den zeitbasierten Unterricht und verspricht mehr Transparenz, Flexibilität und Fokussierung auf den Lerner.” [22] – Übersetzung des Autors). So führt eine kompetenzbasierte Ausrichtung des Lehrplans zu einer größeren Fokussierung auf den Lernenden, indem die individuellen Lernstile der Studierenden mit dem jeweils unterschiedlichen Zeitbedarf zum Erlernen einer Kompetenz berücksichtigt wird (siehe auch [23].
Die Bewertung klinischer Fertigkeiten umfasst ein breites Spektrum von Fähigkeiten, darunter Anamneseerhebung, körperliche Untersuchung, Verfahrenstechniken, Kommunikation und klinisches Denken [24]. Die Objective Structured Clinical Examination (OSCE) ist einer der am weitesten verbreiteten Ansätze, da sie eine standardisierte und umfassende Bewertung der verschiedenen klinischen Fertigkeiten ermöglicht [25]. OSCEs sind zu einem wesentlichen Bestandteil der medizinischen Ausbildung geworden, da sie eine praktische und standardisierte Methode zur Bewertung klinischer Kompetenzen darstellen [12, 13]. Trotz ihres weit verbreiteten Einsatzes gibt es nach wie vor Fragen zur Reliabilität von OSCEs, wobei sich die Bedenken vor allem auf die Subjektivität der Prüfer, die Variabilität der Stationsinhalte und die mögliche Beeinträchtigung der Leistung durch die Angst der Studierenden beziehen [26]. Zahlreiche Studien haben die Reliabilität von OSCEs untersucht, und immer mehr Belege deuten darauf hin, dass OSCEs bei ordnungsgemäßer Gestaltung und Durchführung tatsächlich ein zuverlässiges und valides Maß für die klinische Kompetenz darstellen können [27, 28]. Um die Zuverlässigkeit von OSCEs zu erhöhen, ist es entscheidend, klare Bewertungskriterien festzulegen, eine standardisierte Prüferschulung durchzuführen und eine ausreichende Anzahl von Stationen einzusetzen, um potenzielle Schwankungen zu berücksichtigen [29]. Letztendlich sind OSCEs ein wertvolles Instrument in der medizinischen Ausbildung, aber ihre Zuverlässigkeit hängt von der konsequenten Anwendung dieser bewährten Verfahren ab. Dadurch sind OSCEs leider sehr aufwändig [30] und gerade in der Situation einer noch im Aufbau befindlichen Fakultät schwierig umzusetzen.
Neben den OSCEs wurden weitere Beurteilungsinstrumente wie die direkte Beobachtung von prozeduralen Fertigkeiten (Direct Observation of Procedural Skills, DOPS [31]), Mini-CEX [32] und arbeitsplatzbezogene Beurteilungen (Workplace Based Assessments, WPBA [33]) eingeführt, um die traditionellen Prüfungsmethoden zu ergänzen und eine ganzheitlichere Beurteilung der klinischen Fertigkeiten in authentischen Situationen zu ermöglichen.
Progress Tests
Um den kumulativen Zuwachs an medizinischem Wissen zu bewerten, erfreuen sich Progress Tests international zunehmender Beliebtheit [34]. Sie wurden Ende der 1970er Jahre unabhängig voneinander an der University of Missouri-Kansas City School of Medicine [35] und an der Universität Maastricht in den Niederlanden [36, 37] eingeführt und werden heute weltweit in medizinischen Studiengängen eingesetzt. Ein von der Association for Medical Education in Europe (AMEE) herausgegebener Leitfaden beschreibt folgende Schlüsselelemente von Progress Tests [38]:
- Durchführung bei allen Studierenden eines Studiengangs
- Regelmäßige Testintervalle während des gesamten Studiums
- Stichproben aus dem gesamten Wissensbereich, der von den Studierenden am Ende des Studiums erwartet wird, unabhängig vom Studienjahr.
In Deutschland wird den medizinischen Fakultäten ein von der Berliner Charité durchgeführter Progress Test (PTM – Progress Test Medizin) angeboten, an dem derzeit 17 medizinische Fakultäten aus Deutschland, Österreich und der Schweiz teilnehmen. Progress Tests enthalten eine umfassende Prüfung der gesamten Endziele des Studiengangs [36]. Er enthält ca. 200 Fragen zu medizinischem Wissen in einem Multiple-Choice-Format auf Examens-Niveau und wird von etwa 11.000 Studierenden zu Beginn jedes Semesters absolviert.
Der PTM ist ein formativer Test. Dies bedeutet, dass die teilnehmenden Studierenden nicht durchfallen können, sondern dieser Test auf eine Rückmeldung zu ihrem Wissen und ihren Wissenszuwachs während ihres Studiums abzielt. So liegt eine weitere Stärke des PTM darin, dass er eine Bewertung des aktuellen Wissensstands ermöglicht, ohne dass die Studierenden sich darauf vorbereiten [39]. Die Studierenden werden durch die Möglichkeit, anzugeben, dass sie die Antwort nicht wissen, davon abgehalten, blind zu raten. So bietet sich die Möglichkeit, abrufbares und dauerhaftes Wissen zu messen.
Progress Tests haben sich inzwischen als zuverlässiges Instrument [34] erwiesen und können daher zur Messung des Wissenszuwachses in der Medizin eingesetzt werden. Progress Tests können so auch auf einer individuellen Ebene dazu beitragen, die Stärken und Schwächen der Studierenden zu identifizieren und diesen eine entsprechende Rückmeldung geben. Zudem ermöglichen sie den Lehrenden, ihre Lehrstrategien besser auf die individuellen Bedürfnisse abzustimmen [40]. Der Erfolg von Progress Tests ist jedoch von einer durchdachten Umsetzung der Testverfahren und der Integration des Feedbacks in den Lernprozess abhängig [41].
Da Progress Tests zum Vergleich von Curricula verwendet werden können [42–44], möchten die meisten Fakultäten mit Modell- oder Reformstudiengängen damit den Lernerfolg ihrer Studierenden im Vergleich zu traditionellen Studiengängen überwachen. Typische Beispiele sind ein PBL-basiertes Curriculum an der Charité in Berlin oder ein reformorientiertes Curriculum an der Ruhr-Universität Bochum, die beide einen parallelen traditionellen Track hatten. Daneben lässt sich mit Progress Tests auch für die gesamte Fakultät und fächerspezifisch der Wissenszuwachs bestimmen, was eine Steuerung und inhaltliche Weiterentwicklung der Lehre erlaubt. So nutzen auch alleinstehende Modellstudiengänge wie die in 2021 gegründete Medizinische Fakultät OWL diese Art der Supervision für die Curriculumentwicklung.
Entwicklung eines Progress Tests für praktische Fertigkeiten
An der Universität Bielefeld hat zum Wintersemester 2021/2022 die neue Medizinische Fakultät OWL ihren Lehrbetrieb aufgenommen und ist mit 60 Erstsemestern in das Medizinstudium gestartet. Dabei ist die Neugründung einer medizinischen Fakultät ein seltener Vorgang. So wurde die letzte bundesdeutsche medizinische Fakultät in den achtziger Jahren in Witten-Herdecke gegründet, allerdings in privater Trägerschaft. Nach 40 Jahren ohne Neugründung befinden sich nun die medizinischen Fakultäten in Augsburg und in Bielefeld in diesem Prozess, so dass Erfahrungen im Aufbau einer medizinischen Fakultät unter heutigen Bedingungen gering sind.
Der Anspruch an diesen Prozess wird insofern noch erhöht, dass die Medizinische Fakultät OWL ihre Studierenden in einem Modellstudiengang ausbildet. Dieser schafft die Möglichkeit, das Curriculum selbstbestimmter zu gestalten, da der erste Teil der sog. Ärztlichen Prüfung als fakultätseigene Prüfung (sog. Äquivalenzprüfung) abgehalten werden darf. Normale Studiengänge dagegen nehmen an einer bundeseinheitlichen Prüfung teil, was bedingt, dass die Unterrichtsinhalte für die Studierenden bis zu diesem Studienzeitpunkt festgelegt sind. So kann eine Fakultät mit Modellstudiengang theoretische und klinische Inhalte besser verzahnen und mit der geforderten Kompetenzorientierung in Einklang bringen.
Diese Kompetenzorientierung in der medizinischen Ausbildung wird auch im aktuellen Entwurf der ärztlichen Ausbildungsordnung (sog. ärztliche Approbationsordnung, ÄAppO) für 2025 weiterentwickelt. Durch den politischen Willen, die ÄAppO in naher Zukunft zu ändern [45], sind weitere Herausforderung für die neu gegründeten Fakultäten absehbar. Es ist unter anderem angekündigt, dass die Staatsexamina durch praktische Prüfungen an Stationen erweitert werden sollen [46]. “Der Zweite Abschnitt der Ärztlichen Prüfung besteht aus zehn Stationen in einer vorgegebenen Abfolge (Parcours). Eine Station kann eine oder mehrere klinisch-praktische Aufgaben umfassen. […] Bei den klinisch-praktischen Aufgaben werden Simulationspatienten oder Simulationspatientinnen, Simulatoren, Modelle oder Medien eingesetzt.” [§86 (2), (3) Arbeitsentwurf des Bundesministeriums für Gesundheit zur Approbationsordnung für Ärzte und Ärztinnen (ÄApprO)]. Dazu werden im Nationalen Kompetenzbasierten Lernzielkatalog Medizin (NKLM) drei zu erreichende Ebenen beschrieben, die bezüglich ihrer Komplexität zunehmen: Faktenwissen, Handlungs- und Begründungswissen und Handlungskompetenz. Multiple-Choice-Prüfungen sind diesbezüglich meistens zur Ebene Faktenwissen, OSCE’s meistens zur Ebene Handlungswissen zuzuordnen. Damit soll der medizinische Kompetenzerwerb weiter standardisiert werden.
Trotz der Herausforderungen, die mit der Neugründung einer medizinischen Fakultät verbunden sind, ist die Verpflichtung, die Studierenden der Medizin auch zu einem erfolgreichen Abschluss des Staatsexamens zu führen, von absolut zentraler Bedeutung. Um die Medizinstudierenden adäquat auf die neu aufkommende Prüfungsform in den Staatsexamina vorzubereiten, bot es sich in für den neu zu gestaltenden Modellstudiengang an der Medizinischen Fakultät OWL in Bielefeld an, auch für praktische Fertigkeiten einen Progress Test zu entwickeln und zu implementieren.
Obwohl schon für die Staatsexamina angekündigt, sind praktische Prüfungen noch nicht vollständig in der medizinischen Ausbildung etabliert. Praktische Tests haben jedoch oft Probleme mit der Zuverlässigkeit der Prüfungsergebnisse, in dem Sinne, dass die sog. Reliabilität, also die Reproduzierbarkeit der Prüfungsergebnisse [47], häufig nicht in ausreichendem Maße gewährleistet ist. Prinzipiell zeigen praktische Prüfungen Probleme mit der Reliabilität, gerade wenn es nicht um prozedurale Fertigkeiten geht. Die entsprechende Höhe der Reliabilität ist für diese Form der Prüfung scheinbar schwer zu erreichen [48]. So konnte beispielsweise an der Medizinischen Fakultät Heidelberg im Rahmen einer durchgeführten OSCE- Prüfung die geforderte Mindestreliabilität von 0,8 trotz intensiver Bemühungen nur fast erreichen [49]. Dies ist auch eine Herausforderung für praktische Progress Tests. Während die Reliabilität von Multiple-Choice-Prüfungen also generell als sehr gut angesehen wird und auch entsprechend hohe Werte gefordert werden [50], wird die Reliabilität von praktischen Prüfungen kritisch beurteilt [51].
Fragestellung der Masterthese
In dem hier dargestellten Projekt wird ein praktischer Progress Test entwickelt, um Studierenden regelmäßig Feedback zum Erwerb ihrer praktischen Fertigkeiten zu geben und sie auf zukünftige praktische Prüfungen im Staatsexamen vorzubereiten. Gerade die Zuverlässigkeit der Messergebnisse ist für einen praktischen Progress Test aber entscheidend, um aus diesem einen Nutzen für Lehrende und Studierende zu ziehen. Diesem Problem soll mit einer Kombination von praktischen Stationen und Multiple-Choice-Fragen in dem neuen praktischen Progress Test begegnet werden. Die Studierenden sollen in den Stationen praktische Fertigkeiten anwenden, um Informationen zu Patienten(fällen) zu generieren oder einzuordnen. Anschließend werden zu den gewonnenen Informationen Multiple-Choice-Fragen zu den Konzepten Diagnose, Therapie, Data Literacy und Kommunikation gestellt.
Ziel der hier vorgelegten Masterarbeit ist die Untersuchung des neuen praktischen Progress Tests an der Medizinischen Fakultät OWL anhand von Testparametern der klassischen Testtheorie, um Aussagen über die Zuverlässigkeit der Messergebnisse des Tests zu gewinnen. Dafür wird im Rahmen einer Kohortenstudie der Lernfortschritt in den praktischen Fertigkeiten von Studierenden unterschiedlicher Fachsemester (FS) derselben Fakultät untersucht. Es sollen so Hinweise für die zukünftige Weiterentwicklung des praktischen Progress Tests gewonnen werden.
Methoden
Klassische Testtheorie
Im Folgenden soll ein kurzer Überblick über den testtheoretischen Hintergrund der in dieser Untersuchung verwendeten Analysen gegeben werden. Es wird die Klassische Testtheorie in Abgrenzung zur Item-Response-Theorie in Anlehnung an Krumm et al. [52] dargestellt, die für eine Vertiefung des Themengebiets empfohlen werden.
Die klassische Testtheorie (KTT) wurde im frühen 20. Jahrhundert entwickelt, um die Zuverlässigkeit und Gültigkeit psychologischer Tests zu bewerten. Die Ursprünge der KTT gehen u. a.auf die Arbeiten von Spearman [53, im Original von 1904] zurück, der Modelle zum Verständnis der Natur von Intelligenz und Persönlichkeit vorschlug. Später wurde die KTT von mehreren Statistikern, wie Cronbach [54] und Lord & Novick [55], formalisiert. So bildet die KTT einen statistischen Rahmen für die Analyse und Interpretation psychometrischer Testergebnisse. Die zentrale Idee der KTT ist, dass jedes beobachtete Testergebnis aus zwei Komponenten besteht: einem wahren Ergebnis und einem Fehlerergebnis. Das wahre Ergebnis ist das hypothetische Ergebnis, das eine Person erzielt hätte, wenn kein Messfehler vorgelegen hätte. Der Fehlerwert hingegen ist die Differenz zwischen dem beobachteten Ergebnis und dem wahren Ergebnis. Die KTT definiert die Reliabilität als das Ausmaß, in dem ein Test frei von Zufallsfehlern ist, und bietet mehrere Methoden zur Schätzung der Reliabilität.
Die KTT ist seit vielen Jahren ein nützliches Instrument für psychologische Messungen, aber die jüngsten Entwicklungen haben zu neuen Rahmen und Modellen für die Bewertung der Zuverlässigkeit und Gültigkeit psychologischer Tests geführt. Ein solcher Rahmen ist die Item-Response-Theorie (IRT), die die Wahrscheinlichkeit, dass eine Person auf ein Item richtig antwortet, als eine Funktion des latenten Merkmals der Person und der Merkmale der Aufgaben modelliert. So vertreten die KTT und die IRT unterschiedliche Ansichten darüber, wie die Fähigkeit oder Leistung einer Person in einem Test gemessen und verstanden werden kann. Die KTT geht davon aus, dass die beobachtete Punktzahl von Teilnehmer*innen die Summe ihrer tatsächlichen Fähigkeiten und des zufälligen Fehlers ist. Der Fehler ist dementsprechend für alle gleich, unabhängig vom Fähigkeitsniveau. Die IRT geht davon aus, dass die Wahrscheinlichkeit einer Person, eine Aufgabe richtig zu beantworten, sowohl von ihren Fähigkeiten als auch von den Merkmalen der Aufgabe abhängt, z. B. von ihrer Schwierigkeit oder ihrem Unterscheidungsvermögen. Es wird nicht davon ausgegangen, dass die Fehler bei allen teilnehmenden Personen gleich sind.
Während sich die KTT also auf den Test als Ganzes konzentriert, geht sie davon aus, dass jede Aufgabe gleichermaßen zur Leistung einer Person beiträgt. Die IRT setzt den Fokus auf die einzelne Testaufgaben. Es wird untersucht, wie jede einzelne Aufgabe mit den Fähigkeiten einer Person zusammenhängt, wobei davon ausgegangen wird, dass einige Aufgaben informativer oder bedeutsamer sein können als andere. Dies hat auch Folgen für die weitere Entwicklung eines Tests. Bei der KTT konzentrieren sich Testentwickler in der Regel auf die Reliabilität und Validität des gesamten Tests, indem sie die durchschnittlichen Ergebnisse und die Variabilität zwischen den Testteilnehmern betrachten. So haben KTT-basierte Tests in der Regel einen festen Satz von Aufgaben für alle Teilnehmer*innen. Bei der IRT konzentrieren sich die Testentwickler dagegen auf die Eigenschaften der einzelnen Aufgaben, um Tests zu entwickeln, die anpassungsfähiger sind und ein breiteres Spektrum von Kompetenzen besser messen können. So können IRT-basierte Tests adaptiv sein, d. h. sie passen die Aufgaben auf der Grundlage früherer Antworten einer Person an.
Der auffälligste Unterschied für die an der Testdurchführung beteiligten Personen ist aber, dass die KTT Rohwerte oder einfache Transformationen (z. B. Perzentilen) verwendet, um die Leistung einer Person darzustellen. Diese sind für viele Anwender*innen gut verständlich und erlauben Diskussionen über die erzielten Ergebnisse. Die IRT verwendet ausgefeiltere Modelle, die im Allgemeinen relativ komplexe Schätzverfahren erfordern, um die Fähigkeiten einer Person einzuschätzen. Dies bedarf einer intensiven Schulung der an der Testdurchführung beteiligten Personen und ist im Alltag der klinisch tätigen Ärzt*innen nicht leicht umzusetzen. Deshalb findet sich für die durch die KTT generierten Testkennwerte eine deutlich höhere Akzeptanz und deshalb wird die KTT auch in der hier vorgelegten Studie verwendet.
Ziel der hier vorgelegten testtheoretischen Prüfungsauswertung ist eine klare und differenzierte Ergebnispräsentation, die eine sinnvolle Rückmeldung an die verantwortlichen Lehrenden ermöglicht. Diese sollen zur weiteren Verbesserung des praktischen Progress Tests im Sinne einer Revision befähigt werden.
Eine wesentliche Einschränkung der KTT besteht darin, dass sie keine numerischen Informationen über die Validität eines Tests oder anders ausgedrückt darüber liefert, inwieweit er das misst, was er messen soll. Hier liegt es an der Testentwicklung, dem durch sorgfältige Aufgabenauswahl Rechnung zu tragen. Insbesondere sollte durch eine hinreichend breite und repräsentative inhaltliche Abdeckung des Themengebiets eine Konstruktunterrepräsentation vermieden werden [56]. Des Weiteren ist eine Klarheit der Aufgabenstellung wichtig, um nicht zusätzliche Varianz zu erzeugen [57].
Vorbereitungen und Vorstudien
Zum Studienstart 2021 an der Medizinischen Fakultät OWL wurde somit ein praktischer Progress Test entwickelt. Die teilnehmenden Studierenden sollten an 12 Stationen jeweils praktische Fertigkeiten anwenden, um Informationen zu Diagnose und Therapie der Patienten(fälle) zu generieren oder einzuordnen. Pro Station hatten die Studierenden drei Minuten Zeit, um die an sie gestellte Aufgabe zu bewältigen. Da man sich bei so vielen Stationen nicht alles merken konnte, bekamen die Studierenden für evtl. Notizen ein Klemmbrett mit Notizzettel und Stift mitgegeben. Mit den pro Station generierten Informationen mussten die Studierenden nach Durchlauf des Parcours jeweils 5 Multiple-Choice-Fragen pro Station (insgesamt 60 MC-Fragen) beantworten (schematischer Ablauf siehe Abbildung 1).
Die MC-Fragen hatten jeweils ca. 5 Antwort-Optionen. Obwohl neuere Ergebnisse der Lehrforschung zu einer Reduktion der Antwort-Optionen auf bis zu drei Optionen raten [58], wurde diese Anzahl beibehalten, da sie in medizinischen Staatsexamina üblich ist.
Für das Bestehen der Staatsexamina im Medizinstudium müssen 60 % der MC-Fragen richtig beantwortet werden. So wurden auch für den praktischen Progress Test richtige Antworten in den MC-Fragen zu einem Score addiert und den entsprechenden Prozentwert umgerechnet. Als Antwortmöglichkeit wird zusätzlich eine “weiß nicht”-Option angeboten. Die Studierenden können durch den Parcours mit den Testfragen nicht durchfallen, es handelt sich um ein sog. formatives Assessment.
Formal ermöglicht das konzeptionierte Verfahren eine hinreichende Objektivität zur Messung von praktischen Fertigkeiten im Medizinstudium. Der nächste Schritt bestand im Nachweis einer entsprechenden Reliabilität der Messungen. In einem ersten Schritt galt es also nachzuweisen, dass im Studium weiter fortgeschrittene Studierende auch wirklich besser in dem Test abschneiden. Dafür wurden für den ersten Durchgang als Vergleichs-Kohorte Studierende im 5. Fachsemester an der Medizinischen Fakultät Münster gebeten, ebenfalls diese erste Version des praktischen Progress Tests durchzuführen. Es wurden für die Implementierung auch “Kontroll-Stationen” in den Test integriert, bei denen die Studierendenkohorten keine signifikanten Unterschiede zeigen sollten. Die Ethikkommission der Ärztekammer Westfalen-Lippe hatte dieser Studie ein positives Votum gegeben (Aktenzeichen: 2021-740-f-S, siehe Anhang) und die entsprechende Erhebung hat im Dezember 2021 stattgefunden.
Nach Analyse der Ergebnisse und deren Vorstellung auf einem Fachkongress (Jahrestagung der Gesellschaft für medizinische Ausbildung im September 2022, Abstract im Anhang) wurde ein sehr positives Stimmungsbild bezüglich der Machbarkeit und Relevanz der praktischen Progress Tests für die zukünftige Entwicklung der ärztlichen Ausbildung in Deutschland zurückgemeldet. Für die Analyse wurde aber bemängelt, dass die Erhebung an zwei Kohorten mit unterschiedlichem Selektions- und Ausbildungsprofieln vorgenommen wurde. Dies würde die Gültigkeit und Interpretierbarkeit der Ergebnisse schmälern.
Studiendesign
Mit Wintersemester 2022/2023 wurde dann an der Medizinischen Fakultät OWL eine zweite Kohorte von Medizinstudierenden immatrikuliert, so dass der Progress Test mit Studierenden aus dem 1. und 3. Fachsemester durchgeführt werden konnte. So wurde die Studie als Beobachtungsstudie mit zwei Kohorten konzipiert. Der einzige Unterschied zwischen den beiden beobachteten Gruppen bestand im Studienfortschritt der Teilnehmer.
Dies entspricht formal einer vollständigen Implementierung des praktischen Progress Tests, da erstmalig mit demselben praktischen Progress Test Studierende aus verschiedenen Fachsemestern an derselben Fakultät getestet werden konnten. Die Anzahl der Studierenden und die Variabilität des Studienfortschritts sind aber aufgrund der Aufbausituation noch minimal.
Für die Teilnehmer wurde der praktische Progress Test anhand der der Erfahrung der Vorsemester weiterentwickelt, so dass diese 15 Prüfstationen bewältigen müssen. Inhaltlich wurden die Konzepte Diagnose, Therapie, Data Literacy und Kommunikation in die Stationen integriert:
Konzepte Diagnose und Therapie
Die Rolle von Diagnose und Therapie in der medizinischen Ausbildung ist von entscheidender Bedeutung, da diese beiden Kernkompetenzen die Grundlage für eine wirksame Patientenversorgung bilden und von den Angehörigen der Gesundheitsberufe beherrscht werden müssen. Die Diagnose umfasst den Prozess des Sammelns, Interpretierens und Zusammenfassens klinischer Informationen, um den Zustand eines Patienten festzustellen, während die Therapie die Auswahl und Durchführung geeigneter Behandlungspläne zur Behandlung oder Heilung des festgestellten Zustands umfasst. Sowohl für die Diagnose als auch für die Therapie müssen Medizinstudierende eine solide Grundlage in den Grundlagenwissenschaften, klinische Fertigkeiten und kritisches Denken entwickeln sowie Fähigkeiten in den Bereichen Kommunikation, Zusammenarbeit und ethische Entscheidungsfindung erwerben [59]. Um den Erwerb dieser Kompetenzen zu erleichtern, werden in der medizinischen Ausbildung verschiedene Lehrmethoden wie fallbasiertes Lernen, problemorientiertes Lernen und simulationsbasiertes Training eingesetzt, die es den Studierenden ermöglichen, aktiv zu lernen und ihr Wissen in authentischen klinischen Szenarien anzuwenden [60, 61]. Zusammenfassend lässt sich sagen, dass die Vermittlung und Bewertung diagnostischer und therapeutischer Kompetenzen in der medizinischen Ausbildung von entscheidender Bedeutung für die Ausbildung gut ausgebildeter Gesundheitsfachkräfte ist, die in der Lage sind, die Komplexität der klinischen Praxis effektiv zu bewältigen und eine qualitativ hochwertige, patientenorientierte Versorgung zu leisten.
Konzept Data Literacy
Die Rolle der Datenkompetenz in der medizinischen Ausbildung hat zunehmend an Bedeutung gewonnen, da die Angehörigen der Gesundheitsberufe mit einer wachsenden Menge komplexer medizinischer Daten konfrontiert sind und der Schwerpunkt auf evidenzbasierter Medizin liegt. Data Literacy bezieht sich auf die Fähigkeit, Daten zu verstehen, zu interpretieren und kritisch zu bewerten, um Entscheidungen zu treffen und die klinische Praxis zu verbessern [62]. Dazu gehören Kompetenzen wie statistisches Denken, das Verständnis von Studiendesigns und die kritische Beurteilung von Forschungsliteratur [63]. Die Aufnahme von Data Literacy in die Lehrpläne der medizinischen Ausbildung stellt sicher, dass künftige Fachkräfte des Gesundheitswesens in der Lage sind, sich in der riesigen Menge an verfügbaren medizinischen Informationen zurechtzufinden, die Qualität und Relevanz von Forschungsergebnissen zu erkennen und diese Erkenntnisse zur Verbesserung der Patientenversorgung anzuwenden [64]. Darüber hinaus fördert die Data Literacy eine Kultur des kontinuierlichen Lernens und Forschens, die für die Aufrechterhaltung der beruflichen Kompetenz in einer sich rasch entwickelnden medizinischen Landschaft unerlässlich ist. Zusammenfassend lässt sich sagen, dass Data Literacy eine zentrale Rolle in der medizinischen Ausbildung spielt, da sie Fachkräfte des Gesundheitswesens in die Lage versetzt, fundierte Entscheidungen zu treffen und eine evidenzbasierte Krankenversorgung zu leisten, was letztlich die Ergebnisse für die Patienten verbessert.
Konzept Kommunikation
Kommunikation spielt in der medizinischen Ausbildung eine wichtige Rolle, da effektive Kommunikationsfähigkeiten ein wesentlicher Faktor für den Aufbau enger Beziehungen zu Patienten, die Steigerung der Patientenzufriedenheit und die Gewährleistung optimaler Ergebnisse der Gesundheitsversorgung sind. Gute Kommunikation beinhaltet nicht nur die Fähigkeit, Informationen klar und einfühlsam zu vermitteln, sondern auch die Fähigkeit, aktiv zuzuhören, sich auf unterschiedliche Patientenbedürfnisse einzustellen und mit Kollegen aus verschiedenen Bereichen des Gesundheitswesens zusammenzuarbeiten [65–67]. Da die Bedeutung der Kommunikation erkannt wurde, wird in der medizinischen Ausbildung zunehmend Wert auf die Entwicklung dieser Fähigkeiten gelegt, und zwar durch verschiedene pädagogische Ansätze wie standardisierte Patientengespräche, Rollenspiele und Workshops zum Training von Kommunikationsfähigkeiten [68, 69]. Darüber hinaus werden Kommunikationsfähigkeiten häufig durch Methoden wie OSCEs bewertet, die die Fähigkeit von Medizinstudierenden beurteilen, in einer Vielzahl klinischer Kontexte effektiv mit Patienten und Familien zu interagieren [12]. Letztendlich trägt die Aufrechterhaltung und Verbesserung der Kommunikationsfähigkeiten in der medizinischen Ausbildung zur Entwicklung gut ausgebildeter Gesundheitsfachkräfte bei, die besser in der Lage sind, mit der Komplexität der Patientenversorgung umzugehen und einen kooperativen, patientenzentrierten Ansatz in der Gesundheitsversorgung zu fördern.
Die Bewertung von Kommunikation in der medizinischen Ausbildung stellt eine Reihe von Herausforderungen dar, da die Bewertung dieser komplexen und nuancierten Fähigkeiten sowohl subjektiv als auch schwer zu quantifizieren sein kann. Ein Hauptproblem ist die Variabilität der Bewertungsmethoden und das Fehlen standardisierter Kriterien für die Bewertung von Kommunikationsfähigkeiten [70]. Diese Inkonsistenz kann zu Ungleichheiten im Bewertungsprozess und zu Schwierigkeiten beim Vergleich von Leistungen zwischen verschiedenen Institutionen oder Kontexten führen [71]. Darüber hinaus konzentrieren sich die meisten Assessmentinstrumente, wie die schon oben beschriebenen OSCEs, hauptsächlich auf einzelne Aspekte der Kommunikation, die möglicherweise die Feinheiten authentischer Patienteninteraktionen nicht vollständig erfassen oder den Einfluss von Kontextfaktoren nicht berücksichtigen [15]. Darüber hinaus kann die Verwendung standardisierter Patienten, obwohl sie für die Simulation realer Begegnungen wertvoll ist, aufgrund subjektiver Wahrnehmungen und Erwartungen an die Patientenrolle zu potenziellen Verzerrungen im Beurteilungsprozess führen [72]. Zusammenfassend lässt sich sagen, dass die Bewältigung der Herausforderungen bei der Bewertung von Kommunikationsfähigkeiten in der medizinischen Ausbildung von entscheidender Bedeutung ist, um eine genaue Bewertung dieser Schlüsselkompetenzen zu gewährleisten.
Für den Progress Test im WS 2022/2023 wurden 15 Stationen gebildet, die in Tabelle 1 aufgeführt sind. Mit den aus den Stationen generierten Informationen mussten die Studierenden anschließend insgesamt 50 Multiple-Choice-Fragen beantworten.
Teilnehmer
Teilnehmer dieser Studie waren Studierende des 1. und 3. Fachsemesters der Medizinischen Fakultät OWL. In jedem Semester gibt es 60 Studienplätze, die vollständig besetzt sind. Somit ist die Stichprobengröße für diese Erhebung auf die potenziell 120 Studierenden begrenzt.
Die Veranstaltung “praktischer Progress Test” war für alle Studierende als curriculare Lehreinheit mit einem festen Termin im Lehrplan geplant und für alle Studierenden in der ersten Semesterwoche terminiert. Für den Einschluss in der Studie konnten nur die Studierenden gewertet werden, die auch tatsächlich an der Erhebung am 13. oder 14. Oktober 2022 teilgenommen haben. Studierende, die sich kurzfristig abgemeldet hatten oder nicht erschienen sind, wurden demzufolge nicht einbezogen.
Datenerhebung
Erhobene Parameter für die Studie waren Angaben der Studierenden zu Alter und Geschlecht, sowie ihre durch den Erhebungszeitpunkt festzustellende Zugehörigkeit zum 1. oder 3. Fachsemester.
Die Studierenden wurden vor der Erhebung zu ihrem Einverständnis zur Studienteilnahme gefragt. Mit Angabe ihres Alters und Geschlechts erklärten sich die Studierenden mit der pseudonymisierten Datenerhebung und -auswertung einverstanden. Eine Nicht-Teilnahme hatte keine negativen Konsequenzen.
Es wurden nur vollständig ausgefüllte Multiple-Choice-Fragebögen in die Wertung einbezogen. Die richtige beantworteten Fragen der Studierenden wurden mit einem Punkt bewertet und zu einem Gesamtscore addiert. Falsch oder mit der “weiß nicht”-Option beantwortete Fragen wurden mit 0 Punkten gewertet.
Ergebnismessgröße und statistische Methoden
Für die quantitative Analyse des praktischen Progress Tests orientiert sich die hier vorgelegte Studie am in der Medizindidaktik etablierten Vorgehen von Möltner et al [50]. Die Autor*innen schlagen analytische Schritte vor, die sowohl von den Frageerstellern (klinisch tätige Ärzt*innen) gut verstanden werden, als auch für andere Formen als Multiple-Choice-Tests (z. B. OSCE-Prüfungen) anwendbar sind. Demzufolge wird das Vorgehen wie folgt strukturiert, um die Prüfung zu auszuwerten:
Ergebnisübersicht
Das Gesamtergebnis wird sowohl tabellarisch als auch grafisch in verschiedenen Varianten dargestellt. Dies erlaubt erste Hinweise auf das Vorhandensein von Ausreißern im Datensatz (z.B. bei Abbruch der Prüfung), die bei den späteren Analysen (von Trennschärfen und der Reliabilität, siehe unten) zu verzerrten Ergebnissen führen könnten.
Die endgültige Identifikation der Ausreißer erfolgt mittels objektiver statistischer Methoden, hier der Feststellung, ob eine Abweichung von mehr als der dreifachen Standardabweichung vom Mittelwert vorliegt.
Anschließend werden die Ergebnisse der Konzept-Subskalen ebenfalls grafisch und tabellarisch dargestellt.
Analyse der Aufgaben
Häufigkeiten der gewählten Antwort-Optionen
Die Bestimmung der Häufigkeiten der gewählten Antwort-Optionen dient der Beurteilung der Antwortalternativen. Falls diese sogar häufiger als die richtige Antwort gewählt werden, kann dies ein Hinweis auf Fehler in der richtigen Antwort oder eine ungenügende inhaltliche Abgrenzung zur richtigen Antwort sein. Auch selten oder nie gewählte Antwort-Optionen sollten bezüglich ihrer Sinnhaftigkeit überprüft werden.
Hier ist zu beachten, dass die “weiß nicht”-Option von den Studierenden aufgrund ihres Ausbildungsstandes naturgemäß häufig gewählt werden wird und nicht gemäß der oben genannten Kriterien in die Bewertung einbezogen wird. Diese Option kann zudem die Anteile der andern Antwortoptionen verschieben, was in einer Analyse ebenfalls zu beachten ist.
Aufgabenschwierigkeiten
In der darauffolgenden teststatistischen Analyse der (Einzel-)Aufgaben wird die Schwierigkeit berechnet. Die Schwellenwerte des Schwierigkeitsindex in Multiple-Choice-Tests spielen eine entscheidende Rolle bei der Bewertung der Qualität von Prüfungsaufgaben, da sie ein Maß dafür sind, wie leicht oder schwer eine Aufgabe für die Prüfungsteilnehmer ist. Der Schwierigkeitsindex, der häufig als Anteil oder Prozentsatz ausgedrückt wird, wird als Verhältnis der Anzahl der Prüfungsteilnehmer, die eine Aufgabe richtig beantwortet haben, zur Gesamtzahl der Prüfungsteilnehmer berechnet. Aufgaben mit einem Schwierigkeitsindex zwischen 0,2 und 0,8 werden häufig als optimal angesehen [73]. Hierbei ist zu beachten, dass für die Prüfungsgruppe gut lösbare Aufgaben eine hohe Aufgaben-Schwierigkeit, schwierig zu lösende Aufgaben dagegen eine geringe Aufgaben-Schwierigkeit aufweisen. Bei der Festlegung geeigneter Schwellenwerte für den Schwierigkeitsindex ist es allerdings wichtig, den spezifischen Kontext und Zweck des Assessments zu berücksichtigen.
Für eine gute Differenzierung in medizinischen Prüfungen werden so häufig Werte zwischen 0,4 und 0,8 empfohlen [50]. Konkret bedeutet dies, dass eine Aufgabe im Mittel zu 60 % gelöst werden sollte. Für Multiple-Choice-Fragen mit Einfachauswahl (wie auch im hier dargestellten Fall) bedeutet dies auch, dass im Durchschnitt 60 % der Studierenden diese Multiple-Choice-Frage richtig beantwortet haben sollten. Dies entspricht auch der typischen Bestehensgrenze in den medizinischen Staatsexamina. Somit ist zu bedenken, dass Teilnehmer an einem Progress-Test noch auf dieses Niveau hinarbeiten und damit die erreichte Schwierigkeit in dieser Studie niedriger ausfallen sollte. Die Aufgaben-Schwierigkeiten werden ebenfalls tabellarisch dargestellt.
Trennschärfe-Indizes
Um die Unterscheidungsfähigkeit einer Aufgabe zwischen guten und schlechten Prüfungsteilnehmern darzustellen, wird die Trennschärfe bestimmt. Die Trennschärfe in Multiple-Choice-Tests bezieht sich auf die Fähigkeit der Testaufgaben, zwischen leistungsstarken und leistungsschwachen Studierenden zu unterscheiden. Die Trennschärfe kann mit verschiedenen statistischen Indizes gemessen werden.
Hier wird die Trennschärfe über den Diskriminationsindex D, den punktbiserialen Korrelationskoeffizient r nach Pearson-Bravais und in seiner modifizierten Form (r’) dargestellt.
Diskriminationsindex D
Der Diskriminationsindex D stellt die Differenz der mittleren Schwierigkeit von Studierenden mit guter Gesamtprüfungsleistung und der von Studierenden mit schlechter Gesamtprüfungsleistung dar. Dafür werden die Prüfungsteilnehmer in eine gute, mittlere und schlechte Gruppe unterteilt. Die Unterteilung kann unterschiedlich vorgenommen werden, üblich (und auch hier verwendet) ist die Einteilung nach Kelley [74], in der die 27 % Teilnehmer mit den niedrigsten Punktzahlen für die schlechte Gruppe und analog die 27 % Teilnehmer mit den höchsten Punktzahlen für die gute Gruppe genommen werden. Ein höherer Diskriminationsindex zeigt an, dass die Aufgabe effektiver zwischen Schülern mit guten und solchen mit schlechten Leistungen im Test unterscheidet.
Es gibt verschiedene Richtlinien für die Interpretation von Diskriminationsindizes, häufig werden aber Aufgaben mit einem Diskriminationsindex von 0,2 oder höher als exzellent, solche zwischen 0,1 und 0,19 als gut und solche unter 0,1 als durchschnittlich eingestuft, während welche mit Werten um 0 oder schlechter möglicherweise überarbeitet oder entfernt werden sollten [73].
Punktbiserialer Korrelationskoeffizient r
Berechnet wird der punktbiseriale Korrelationskoeffizient r (oder Pearson-Moment-Korrelation), bei dem die Antworten auf jede Aufgabe mit der Gesamtleistung des Tests korreliert werden. Dieser Korrelationskoeffizient kann noch durch unten stehende Modifikation für den hier benötigten Zweck optimiert werden.
Modifizierter punktbiserialer Korrelationskoeffizient r’
Berechnet wird der modifizierte punktbiseriale Korrelationskoeffizient r’ für jede Aufgabe, wobei die Antworten auf die Aufgaben mit der Gesamttestleistung korreliert werden, ohne die jeweilige Aufgabe in der Gesamtleistung des Tests zu berücksichtigen.
Insgesamt kann die Trennschärfe von Multiple-Choice-Tests in Abhängigkeit vom Kontext, der Qualität der Testaufgaben und den Fähigkeiten der Studierenden variieren. Daher ist es wichtig, die Trennschärfe von Multiple-Choice-Aufgaben bei der Erstellung oder Auswahl von Testaufgaben für die Verwendung in Prüfungen sorgfältig zu bewerten. Generell gelten dabei Trennschärfen r’ als gut, wenn sie über 0,3 liegen. Trennschärfen zwischen 0,2 und 0,3 gelten als noch akzeptabel, darunter als marginal bis schlecht [50].
Ableitung von Empfehlungen zu den Aufgaben
Durch grafische Darstellung der Aufgaben bzgl. ihres Schwierigkeitsindex gegen die Trennschärfe lassen sich allgemeine Empfehlungen zu zukünftigen Aufgabenstellungen ableiten.
Konkret sollen in diesem Schritt einzelne Aufgaben mit schlechten Kennwerten identifiziert werden. Durch Elimination dieser schlechten Aufgaben für zukünftige Durchführungen des praktischen Progress Tests lassen sich langfristig Verbeserungen in der Gesamtreliabilität des Tests erzielen.
Anschließend werden die Einzelantworten ausgewertet, indem sie ebenfalls bezüglich ihrer Häufigkeit und Trennschärfe analysiert werden. Hier sollten die falschen Antwortmöglichkeiten eine negative Trennschärfe aufweisen und es gilt vor allem, Aufgaben zu identifizieren, in denen eine falsche Antwort von den Studierenden häufiger als die richtige Alternative gewählt worden ist (durch unklare Abgrenzung voneinander oder sogar einer fehlerhafte “Richtig”-Antwort).
Bestimmung von Cronbachs “\(\alpha\) if deleted”
Das dazu kalkulierte “\(\alpha\) if deleted” entspricht der Reliabilität ohne die zu untersuchende Aufgabe und identifiziert so evtl. Aufgaben, die die Reliabilität der Gesamtprüfung mindern können. Diese Aufgaben können dann zur Erhöhung der Zuverlässigkeit der Gesamtprüfung herausgenommen werden.
Reliabilität der Gesamtprüfung
Abschließend wird die Reliabilität der gesamten Prüfung bestimmt. Hier geht es um die Zuverlässigkeit bzw. um die Reproduzierbarkeit der Prüfungsergebnisse [75]. Diese kann mittels des Cronbachs-\(\alpha\)-Koeffizienten ermittelt werden, der einen Mindestwert für die Reliabilität der berechneten Prüfung darstellt. (Das cronbachsche \(\alpha\) (Alpha) ist eine nach Lee Cronbach benannte Maßzahl für die interne Konsistenz einer Skala. Im folgenden Text wird hierfür die etablierte Schreibweise und Bezeichnung “Cronbachs \(\alpha\)” verwendet, obwohl es andere Schreibweisen und Bezeichnungen gibt [76].)
Cronbachs \(\alpha\)-Schwellenwerte in Multiple-Choice-Tests sind wichtig für die Beurteilung der Zuverlässigkeit der internen Konsistenz dieser Bewertungen, da sie ein Maß dafür sind, inwieweit die Testaufgaben miteinander verbunden sind und ein einziges zugrunde liegendes Konstrukt erfassen. Cronbachs \(\alpha\), liegt zwischen 0 und 1, wobei höhere Werte auf eine höhere interne Konsistenz hinweisen [77]. Obwohl es keinen allgemein anerkannten Schwellenwert für akzeptable Werte von Cronbachs \(\alpha\) gibt, gibt es verschiedene Vorschläge für die Interpretation dieser Werte im Kontext von Bildungsevaluationen.
So schlagen Jorion et al. vor, dass ein Cronbachs \(\alpha\) von 0,9 oder höher eine ausgezeichnete Reliabilität anzeigt, Werte zwischen 0,8 und 0,89 als gut, Werte zwischen 0,7 und 0,79 als akzeptabel angesehen werden können [73]. Tavalkol et al. schlagen eine ähnliche Interpretation vor [77], während Möltner et al. auf eine in der Literatur zu findende Mindestreliabilität von 0,8 hinweisen [50]. Somit können Werte unter 0,7 als fragwürdig interpretiert werden, insbesondere bei Tests mit hohen Anforderungen.
Man kann zudem noch die notwendige Zahl von Prüfungsfragen zum Erreichen der oben erwähnten Mindestreliabilitäten berechnen. Dies würde bei der hier vorgelegten Studie im Falle eines Nichterreichens einer Reliabilität von 0,8 durchgeführt.
Ergebnisse
Rekrutierungsprozess und demografische Merkmale der Teilnehmer*innen
Für die Studie konnten insgesamt 115 der 118 für die Semester immatrikulierten Studierende einbezogen werden, die an dem praktischen Progress Test teilgenommen haben. Davon waren 60 Studierende aus dem ersten, 55 Studierende aus dem dritten Fachsemester. Fünf Studierende haben keine Angaben zu ihrem Alter, ein/e Studierende/r zusätlich keine Angabe zum Geschlecht gemacht und damit keine Teilnahmebereitschaft für die Studie erklärt. Die entsprechenden Datensätze wurden für die weitere Analyse ausgeschlossen. Der Rekrutierungsprozess der Studienteilnehmer*innen ist in Abbildung 2 dargestellt.
Wie aus Tabelle 2 hervorgeht, weisen die beiden untersuchten Studienpopulationen aus dem 1. und 3. Fachsemester keine signifikanten Unterschiede bezüglich ihrer Geschlechtsverteilung auf. Dass die Studierenden aus dem 3. Fachsemester signifikant älter sind, ist erwartbar. Dafür ist das Alter im Median wiederum gleich (20,0 Jahre).
Variable | N | Gesamt, N = 1151 | Semesterzuordnung | p-Wert2 | |
---|---|---|---|---|---|
1, N = 601 | 3, N = 551 | ||||
Alter | 110 | 20.00 (19.00, 22.00) | 20.00 (19.00, 22.00) | 20.00 (20.00, 24.75) | 0.005 |
Unbekannt | 5 | 4 | 1 | ||
Geschlecht | 114 | 0.65 | |||
männlich | 35 (31%) | 17 (29%) | 18 (33%) | ||
weiblich | 79 (69%) | 42 (71%) | 37 (67%) | ||
Unbekannt | 1 | 1 | 0 | ||
1 Median (IQR) oder Häufigkeit (in %) | |||||
2 Wilcoxon-Mann-Whitney-Test; Chi-Quadrat-Test auf Unabhängigkeit |
Übersicht der erzielten Gesamtergebnisse
Nach der Auswertung aller Datensätze kristallisierten sich folgende Gesamtergebnisse heraus:
Der durchschnittlich erreichte Gesamtscore der Studierenden aus dem ersten Semester lag bei 29,9 ± 9,2 %, der der Studierenden aus dem dritten Semester bei 47,8 ± 9,9 %. In der durchgeführten Analyse der Daten mit einem Welch Two Sample t-test konnte ein signifikanter und großer Unterschied (nach Cohen [78]) zwischen den Studierenden beider Semester festgestellt werden (Differenz = 0,18, 95-%-Konfidenzintervall [0,14; 0,22], t(106,77) = 9,80, p < 0,001; Cohen’s d = 1,90, 95-%-Konfidenzintervall [1,44; 2,35]), siehe Abbildung 3.
Histogramm der Punktwerte
Das Histogramm der Punktwerte findet sich in Abbildung 4.
Identifikation von Ausreißern
Der durchschnittlich erreichte Gesamtscore der Studierenden aus dem ersten Semester lag bei 29,9 ± 9,2 % (Range 8 bis 52 %), der der Studierenden aus dem dritten Semester bei 47,8 ± 9,9 % (Range 32 bis 72 %). Damit lagen alle Scores innerhalb der jeweiligen dreifachen Standardabweichung und somit waren keine Ausreißer auszuschließen.
Übersicht der erzielten Gesamtergebnisse
Die folgende Tabelle 3 zeigt die Übersicht der erzielten Testkennwerte für das Gesamtergebnis des praktischen Progress Tests.
Variable | Wert |
---|---|
Durchschnittlicher Gesamtscore | 0,39 |
Cronbachs Alpha | 0,83 |
Durchschnittlicher Schwierigkeitsindex | 0,39 |
Durchschnittlicher Diskriminationsindex | 0,30 |
Durchschnittlicher punktbiserialer Korrelationskoeffizient | 0,31 |
Durchschnittlicher modifizierter punktbiserialer Korrelationskoeffizient | 0,26 |
Die Bestimmung der notwendigen Zahl von Prüfungsfragen für die Mindestreliabilität von 0,8 ist somit aufgrund der erzielten Ergebnisse nicht notwendig.
Ergebnisse der Konzept-Subskalen
Im Vergleich der Subskalen der oben beschriebenen Konzepte mit dem (nicht parametrischen) Mann-Whitney-U-Test konnte ebenfalls jeweils ein signifikanter und großer Unterschied (nach Cohen 1988) zwischen den Studierenden beider Semester festgestellt werden (p jeweils ≤ 0,001, n = 110), siehe auch Abbildung 5.
Die folgende Tabelle 4 zeigt den Schwierigkeitsindex, die Trennschärfe-Indizes und die Reliabilität der in den Subskalen abgebildeten Konzepte.
Konzept | Cronbachs Alpha der Subgruppe | Durchschnittlicher Schwierigkeitsindex | Durchschnittlicher Diskriminationsindex | Durchschnittlicher punktbiserialer Korrelationskoeffizient | Durchschnittlicher modifizierter punktbiserialer Korrelationskoeffizient |
---|---|---|---|---|---|
Diagnose | 0,83 | 0,23 | 0,42 | 0,44 | 0,39 |
Therapie | 0,47 | 0,15 | 0,21 | 0,21 | 0,17 |
Kommunikation | 0,42 | 0,67 | 0,30 | 0,28 | 0,22 |
Data Literacy | 0,70 | 0,64 | 0,25 | 0,27 | 0,21 |
Hier zeigt sich, dass die Mindestreliabilität für die Konzepte Diagnose und (eingeschränkt) Data Literacy in den geforderten Bereichen liegen. Dagegen liegt Cronbachs \(\alpha\) für die Konzepte Kommunikation und Therapie im zu niedrigen Bereich von 0,42 bzw. 0,47. Bei Therapie fällt zudem der sehr niedrige durchschnittliche Schwierigkeitsindex auf.
Ergebnisse der Aufgaben
Häufigkeiten der gewählten Antwort-Optionen
Die tabellarische Darstellung mit der Bestimmung der Häufigkeiten der gewählten Antwort-Optionen für jede Aufgabe findet sich im Anhang (siehe Tabelle 6). Bemerkenswert ist, dass von den 11 auffälligen Fragen mehr als die Hälfte (sechs) aus dem Konzept-Bereich Therapie kommen. Drei weitere sind dem Konzept Diagnose, zwei aus dem Konzept Data Literacy. Wie schon bei der Betrachtung der Konzepte fällt auf, dass die hier auffälligen Fragen generell einen niedrigen Schwierigkeitsindex von 0,03 bis maximal 0,23 aufweisen (siehe nachfolgenden Abschnitt). Diese Aufgaben konnten also nur wenige Studierende lösen.
Berechnung der Aufgabenschwierigkeiten
Der Schwierigkeitsindex der Aufgaben liegt im Bereich von 0,03 bis 0,94, schöpft also fast das ganze Spektrum aus. Gut ein Drittel der Fragen (n = 17, 34 %) liegt dabei unter 0,2. Sechs Fragen lagen oberhalb von 0,8, so dass insgesamt 46 % der Fragen außerhalb des für Multiple-Choice-Tests empfohlenen Bereiches liegen.
Berechnung der Trennschärfe-Indizes für die einzelnen Aufgaben
In der folgenden Tabelle 5 werden die Trennschärfe-Indizes Diskriminationsindex, punktbiserialer Korrelationskoeffizient r und modifizierter punktbiserialer Korrelationskoeffizient r’ für jede Aufgabe dargestellt.
Frage-ID | Bezeichnung der Aufgabe | Konzept | Schwierigkeitsindex | Diskriminationsindex | Punktbiserialer Korrelationskoeffizient | Modifizierter punktbiserialer Korrelationskoeffizient |
---|---|---|---|---|---|---|
3 | Frage 1 | Diagnose | 0,20 | 0,29 | 0,30 | 0,24 |
4 | Frage 2 | Therapie | 0,19 | 0,38 | 0,41 | 0,36 |
5 | Frage 3 | Diagnose | 0,35 | 0,73 | 0,62 | 0,57 |
6 | Frage 4 | Diagnose | 0,22 | 0,41 | 0,51 | 0,46 |
7 | Frage 5 | Diagnose | 0,37 | 0,71 | 0,60 | 0,55 |
8 | Frage 6 | Therapie | 0,04 | 0,06 | 0,08 | 0,05 |
9 | Frage 7 | Therapie | 0,03 | 0,00 | −0,01 | −0,03 |
10 | Frage 8 | Therapie | 0,16 | 0,32 | 0,33 | 0,28 |
11 | Frage 9 | Therapie | 0,16 | 0,23 | 0,28 | 0,23 |
12 | Frage 10 | Therapie | 0,04 | 0,03 | 0,08 | 0,05 |
13 | Frage 11 | Therapie | 0,17 | 0,12 | 0,08 | 0,03 |
14 | Frage 12 | Diagnose | 0,34 | 0,50 | 0,43 | 0,37 |
15 | Frage 13 | Diagnose | 0,04 | 0,12 | 0,32 | 0,29 |
16 | Frage 14 | Diagnose | 0,20 | 0,23 | 0,27 | 0,22 |
17 | Frage 15 | Diagnose | 0,11 | 0,15 | 0,13 | 0,09 |
18 | Frage 16 | Diagnose | 0,26 | 0,44 | 0,50 | 0,45 |
19 | Frage 17 | Diagnose | 0,35 | 0,41 | 0,37 | 0,30 |
20 | Frage 18 | Therapie | 0,30 | 0,38 | 0,30 | 0,24 |
21 | Frage 19 | Therapie | 0,12 | 0,18 | 0,29 | 0,24 |
22 | Frage 20 | Therapie | 0,06 | 0,00 | −0,03 | −0,07 |
23 | Frage 21 | Kommunikation | 0,37 | 0,27 | 0,23 | 0,16 |
24 | Frage 22 | Data Literacy | 0,56 | 0,32 | 0,26 | 0,18 |
25 | Frage 23 | Data Literacy | 0,92 | 0,00 | 0,01 | −0,03 |
26 | Frage 24 | Data Literacy | 0,83 | 0,27 | 0,32 | 0,27 |
27 | Frage 25 | Data Literacy | 0,59 | 0,32 | 0,26 | 0,19 |
28 | Frage 26 | Data Literacy | 0,85 | 0,09 | 0,13 | 0,08 |
29 | Frage 27 | Kommunikation | 0,70 | 0,21 | 0,18 | 0,12 |
30 | Frage 28 | Diagnose | 0,18 | 0,38 | 0,40 | 0,35 |
31 | Frage 29 | Diagnose | 0,34 | 0,77 | 0,65 | 0,60 |
32 | Frage 30 | Therapie | 0,17 | 0,18 | 0,23 | 0,18 |
33 | Frage 31 | Diagnose | 0,19 | 0,47 | 0,54 | 0,50 |
34 | Frage 32 | Diagnose | 0,11 | 0,32 | 0,49 | 0,45 |
35 | Frage 33 | Kommunikation | 0,51 | 0,62 | 0,48 | 0,42 |
36 | Frage 34 | Data Literacy | 0,06 | 0,09 | 0,11 | 0,08 |
37 | Frage 35 | Data Literacy | 0,76 | 0,12 | 0,17 | 0,10 |
38 | Frage 36 | Data Literacy | 0,63 | 0,35 | 0,34 | 0,27 |
39 | Frage 37 | Data Literacy | 0,30 | 0,23 | 0,29 | 0,23 |
40 | Frage 38 | Data Literacy | 0,23 | 0,38 | 0,34 | 0,29 |
41 | Frage 39 | Kommunikation | 0,74 | 0,29 | 0,30 | 0,23 |
42 | Frage 40 | Diagnose | 0,28 | 0,41 | 0,43 | 0,37 |
43 | Frage 41 | Diagnose | 0,12 | 0,23 | 0,33 | 0,28 |
44 | Frage 42 | Diagnose | 0,22 | 0,50 | 0,54 | 0,49 |
45 | Frage 43 | Therapie | 0,37 | 0,59 | 0,52 | 0,47 |
46 | Frage 44 | Kommunikation | 0,74 | 0,29 | 0,26 | 0,19 |
47 | Frage 45 | Data Literacy | 0,74 | 0,47 | 0,47 | 0,42 |
48 | Frage 46 | Data Literacy | 0,84 | 0,41 | 0,43 | 0,39 |
49 | Frage 47 | Data Literacy | 0,76 | 0,29 | 0,32 | 0,26 |
50 | Frage 48 | Data Literacy | 0,74 | 0,23 | 0,29 | 0,22 |
51 | Frage 49 | Data Literacy | 0,83 | 0,21 | 0,26 | 0,20 |
52 | Frage 50 | Kommunikation | 0,94 | 0,12 | 0,23 | 0,19 |
Diskriminationsindex D
Hier zeigt sich, dass 36 von 50 Aufgaben einen Diskriminationsindex D von größer 0,2 aufweisen. Fast alle der Aufgaben mit niedrigem D liegen bezüglich ihres Schwierigkeitsindex außerhalb der üblichen Bandbreite von 0,4 bis 0,8 (12/13) bzw. 0,3 bis 0,9 (11/13) KORRIGIEREN !!! 0,2 bis 0,8.
Punktbiserialer Korrelationskoeffizient r
Modifizierter punktbiserialer Korrelationskoeffizient r’
17 der 50 Aufgaben weisen einen modifizierten punktbiserialen Pearson-Korrelationskoeffizient r’ von kleiner 0,2 auf. Hier stimmen 11 mit einem zu niedrigen Diskriminationindex überein. Zwei Aufgaben weisen eine bessere Bewertung als über den Diskriminationsindex und sechs Aufgaben eine schlechtere Bewertung auf. Insgesamt liegen aber 17 Aufgaben über der Grenze von 0,3, ab der Aufgaben sogar als “gut” eingeschätzt werden.
Abgeleitete Empfehlungen zu den Aufgaben
In der näheren Betrachtung der Antwort-Optionen deutet sich schon an, dass einzelne Aufgaben mit einem niedrigen Schwierigkeitsindex ein kritisches Antwortverhalten der Studierenden provozieren. Zur Erleichterung der Analyse wird deshalb der Schwierigkeitsindex zusammen mit den Trennschärfe-Indizes dargestellt.
Darstellung Schwierigkeitsindex vs. Trennschärfe der einzelnen Aufgaben
In der folgenden Abbildung Abbildung 6 wird für die einzelnen Aufgaben der Schwierigkeitsindex gegenüber dem Diskriminationsindex bzw. dem modifizierten punktbiserialen Pearson-Korrelationskoeffizient aufgetragen.
In den beiden Grafiken zeigt sich der schon zuvor dargestellte Zusammenhang. Fragen mit einem Schwierigkeitsindex zwischen 0,2 und 0,8 (gestrichelte Linien in der Grafik) weisen eine höhere Trennschärfe auf.
Bestimmung von “\(\alpha\) if deleted” für jede Aufgabe
Cronbachs \(\alpha\) ohne Einberechnung der jeweiligen Aufgabe lag immer bei 0,82-0,83, so dass keine Minderung der Gesamtreliabilität durch eine einzelne Aufgabe erkennbar ist.
Empfehlungen zur Aufgaben-Auswahl
Aus den Referenzwerten für die berechneten Kennwerte kann man Empfehlungen für das Behalten oder Weglassen von einzelnen Aufgaben für zukünftige Tests ableiten. Im Rahmen dieser Studie soll geschaut werden, ob sich bestimmte Muster erkennen lassen, die die Aufgabenerstellung für die nächsten Progress Tests leiten können.
So emmpfehlen Jorion et al. Aufgaben beizubehalten, wenn der Schwierigkeitsindex zwischen 0,2 und 0,8 liegt und der Diskriminationsindex größer als 0,2 ist [siehe 73]. Für die Bewertung einer Aufgabe wird ein Diskriminationsindex über 0,1 aber noch als akzeptabel gewertet. Allerdings weisen gut ein Drittel der Aufgaben einen modifizierten punktbiserialen Pearson-Korrelationskoeffizient r’ von kleiner 0,2 auf.
So wurden für die Empfehlungen zur Aufgaben-Auswahl Aufgaben mit einem Schwierigkeitsindex von kleiner 0,2 oder größer 0,8 identifiziert, die entweder einen Diskriminationsindex D von kleiner 0,1 oder einen modifizierten punktbiserialen Pearson-Korrelationskoeffizient r’ von kleiner 0,2 aufwiesen. Dies ist bei sechs (von insgesamt 12) Therapie-Aufgaben der Fall, die alle einen niedrigen Schwierigkeitsindex aufweisen. Auch drei Data Literacy-Aufgaben mit zweimalig zu niedrigem und einmalig zu hohem Schwierigkeitsindex fielen so auf. Aus den Konzepten Diagnose (zu schwierig) und Kommunikation (zu leicht) konnten jeweils eine weitere Aufgabe identifiziert werden.
Diskussion
In dieser Untersuchung konnte gezeigt werden, dass der an der Medizinischen Fakultät OWL eingeführte praktische Progress Test den Lernfortschritt der Studierenden im ersten Studienjahr messen kann. Der Anstieg des Gesamtscores deutet auf eine stetige Zunahme der praktischen Fertigkeiten hin, so wie in der Hypothese zur Studie dargestellt. Die Reliabilitäten des Gesamtergebnisses und der Subskalen für die Konzepte Diagnose und Data Literacy weisen die für zuverlässige Multiple-Choice-Tests erforderlichen Werte auf. Aus der Analyse der einzelnen Aufgaben lassen sich aber auch Hinweise für eine weitere Verbesserung dieses neuen Testformats entnehmen. So zeigt die Betrachtung der Aufgaben vor allem in dem Konzept Therapie mit der Trennschärfe Probleme, die mit einem niedrigen Schwierigkeitsindex einhergingen. Für die weitere Entwicklung des praktischen Progress Tests sollte dieser Aufgabentyp vereinfacht werden, damit die Zuverlässigkeit der Prüfungsergebnisse erhöht wird. Insgesamt sprechen die Ergebnisse also dafür, dass der praktische Progress Test ein reliables Instrument zur Messung des Lerneffekts in der medizinischen Ausbildung sein kann.
Die Steigerung des erzielten Gesamtscores der Studierenden in dem praktischen Progress Test von 30 auf 48 % entsprach einer Effektstärke Cohen’s d von 1,90, was auf eine sehr große Effektstärke hinweist. Es gibt bisher allerdings wenig Referenzwerte für die Effektstärken zum Lernen in der medizinischen Ausbildung. Im Allgemeinen bezieht sich die Lehrforschung häufig auf die von Cohen angegebenen Werte. In seiner einflussreichen Arbeit zur Power-Analyse [78] schlägt Cohen für den Vergleich von arithmetischen Mitteln eine Standardisierung der Effektstärken vor, indem er die Maßeinheit der abhängigen Variable durch die Standardabweichung der jeweiligen Population teilt (Cohen’s d genannt). Cohen selbst stellt in seinen Ausführungen klar, dass die Definitionen willkürlich sind und dass “die Gefahr besteht, dass sie missverstanden werden” ([78], S. 12). Cohen schlägt für eine mittelere Effektstärke einen Wert von d=0,5 vor (kleine Effektgröße: d=0,2, große Effektgröße: d=0,8) [78].
Gerade im Vergleich zu den bekannten Werten aus Progress Tests, die das Wissen der Studierenden testen, scheinen die hier gefundenen Werte sehr hoch zu sein. In einer selbst durchgeführten Studie an der Medizinischen Fakultät Münster [79] konnten wir ermitteln, dass die durchschnittliche Effektstärke für den Progress des Wissens in einem Studienjahr bei gut 0,5 liegt. Insgesamt konnten die Münsteraner Studierenden während der untersuchten Studienphase (1. bis 5. Studienjahr) den Anteil der richtig beantworteten Fragen von 16,6 % (Standardabweichung (SD): 10,8 %) auf 50,9 % (SD: 15,7 %) steigern. Wir konnten zeigen, dass der stärkste Zuwachs an medizinischem Grundwissen zwischen dem 1. und 2. Studienjahr (d=0,81), der stärkste Zuwachs an klinischem Wissen zwischen dem 2. und 3. Studienjahr (d =0,94) stattfindet, also immer zu Beginn der jeweiligen Art der Wissensvermittlung (an einer traditionellen Fakultät). Dies könnte auch für die Vermittlung von praktischen Fertigkeiten für die hier untersuchten Studierenden gelten, so dass die hohe Effektstärke von 1,90 evtl. im weiteren Studienverlauf absinken wird.
Interessanterweise wächst auch durch eine primär praktisch orientierte Ausbildung auch das medizinische Wissen weiter an. So konnten Raupach et al. eine Effektgröße der Wissenssteigerung von 0,87 im letzten Jahr oder “praktischen” Jahr des Studiums messen [80]. In dieser Phase durchlaufen Studierende verschiedene Krankenhausabteilungen. Man kann postulieren, dass die Studierenden in dieser Phase des Studium einen starken Anstieg in ihren praktischen Fertigkeiten haben und der Anstieg des Wissens nur ein “Nebeneffekt” ist. Dies ist z. B. auch für das medizinische Simulationstraining ein bekannter Effekt [9]. Dies unterstreicht zum einen die Bedeutung der Vermittlung praktischer Fertigkeiten für den Erwerb medizinischen Wissens, erklärt aber vielleicht ebenfalls die Größe des im praktischen Progress Test gemessenen Effekts.
Die gefundene Reliabilität für den praktischen Progress Test liegt mit einem Cronbachs \(\alpha\) von 0,83 im Bereich der von Jorion et al. als gut beschriebenen Werte [73]. Dies gilt auch für die von Tavalkol et al. [77] und Möltner et al. [50] vorgeschlagenen Interpretationen dieses zentralen Wertes. Um die hier gefundenen Ergebnisse mit denen von ähnlichen praktischen Prüfungen aus der Lehrforschung zu vergleichen, ist die Berechnung der Werte der jeweiligen Semesterkohorten notwendig. Auch die hier gefundene Mindestreliabilität (als Cronbachs \(\alpha\)) pro Semesterkohorte ist mit Werten von 0,71 für die Erstsemester und 0,85 für die Drittsemester besser als bei den meisten in der Lehrforschung publizierten OSCEs mit 0,66 (95-%-Konfidenzintervall 0,62–0,70) [51].
Für praktische Progress Tests ist eine hohe Reliabilität aus mehreren Gründen essenziell: Es geht dabei wie bei anderen Tests erst einmal um die korrekte Einordnung der Perfomance der Studierenden bei einer einzelnen Testteilnahme. Nur so können die Studierenden Rückschlüsse auf ihren aktuellen Lernstand im Sinne eines darauf auszurichtenden Lernverhaltens (Auswahl von Praktika, etc.) ziehen. Aber auch bei mehreren Testteilnahmen ist die Zuverlässigkeit der Messergebnisse hochgradig relevant, um den Lernfortschritt innerhalb eines bestimmten Zeitraums bestimmen zu können. Dafür ist die korrekte Messung des aktuellen Ausbildungsstandes der praktischen Fertigkeiten im Studienverlauf zu mehreren Messzeitpunkten nötig. Nur so kann für die individuellen Studierenden als auch für die Kohorte eine Perspektive in Richtung abschließender Staatsexamina erarbeitet werden.
Durch die Analyse der Reliabilitäten der Subskalen fielen allerdings die für die Konzepte Kommunikation und Therapie nicht ausreichenden Werte auf. Während sich die Werte für Kommunikation durch die geringe Aufgabenanzahl erklären lassen, ergaben sich für das Konzept Therapie erst durch die Analyse der einzelnen Aufgaben Hinweise für eine eventuelle Ursache. Hier zeigte immerhin die Hälfte der Aufgaben Probleme mit der Trennschärfe. Auffällig war der niedrige Schwierigkeitsindex der Aufgaben, der mit einem kritischen Antwortverhalten der Studierenden bezüglich der ausgewählten Antwortoptionen einherging. Die Aufgaben waren für die Studierenden in den ersten Semestern also zu schwierig. Obwohl hier ein Verbesserung der Studierenden im Studienverlauf zu erwarten ist, ist für die Durchführung eines praktischen Progress Tests eine Vereinfachung dieses Aufgabentyps anzuraten, um auch in den ersten Semestern eine Lernkurve darstellen zu können. Da medizinische Therapien sehr komplex werden können, ist auch bei einer Anpassung des Schwierigkeitsindex kein Deckeneffekt im weiteren Studienverlauf zu erwarten.
Gerade für eine neu gegründete Fakultät ist ein gut gemachtes Qualitätsmanagement der Lehre sehr wichtig, um die Studierenden zu einem erfolgreichen Studienabschluss zu führen. Um die Lehrleistung messen zu können, ist es notwendig, glaubwürdige Daten zu gewinnen. Zur Beurteilung der Lehrleistung im Medizinstudium werden daher häufig studentische Lehrevaluationen herangezogen. Sie sind einfach und kostengünstig durchzuführen und daher weit verbreitet. Es gibt inzwischen viele Studien zu Lehrveranstaltungsevaluationen, was die Durchführung von sog. Meta-Analysen zu entsprechenden Multisektions-Studien erlaubt. Es hat sich jedoch herausgestellt, dass die in den 1980er Jahren festgestellte positive Korrelation zwischen Lehrveranstaltungsbewertungen und der Effektivität der Hochschullehre [81] aufgrund verbesserter Meta-Analysetechniken und der wachsenden Datenmenge nicht mehr haltbar ist. Uttl et al. haben zeigen können [82], dass alle bisher beschriebenen Korrelationskoeffizienten nahezu auf Null sinken (r=0,09), wenn man die künstliche Verzerrung durch falsche Gewichtung der Ergebnisse von kleinen Studien und Ausreißern korrigiert. Es muss daher davon ausgegangen werden, dass Lehrveranstaltungsevaluationen vermutlich nicht geeignet sind, zuverlässige Aussagen über die Effektivität der Lehre von Hochschullehrenden zu treffen. So drängen sich Progress Tests als Alternative auf. Wenn es gelingt, dieses Testformat noch weiter zu verbessern, stehen den medizinischen Fakultäten zuverlässige und aussagekräftige Daten zu ihrer Lehre zur Verfügung.
Limitationen
Bei Betrachtung der hier vorgelegten Ergebnisse ist wichtig, einen möglichen Einfluss des Studienrahmens auf die Interpretation und Anwendbarkeit der Ergebnisse zu beachten. Durch die Auswahl von Studierenden aus dem 1. und 3. Semester sind die Ergebnisse nicht automatisch auf das ganze Medizinstudium anwendbar. Der hier dargestellte Progress in praktischen Fertigkeiten muss sich nicht so in die Zukunft fortsetzen. Es ist eher ein Absinken des Progresses erwartbar. Auch die Auswahl einer Studienpopulation aus einem Modellstudiengang schränkt die Anwendbarkeit der Ergebnisse für z. B. traditionelle Studiengänge stark ein. So sind weitere Studien nötig, bis zuverlässige Ergebnisse zur Anwendbarkeit von praktischen Progress Tests vorhanden sind.
Schlussfolgerung
Die Ergebnisse der hier vorgelegten Untersuchung sprechen dafür, dass der praktische Progress Test ein reliables Instrument zur Messung der medizinisch-praktischen Ausbildung sein kann. Perspektivisch können die gefundenen Ergebnisse im praktischen Progress Test dazu dienen, die in Zukunft wahrscheinlich stattfindenden praktischen Stations-Prüfungen in den Staatsexamina entsprechend zu gestalten. Auch in den Staatsexamina muss die Reliabilität für eine gerechte Prüfung hoch sein, so dass ausreichende Erfahrungen für eine in diesem Sinne erfolgreiche Prüfungsgestaltung vonnöten sind.
Insgesamt kann gezeigt werden, dass der für die Zukunft der medizinischen Ausbildung formulierte Anspruch, dass sich Prüfungen von einem ‘assessment of learning’ zu einem ‘assessment for learning’ weiterentwickeln sollten [83], mit Hilfe von (praktischen) Progress Tests angegangen werden kann. Allerdings ist auch klar, dass eine gute Beurteilung eine Vielzahl von Prüfungsmethoden erfordert, da keine einzelne Methode die gesamte medizinische Kompetenz von Medizinstudierenden oder Ärzt*innen erfassen kann [84].
Anhang
Ethikvotum
Abstract auf der GMA 2022
Bestimmung der Häufigkeiten der Einzelantworten
Frage-Nr. | Titel | Antwort | Konzept | Anteil der gewählten Antwort (in Prozent) | |||||
---|---|---|---|---|---|---|---|---|---|
? | a | b | c | d | e | ||||
3 | Frage 1 | d | Diagnose | 41,82 | 6,36 | 11,82 | 14,55 | 20,00 | 5,45 |
4 | Frage 2 | b | Therapie | 38,18 | 37,27 | 19,09 | 0,00 | 0,91 | 4,55 |
5 | Frage 3 | a | Diagnose | 52,73 | 35,45 | 0,91 | 1,82 | 6,36 | 2,73 |
6 | Frage 4 | c | Diagnose | 43,64 | 10,00 | 16,36 | 21,82 | 7,27 | 0,91 |
7 | Frage 5 | e | Diagnose | 44,55 | 9,09 | 4,55 | 4,55 | 0,00 | 37,27 |
8 | Frage 6 | b | Therapie | 41,82 | 11,82 | 3,64 | 38,18 | 4,55 | 0,00 |
9 | Frage 7 | c | Therapie | 24,55 | 60,00 | 2,73 | 2,73 | 9,09 | 0,91 |
10 | Frage 8 | a | Therapie | 50,91 | 16,36 | 10,00 | 10,00 | 6,36 | 6,36 |
11 | Frage 9 | c | Therapie | 50,00 | 0,91 | 3,64 | 16,36 | 0,91 | 28,18 |
12 | Frage 10 | c | Therapie | 66,36 | 10,00 | 13,64 | 3,64 | 5,45 | 0,91 |
13 | Frage 11 | b | Therapie | 39,09 | 2,73 | 17,27 | 9,09 | 1,82 | 30,00 |
14 | Frage 12 | e | Diagnose | 41,82 | 10,91 | 3,64 | 3,64 | 5,45 | 34,55 |
15 | Frage 13 | d | Diagnose | 42,73 | 19,09 | 9,09 | 10,00 | 4,55 | 14,55 |
16 | Frage 14 | e | Diagnose | 64,55 | 2,73 | 10,00 | 0,00 | 2,73 | 20,00 |
17 | Frage 15 | b | Diagnose | 45,45 | 8,18 | 10,91 | 24,55 | 5,45 | 5,45 |
18 | Frage 16 | e | Diagnose | 46,36 | 0,00 | 15,45 | 3,64 | 9,09 | 25,45 |
19 | Frage 17 | e | Diagnose | 32,73 | 3,64 | 10,00 | 1,82 | 16,36 | 35,45 |
20 | Frage 18 | c | Therapie | 33,64 | 14,55 | 5,45 | 30,00 | 16,36 | 0,00 |
21 | Frage 19 | c | Therapie | 59,09 | 9,09 | 5,45 | 11,82 | 6,36 | 8,18 |
22 | Frage 20 | b | Therapie | 35,45 | 22,73 | 5,45 | 15,45 | 20,91 | 0,00 |
23 | Frage 21 | c | Kommunikation | 10,91 | 6,36 | 18,18 | 37,27 | 14,55 | 12,73 |
24 | Frage 22 | c | Data Literacy | 3,64 | 20,91 | 3,64 | 55,45 | 16,36 | 0,00 |
25 | Frage 23 | b | Data Literacy | 0,91 | 0,91 | 91,82 | 1,82 | 4,55 | 0,00 |
26 | Frage 24 | c | Data Literacy | 2,73 | 10,00 | 1,82 | 82,73 | 2,73 | 0,00 |
27 | Frage 25 | d | Data Literacy | 4,55 | 35,45 | 0,91 | 0,00 | 59,09 | 0,00 |
28 | Frage 26 | b | Data Literacy | 3,64 | 1,82 | 85,45 | 3,64 | 5,45 | 0,00 |
29 | Frage 27 | e | Kommunikation | 4,55 | 21,82 | 3,64 | 0,00 | 0,00 | 70,00 |
30 | Frage 28 | a | Diagnose | 40,91 | 18,18 | 1,82 | 5,45 | 2,73 | 30,91 |
31 | Frage 29 | d | Diagnose | 39,09 | 1,82 | 15,45 | 7,27 | 33,64 | 2,73 |
32 | Frage 30 | d | Therapie | 67,27 | 3,64 | 2,73 | 5,45 | 17,27 | 3,64 |
33 | Frage 31 | d | Diagnose | 43,64 | 10,91 | 1,82 | 12,73 | 19,09 | 11,82 |
34 | Frage 32 | e | Diagnose | 79,09 | 3,64 | 2,73 | 1,82 | 1,82 | 10,91 |
35 | Frage 33 | a | Kommunikation | 26,36 | 50,91 | 5,45 | 1,82 | 12,73 | 2,73 |
36 | Frage 34 | d | Data Literacy | 17,27 | 20,00 | 46,36 | 4,55 | 5,45 | 6,36 |
37 | Frage 35 | a | Data Literacy | 7,27 | 76,36 | 10,91 | 0,00 | 5,45 | 0,00 |
38 | Frage 36 | b | Data Literacy | 10,91 | 16,36 | 62,73 | 5,45 | 4,55 | 0,00 |
39 | Frage 37 | a | Data Literacy | 14,55 | 30,00 | 40,91 | 8,18 | 6,36 | 0,00 |
40 | Frage 38 | a | Data Literacy | 20,91 | 22,73 | 16,36 | 23,64 | 16,36 | 0,00 |
41 | Frage 39 | e | Kommunikation | 13,64 | 3,64 | 2,73 | 1,82 | 4,55 | 73,64 |
42 | Frage 40 | c | Diagnose | 47,27 | 13,64 | 8,18 | 28,18 | 2,73 | 0,00 |
43 | Frage 41 | a | Diagnose | 68,18 | 11,82 | 3,64 | 9,09 | 3,64 | 3,64 |
44 | Frage 42 | e | Diagnose | 57,27 | 3,64 | 11,82 | 5,45 | 0,00 | 21,82 |
45 | Frage 43 | a | Therapie | 40,00 | 37,27 | 5,45 | 4,55 | 6,36 | 6,36 |
46 | Frage 44 | b | Kommunikation | 6,36 | 0,00 | 74,55 | 3,64 | 10,91 | 4,55 |
47 | Frage 45 | b | Data Literacy | 10,91 | 7,27 | 74,55 | 1,82 | 3,64 | 1,82 |
48 | Frage 46 | d | Data Literacy | 8,18 | 0,00 | 1,82 | 2,73 | 84,55 | 2,73 |
49 | Frage 47 | a | Data Literacy | 0,91 | 75,45 | 20,91 | 2,73 | 0,00 | 0,00 |
50 | Frage 48 | a | Data Literacy | 5,45 | 73,64 | 19,09 | 1,82 | 0,00 | 0,00 |
51 | Frage 49 | a | Data Literacy | 2,73 | 82,73 | 8,18 | 4,55 | 1,82 | 0,00 |
52 | Frage 50 | d | Kommunikation | 1,82 | 0,00 | 4,55 | 0,00 | 93,64 | 0,00 |