Dokument: Untersuchungen zur Optionsgewichtung als Methode für die Erfassung von Teilwissen in Multiple-Choice-Tests

Titel:

Untersuchungen zur Optionsgewichtung als Methode für die Erfassung von Teilwissen in Multiple-Choice-Tests

Weiterer Titel:

Investigations of option weighting as a method to assess partial knowledge in multiple-choice tests

URL für Lesezeichen:

https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=37617

URN (NBN):

urn:nbn:de:hbz:061-20160317-101717-0

Kollektion:

Dissertationen

Sprache:

Deutsch

Dokumententyp:

Wissenschaftliche Abschlussarbeiten » Dissertation

Medientyp:

Text

Autor:

Diedenhofen, Birk [Autor]

Dateien:

[Dateien anzeigen]	Adobe PDF
[Details]	3,27 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 16.03.2016 / geändert 16.03.2016

Beitragende:

Prof. Dr. Musch, Jochen [Gutachter]
Prof. Dr. Buchner, Axel [Gutachter]

Dewey Dezimal-Klassifikation:

100 Philosophie und Psychologie » 150 Psychologie

Beschreibungen:

Multiple-Choice-Tests werden üblicherweise nach der Anzahl-Korrekt-Auswertung bepunktet, bei der 1 Punkt für die Wahl der richtigen Antwortoption und 0 Punkte für die Wahl eines Distraktors vergeben werden. Diese Auswertung des Multiple-Choice-Testformats wurde jedoch vielfach kritisiert, da keine Teilpunkte gewährt werden und nützliche Informationen über das Teilwissen der Testteilnehmer unberücksichtigt bleiben. Die Optionsgewichtung ist ein alternatives Auswertungsverfahren für Multiple-Choice-Tests, das für jede Antwortoption eines Items ein spezifisches Gewicht vergibt. Der Testscore eines Testteilnehmers berechnet sich aus der Summe der Optionsgewichte aller im Test ausgewählter Antwortoptionen. Diese individuelle Bepunktung der Antwortoptionen ermöglicht es, Teilpunkte auch für die Wahl eines Distraktors zu vergeben, wenn dieser Teilwissen widerspiegelt. Die Optionsgewichtung kann damit potenziell mehr Informationen aus einem einzelnen Item gewinnen als eine konventionelle Anzahl-Korrekt-Auswertung. Optionsgewichte lassen sich einerseits empirisch über die punkt-biseriale Korrelation zwischen den Optionswahlen und den Scores der Testteilnehmer ermitteln; andererseits können Optionsgewichte von Experten auf dem Gebiet des Tests bestimmt werden.

Bisherige korrelative Studien fanden, dass die empirische Optionsgewichtung die Reliabilität eines Multiple-Choice-Tests gegenüber einer Anzahl-Korrekt-Auswertung verbesserte. Hinsichtlich der Validität blieb die Befundlage jedoch unklar. In Studie 1 der vorliegenden Arbeit wurde zum ersten Mal ein experimenteller Ansatz zur Validierung der empirischen Optionsgewichtung verfolgt. Als Außenkriterium wurden dazu unter den Studienteilnehmern unterschiedliche Wissensstände induziert, indem die Teilnehmer Sachtexte zu einem unvertrauten Thema lasen, deren Informationsgehalt zwischen drei Experimentalgruppen variierte. Die Teilnehmer aller drei Gruppen absolvierten anschließend den gleichen Wissenstest über die Inhalte der Sachtexte und beantworteten Multiple-Choice-Items, deren Antwortoptionen unterschiedlich viel Wissen zur Bewertung ihrer Korrektheit erforderten. Im Vergleich zur konventionellen Anzahl-Korrekt-Auswertung verbesserte die empirische Optionsgewichtung sowohl die Reliabilität als auch die Validität des Wissenstests.

Frühere Studien zu der Frage, ob Optionsgewichte empirisch oder auf der Grundlage von Expertenurteilen bestimmt werden sollten, lieferten kein schlüssiges Befundmuster. In den Untersuchungen wurde bei der Evaluation der empirischen Optionsgewichtung allerdings nur eine einzige Stichprobenteilung zur Kreuzvalidierung durchgeführt, ohne zu berücksichtigen, welchen Einfluss die Teilung der Stichprobe auf die Ergebnisse hatte. Die Wahl, welche der vielen möglichen Stichprobenteilungen ausgewertet und berichtet wird, muss jedoch als Forscherfreiheitsgrad (researcher degree of freedom; Simmons, Nelson, & Simonsohn, 2011) betrachtet werden. Zum Vergleich der beiden Optionsgewichtungsverfahren untereinander und mit einer Anzahl-Korrekt-Auswertung, kam aus diesem Grund in Studie 2 erstmalig, neben einer konventionellen Analyse, eine wiederholte randomisierte Substichproben-Validierung zum Einsatz, bei der die Resultate von 10,000 Stichprobenteilungen aggregiert wurden. Die Ergebnisse der konventionellen Analyse hingen stark von der vorgenommenen Teilung der Stichprobe ab. Die über viele Stichprobenteilungen aggregierten Ergebnisse der Substichproben-Validierung ergaben dagegen eindeutig, dass die empirischen Optionsgewichte – im Gegensatz zu Experten-Optionsgewichten – die Testgüte eines Wissenstests im Vergleich zur Anzahl-Korrekt-Auswertung erhöhten. Die Verbesserung beschränkte sich jedoch auf die Reliabilität des Tests.

Zusammengenommen legen die Ergebnisse der vorliegenden Arbeit nahe, dass Optionsgewichte neben der Reliabilität auch potenziell die Validität von Multiple-Choice-Tests verbessern können, wenn die Distraktoren der Items zwischen unterschiedlichen Fähigkeitsniveaus differenzieren. Anstatt Experten zu befragen, sollten Optionsgewichte empirisch bestimmt werden. Auf Wissensinduktion basierende experimentelle Validierungsmethoden werden als Verbesserung bisheriger korrelativer Ansätze empfohlen. Zukünftige Evaluationen der empirischen Optionsgewichtung sollten Kreuzvalidierungsmethoden einsetzen, die über eine Vielzahl von Stichprobenteilungen aggregieren. Da die meisten gängigen Statistikprogramme die Durchführung von Signifikanztests für abhängige und unabhängige Cronbach-Alpha-Koeffizienten sowie die Durchführung von Signifikanztests für abhängige und unabhängige Korrelationen nicht unterstützen, wurden im Rahmen der Arbeit R-Pakete und leicht benutzbare Web-Interfaces entwickelt, die frei zur Verfügung gestellt werden.

Multiple-choice tests are generally scored using number-right scoring by awarding 1 point for choosing the correct answer and 0 points for choosing a distractor. This scoring procedure for the multiple-choice test format has often been criticized for not granting partial credit and for leaving out valuable information on the test takers' partial knowledge. Option weighting is an alternative scoring procedure for multiple-choice tests that assigns individual weights to each answer option. The score of a test taker is calculated by summing the option weights of all answer options that were selected in the test. This individual scoring of answer options allows granting partial credit for the choice of a distractor if it reflects partial knowledge. Option weighting captures potentially more information from a single item than conventional number-right scoring. Option weights may be determined empirically by calculating the point-biserial correlation between the option choices and scores of the test takers; alternatively, option weights can be assigned by experts in the domain of the test.

Extant correlational studies found that empirical option weighting improved test reliability in comparison to number-right scoring. With regard to validity, results were however ambiguous. Study 1 of the present thesis pursued the first experimental approach to validate empirical option weighting. As an external criterion, different levels of knowledge were induced among three groups of participants by presenting essays about an unfamiliar topic with varying amounts of information. Subsequently, participants in all three groups completed the same knowledge test covering the content of the essays, and responded to multiple-choice items with answer options that required different amounts of knowledge to assess their correctness. Compared to conventional number-right scoring, empirical option weighting improved the reliability and validity of the knowledge test.

Results of previous studies that investigated whether option weights should be determined empirically or on the basis of expert judgements remained inconclusive. When evaluating empirical option weights, however, the studies performed only a single sample split for cross-validation, without considering the influence of the sample split on the results. Moreover, the decision which of the many sample splits is evaluated and reported must be considered a researcher degree of freedom (Simmons, Nelson, & Simonsohn, 2011). For this reason, to compare both option weighting procedures with each other and with number-right scoring, a repeated randomized subsampling validation was conducted in Study 2 that aggregated the results of 10,000 sample splits, in addition to a conventional analysis. The results of the conventional analysis strongly depended on the sample split that was performed. In contrast, the subsampling validation that aggregated the results of many sample splits clearly showed that empirical option weights – rather than expert option weights – improved the psychometric properties of a knowledge test in comparison with number-right scoring. This improvement was, however, limited to the reliability of the test.

Taken together, the results of the present thesis suggest that option weighting may improve not only the reliability but also potentially the validity of a multiple-choice test if the distractors of the items differentiate between different ability levels. Instead of consulting experts, options weights should be determined empirically. Experimental validations based on the induction of knowledge are recommended as an improvement over correlational validation approaches. Future evaluations of empirical option weighting should use cross-validation procedures that aggregate across many sample splits. Most of the conventional statistical software packages support neither significance tests for dependent or independent correlations, nor significance tests for dependent or independent internal consistencies according to Cronbach. R software packages and easy-to-use web interfaces supporting such tests were therefore developed and made freely available.

Lizenz:

Urheberrechtsschutz

Fachbereich / Einrichtung:

Mathematisch- Naturwissenschaftliche Fakultät » WE Psychologie » Diagnostik und Differentielle Psychologie

Dokument erstellt am:

17.03.2016

Dateien geändert am:

17.03.2016

Promotionsantrag am:

21.12.2015

Datum der Promotion:

26.01.2016

Heinrich-Heine-Universität Düsseldorf

Dokument: Untersuchungen zur Optionsgewichtung als Methode für die Erfassung von Teilwissen in Multiple-Choice-Tests