Dokument: Wissensdiagnostik mit Multiple-Choice und Multipler Evaluation - ein Vergleich logarithmischer und linearer Auswertefunktionen
Titel: | Wissensdiagnostik mit Multiple-Choice und Multipler Evaluation - ein Vergleich logarithmischer und linearer Auswertefunktionen | |||||||
Weiterer Titel: | Assessment of knowledge with multiple choice and multiple evaluation-a comparison of logarithmic and linear scoring functions | |||||||
URL für Lesezeichen: | https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=19989 | |||||||
URN (NBN): | urn:nbn:de:hbz:061-20111212-111237-3 | |||||||
Kollektion: | Dissertationen | |||||||
Sprache: | Deutsch | |||||||
Dokumententyp: | Wissenschaftliche Abschlussarbeiten » Dissertation | |||||||
Medientyp: | Text | |||||||
Autor: | Dipl. Psych. Enders, Heidi [Autor] | |||||||
Dateien: |
| |||||||
Beitragende: | Prof. Dr. Musch, Jochen [Gutachter] Prof. Dr. Bayen, Ute J. [Gutachter] | |||||||
Stichwörter: | Multiple-Choice, Multiple Evaluation, Wissensdiagnositik, admissible Auswertefunktionen, logarithmische Auswertefunktionen, lineare Auswertefunktion/ multiple choice, multiple evaluation, assessment of knowledge, admissible scoring functions, logarithmic scoring functions, linear scoring function | |||||||
Dewey Dezimal-Klassifikation: | 100 Philosophie und Psychologie » 150 Psychologie | |||||||
Beschreibungen: | Das Multiple-Choice-Verfahren ermöglicht eine objektive Messung von Wissen und eine ökonomische Auswertung. Insbesondere bei schwierigen Items können jedoch Rateprozesse die Varianz in den beobachtbaren Testwerten erhöhen, und wichtige diagnostische Information geht verloren, wenn Teilwissen nicht erfasst wird. Bei der Multiplen Evaluation wird das Wissen der Testteilnehmer differenzierter erfasst, indem ihre Antwortsicherheit bezüglich sämtlicher Antwortoptionen erfragt wird (Dirkzwager, 2003). Dabei kann durch den Einsatz von logarithmischen Auswertefunktionen und Strafzahlungen sichergestellt werden, dass ein Teilnehmer sein Testergebnis nur maximieren kann, wenn er seine Antwortsicherheit unverfälscht berichtet (Shuford, Albert & Massengill, 1966). In drei Experimenten wurde die Frage untersucht, ob das Verfahren der Multiplen Evaluation eine bessere Wissensdiagnostik ermöglicht als das Multiple-Choice-Verfahren.
Im ersten Experiment zeigte sich, dass die Multiple Evaluation zu einer gegenüber dem Multiple-Choice-Verfahren erhöhten Reliabilität führte. Dies war auch dann noch der Fall, wenn dem Testteilnehmer die logarithmische Auszahlungsfunktion lediglich vorab kommuniziert wurde, ohne dass eine itemspezifische Rückmeldung über die Punktauszahlungen erfolgte. Darüber hinaus zeigte sich, dass die erzielte Reliabilitätsverbesserung nicht an die zwar differenziertere, dafür aber auch zeitintensivere Erfassung der Antwortsicherheit mithilfe von Schiebereglern geknüpft war. Vielmehr verbesserte sich die Reliabilität bereits bei einer Erfassung der Antwortsicherheit mithilfe eines einzelnen Mausklicks. Dazu wurde ein Antwortdreieck verwendet, welches eine Auswahl aus einer diskreten Menge von 16 Antwortkategorien zur simultanen Erfassung der Antwortsicherheit in drei zur Verfügung stehenden Antwortoptionen ermöglichte. Das Ergebnismuster legt nahe, dass ein Reliabilitätszugewinn mithilfe der Multiplen Evaluation nicht auf computergestützte Testungen beschränkt sein muss. Im zweiten Experiment zeigte sich, dass logarithmische Auswertefunktionen mit zu hohen Strafzahlungen sowohl die Reliabilität als auch die Validität von Tests mit Multipler Evaluation beeinträchtigen. Die höchste Reliabilität und Validität wurde mit der Multiplen Evaluation unter Verwendung einer linearen Auswertefunktion beobachtet, die gar keine Strafpunkte vorsah. Im dritten Experiment wurde der Einfluss der Anzahl der Antwortoptionen auf die Reliabilität und die Validität der konkurrierenden Antwortprozeduren untersucht. Bei beiden Verfahren verschlechterte sich die Reliabilität, nicht jedoch die Validität mit kleiner werdender Zahl der Antwortoptionen. In allen Experimenten wurde die Güte der Kalibrierung der Teilnehmer mithilfe eines Realismusindex beurteilt (Holmes, 2002). Durch eine nachträgliche Korrektur der Antwortsicherheiten auf der Basis dieses Index konnte die Reliabilität signifikant verbessert werden. Eine Verbesserung auch der Validität zeigte sich, wenn die Auswertung mithilfe einer logarithmischen Funktion erfolgte, die hohe Strafzahlungen vorsah. Zusammenfassend belegen die Ergebnisse, dass die Qualität der Wissensdiagnostik durch den Einsatz der Multiplen Evaluation vor allem bei schwierigen Items und unter Verwendung von linearen Auswertefunktionen oder logarithmischen mit nicht zu hohen Strafzahlungen verbessert werden kann.Multiple choice techniques permit an objective measurement of knowledge and an economic scoring. Especially for difficult items guessing procedures can, however, increase the variance in the observed test values, and important diagnostic information gets lost when partial knowledge is not captured. With multiple evaluation the knowledge of a participant is captured more precisely by asking for his percentage confidence for each possible answer (Dirkzwager, 2003). Through the use of logarithmic scoring functions and penalty payments it can be ensured that a participant can only maximize his test result if he makes an unbiased demonstration of his confidence percentages (Shuford, Albert & Massengill, 1966). In three experiments it was investigated whether multiple evaluation offers a better assessment of knowledge than multiple choice. The first experiment showed that the multiple evaluation procedure led to a higher reliability than multiple choice. This was also true when a logarithmic scoring function was used without providing feedback about the item specific scores and penalties beforehand. In addition it was observed that an increase in reliability was not linked to the differentiated, though time-consuming, capturing of confidences by means of sliders. Indeed, the reliability already increased when capturing confidences by a single mouse click. For that purpose an answer triangle was used, which offered a discrete number of 16 answer categories for simultaneously capturing confidences in all three possible answers. The resulting pattern suggests that increasing the reliability using multiple evaluation is not necessarily limited to a computer based assessment. The second experiment showed that exceedingly high penalty payments in logarithmic scoring functions reduce both the reliability and the validity of a test with multiple evaluation. The highest reliability and validity were observed with a linear scoring function that does not provide for any penalty payments. In the third experiment the influence of the number of possible answers on the reliability and validity of both competing answer techniques was investigated. With a decreasing number of possible answers in both procedures the reliability decreased whereas the validity was not affected. In all experiments the participants´ level of calibration was judged by an individual realism index (Brown & Shuford, 1973; Holmes, 2002). The reliability was improved significantly by an a posteriori correction of the confidences based on this index. The validity was improved, too, if the scoring used a logarithmic function with high penalty payments. In conclusion, the results prove that the quality of the assessment of knowledge especially for difficult items can be improved by using multiple evaluation together with linear or logarithmic scoring functions with moderate penalty payments. | |||||||
Lizenz: | Urheberrechtsschutz | |||||||
Fachbereich / Einrichtung: | Mathematisch- Naturwissenschaftliche Fakultät » WE Psychologie » Diagnostik und Differentielle Psychologie | |||||||
Dokument erstellt am: | 12.12.2011 | |||||||
Dateien geändert am: | 12.12.2011 | |||||||
Promotionsantrag am: | 15.09.2011 | |||||||
Datum der Promotion: | 11.11.2011 |