ChatGPT für Bewertung von Klausuren

Im Rahmen meines Lehrauftrages habe ich die Aufgabe eine Vorlesung zu halten und im Anschluss eine Prüfung durchzuführen, um die Leistung der Studierenden abzunehmen.

Eine gute Prüfung soll laut ChatGPT transparent, fair und objektiv sein. Den Anspruch an Transparenz und Fairness bin ich nachgegangen, indem die Studierenden bereits im Vornherein über eine Eingrenzung und Übungsaufgaben über mögliche Prüfungsinhalte informiert wurden. Meine Prüfung fand in Form einer digitalen Prüfung statt und bei der Prüfung sehe ich keine Namen der Studierenden. Ein Vorurteil basierend auf unleserlicher Schrift und ausländischen Namen wird damit verringert.

Der Anspruch an Objektivität ist nicht einfach. Jede Bewertung baut auf subjektive Erfahrungen auf. Ich habe meine Prüfung abgeschlossen und habe im Anschluss auch ein wenig ChatGPT in die Prüfung meiner Bewertung hinzugezogen. Dadurch gehe ich auch mit meiner eigenen Bewertung kritisch um und kann die Möglichkeiten von ChatGPT erkunden. ChatGPT hat dabei erstaunliche Ergebnisse geliefert. In diesem Blogpost möchte ich meine Erfahrung mit echten Prüfungsinhalten teilen.

Die Vorlesung

Meine Vorlesung besteht aus einem praktischen und theoretischen Teil. Soweit möglich begleitet die Praxis immer die Theorie, da wir eine angewandte Hochschule sind. In diesem Semester habe ich bei meiner Informationssicherheit Vorlesung parallel zur Vorlesung ein Capture-The-Flag mit dem Kurs durchgeführt. Es war für mich sehr spannend und auch die Fragen der Studierenden haben deutlich gemacht, dass es positiv empfangen wurde. Die vollständige Vorlesung wurde aufgenommen und steht den Studierenden auch im Nachgang als Video zur Verfügung.

Die Prüfung

Für mich ist es sehr wichtig, dass meine Prüfung fair ist. Meine Studierenden dürfen ihre Antworten digital in einer Online-Prüfung angeben. Die Prüfungsfragen bestehen aus einem Katalog möglicher Fragen. Aus diesen Fragen werden zufällig Fragen ausgewählt, sodass die nötige Maximalpunktzahl erreicht wird. Im Vornherein findet eine Themenabgrenzung statt und Studierende haben Zugriff auf Kontrollfragen und Übungsaufgaben, die bereits in Übungen und Vorlesungen behandelt wurden.

Prüfungsfragen und ChatGPT

Ich habe die Prüfung erst vollständig kontrolliert, mir ein paar besondere Frage/Antwort Kombinationen gemerkt, und im Anschluss ChatGPT gefragt. Falls ChatGPT den Studierenden korrekterweise besser bewertet hat, als ich, habe ich dem Studierenden den Punkt gegeben. Falls ChatGPT den Studierenden korrekterweise schlechter bewertet hat als ich, habe ich nicht zuwider dem Studierenden Punkte abgezogen. Das heißt, ChatGPT konnte immer nur Punkte zugunsten des Studierenden verbessern. Alle Aufgaben werden mit maximal zwei Punkten bewertet. Im Folgenden sind ein paar Beispielfragen.

Frage 1

Was sind Kollisionen im Kontext von kryptografischen Hashfunktionen?

Eine Kollision liegt dann vor, wenn verschiedene Eingangsdaten auf den selben Hashwert abbilden. Mehr wollte ich als Antwort nicht hören.

Ich habe bei einem Studierenden die Frage mit 0 von 2 Punkten bewertet, weil ich der Ansicht bin, dass der Studierende das Konzept nicht verstanden hat.

ChatGPT hat exakt mit der selben Begründung keine Punkte für diese Antwort vergeben.

Frage 2

Was sind digitale Signaturen? Was ist der Unterschied zwischen Signierung und asymmetrischer Verschlüsselung? (2-3 Sätze)

Bei vielen Fragen ist es für die volle Punktzahl ausreichend, wenn einfach nur Stichpunktartig antwortet. In dieser Frage ist sogar der Umfang angegeben, der erreicht werden muss. Das heißt, es reichen Stichpunkte nicht mehr aus und ich möchte ein wenig Details hören.

Ein Studierender hat diese Frage teilweise korrekt beantwortet, mir fehlten aber noch ein paar entscheidende Aspekte. Daher habe ich dem Studierenden 1 von 2 Punkten vergeben.

ChatGPT hat diesen fehlenden Aspekt korrekt erkannt und hat die Frage ebenfalls mit einem Punkt bewertet.

Frage 3

Welche Vor- und Nachteile haben Public-Key Authentisierungsverfahren? (2 Vorteile und 2 Nachteile)

Bei dieser Frage reichten für eine korrekte Lösung eigentlich nur Stichpunkte. Es gibt natürlich immer Potenzial nach oben, aber in einer Prüfung hat man nicht die Zeit dafür und muss bündig antworten. Ein Studierender hat meiner Meinung nach korrekt geantwortet.

Hier hat jedoch ChatGPT aufgrund fehlender Präzision und Vollständigkeit einen halben Punkt abgezogen. Seine Begründung wäre vermutlich korrekt, wenn der erwartete Umfang der Antwort größer wäre. In diesem Falle habe ich jedoch anders entschieden und zugunsten des Studierenden mehr Punkte vergeben.

Frage 4

Ist das Diffie-Hellman Verfahren manipulationssicher? Wenn ja, warum? Wenn nein, warum nicht?

Egal ob der Studierende hier mit Ja oder Nein antwortet (je nach Perspektive kann beides korrekt sein). Ich wollte einfach nur „Man-In-The-Middle“ irgendwo in der Antwort hören, um eine volle Punktzahl zu vergeben. Wir hatten diese Frage nämlich auch in der Vorlesung/Übung bereits behandelt.

Bei dieser Frage gab es eine Antwort, die hinten und vorne nicht korrekt war und der Studierende gefühlt etwas ganz anderes beantwortet hat.

Ich hatte ursprünglich 0,5 Punkte für die Aufgabe vergeben. Der Studierende hat es wirklich probiert. Im Nachhinein ist die Begründung von ChatGPT meiner Meinung nach besser als meine. Ich habe jedoch bei der Evaluierung mit ChatGPT keine Punkte Zuwider der Studierenden entzogen. Hier hat der Studierende wohl etwas Glück gehabt, dieser darf den halben Punkt behalten. Für mich ist das ein wichtiges Learning.

Fazit

Das waren stichpunktartig ein paar Fragen/Antwort-Kombinationen, bei der ich ChatGPT mit in die Bewertung hinzugezogen habe. Auch wenn es Abweichungen gibt, sind die Ergebnisse überragend. Ich habe bereits mit Sprachmodellen gearbeitet und ich bin zutiefst über die Antworten von ChatGPT erstaunt.

In der Lehre werden Bewertungen oft mit Mangel an Transparenz, Fairness und Objektivität kritisiert. Die Verwendung von KI-Systemen zur Unterstützung bei der Bewertung von Prüfungsergebnissen könnte dazu beitragen, objektivere und transparentere Ergebnisse zu erzielen. Allerdings sollten solche Systeme sorgfältig entwickelt und getestet werden, um sicherzustellen, dass sie tatsächlich zuverlässig und fair sind. Zudem dürfen nicht alle Aspekte des Prüfungsprozesses auf rein objektive Bewertungskriterien reduziert werden, da es auch subjektive Faktoren gibt, die eine wichtige Rolle spielen können. Insgesamt kann die Verwendung von KI als Unterstützungsinstrument ein wertvoller Beitrag zur Verbesserung von Prüfungsprozessen sein, aber es sollte immer in Kombination mit menschlicher Beurteilung und Überwachung eingesetzt werden.