Neue IU Forschungsarbeit: Ist die Bewertung von Freitext-Aufgaben durch die KI gerechter?

Markus Jung · 13. April

Die IU Internationale Hochschule hat eine neue Forschungsarbeit mit dem Titel „Beyond human subjectivity and error: a novel AI grading system“ veröffentlicht. Darin geht es um die Auswirkungen eines KI-Systems, welches die Antworten auf Freitext-Aufgaben automatisiert auswertet.

Die Studie ist hier zu finden:

https://iu-international-university-of-applied-sciences-research-papers.s3.eu-central-1.amazonaws.com/Beyond_human_subjectivity_and_error_a_novel_AI_grading_system.pdf

Zu den Ergebnissen hier Auszüge aus einer Pressemitteilung der IU:

Die Automatisierung der Benotung von Prüfungen mit offenen Fragen stellt für Lehrende eine erhebliche Arbeitserleichterung dar und kann zu besseren Ergebnissen für Studierende führen, indem durch einen automatisierten Bewertungsmechanismus menschliche Ungenauigkeiten und Fehler vermieden werden können.

Mit ihrer Forschungsarbeit ‚Beyond human subjectivity and error: a novel AI grading system (2024)‘ zeigt ein Team der IU Internationalen Hochschule (IU) erstmals in großem Maßstab, wie künstliche Intelligenz Lehrende bei der automatisierten Benotung unterstützen kann. Das IU-Forschungsteam hat dafür ein neuartiges Bewertungssystem entwickelt, das sogenannte Automatic Short Answer Grading (ASAG) System, das Antworten auf offene Fragen, die aus wenigen Sätzen bestehen, automatisch bewerten kann.

Das vom IU-Forschungsteam entwickelte ASAG-System basiert auf einem großen Sprachmodell (Large Language Model), das mit einem sehr großen Datensatz aus Prüfungsdaten zusätzlich trainiert wurde. Die Daten stammen aus einer Vielzahl von Studiengängen der IU Internationalen Hochschule, die ein breites Spektrum von Disziplinen abdecken – von Geisteswissenschaften bis hin zu den MINT-Fächern. Dieses breite Spektrum soll laut Studie dafür sorgen, dass das ASAG-Modell der IU über verschiedene Disziplinen anwendbar und anpassungsfähig ist.

In einer mehrstufigen Datenanalyse hat das Forscher:innen-Team mit seinem ASAG-Modell in einem ersten Schritt gezeigt, dass KI auch Antworten aus bisher unbekannten Themengebieten gut auswerten kann. Ein anschließender Vergleich mit den Fachexpert:innen zeigte, dass ASAG bei der Bewertung der Studierendenantworten im Durchschnitt näher an der offiziellen Referenznote lag als die Bewertung durch Fachexpert:innen. Die größere Übereinstimmung bei der Bewertung deutet darauf hin, dass eine KI-gestützte Benotung menschliche Subjektivität bei der Benotung reduzieren und so potenziell die Fairness verbessern kann.

Dargestellt sind die Verteilung der Abweichungen von der Referenznote sowohl für die menschlichen Prüfer:innen (links, blau) als auch für das ASAG-Modell (rechts, orange). Der Median der absoluten Abweichungen liegt bei 20,0 bzw. 11,1. Der Median des absoluten Fehlers des ASAG-Modells ist also 44 Prozent geringer als der Median des absoluten Fehlers menschlicher Prüfer:innen.

Das ASAG-Modell könnte nach Ansicht des IU-Forschungsteams bereits als Bewertungssystem eingesetzt werden. Die rechtlichen und akademischen Voraussetzungen sind laut den IU-Expert:innen jedoch noch nicht gegeben, da die KI-Technologie noch neu ist und Rahmenbedingungen fehlen, und aufgrund der schnellen technologischen Entwicklung im Bereich KI entstehen ständig neue Regelungen. Die Expert:innen und Prüfer:innen der IU empfehlen daher, sich zunächst auf ein Modell zu konzentrieren, bei dem menschliche Prüfer:innen durch KI-gestützte Automatisierung unterstützt werden, beispielsweise um Fehler abzugleichen und zu vermeiden.

KanzlerCoaching · 13. April

Beim Lesen schießt mir ein Gedanke durch den Kopf:

Durch KI generierte Lehrbriefe werden vom Studierenden durch KI generierte Hausarbeiten/die Thesis in Prüfungen gearbeitet, was wiederum eine KI korrigiert und bewertet.

DerLenny · 13. April

LMMs stehen und fallen mit den Trainingsdaten.

Nehmen wir mal die Aufgabe auf Seite 4, die wahrscheinlich eine der am ehesten respektierlichen Fragen war. Aber selbst bei dieser passt die erwartete Antwort nicht so ganz zur Frage.

Die Personen, die die Skripte schreiben, schreiben auch die Aufgaben (und Musterlösungen). Die Skripte sind ja gern mal fehlerbehaftet, die Fragen ebenfalls. Anteilig passen die erwarteten Antworten auch nicht so ganz zu den Fragen, wie man ja in Beispiel sehen kann.

Das LMM bewertet jetzt nicht die Korrektheit der Antwort, sondern nur die inhaltliche Nähe zur erwarteten Antwort. Und das ist nicht unbedingt ein gutes Maß für Korrektheit. Ich will jetzt keine Tutoren unter den sprichwörtlichen Bus werfen, aber in dem einen oder anderen Kurs passt da halt auch aus Sicht der Tutoren bei den Musterantworten das eine oder andere nicht.

Die IU nennt Fragen, für die man mehr Punkte bekommt "komplexer." Tatsächlich werden hier nur mehr Stichworte in der Antwort erwartet. In den Kursen, die Musterklausuren anbieten, sieht man ja auch die Musterantwort, und wie bewertet wird. Hier ist teilweise einfach eine Liste an Punkten hinterlegt, und für jede Nennung sollen x Punkte gegeben werden.

Bei einer ungeschickt gestellten Frage, die aber eine große Menge an Stichworten erwartet, gibt es somit auch einen großen Raum an unterschiedlichen Antworten.

Die inhaltliche Nähe der Antwort zur Musterantwort ist damit evtl. nicht ganz so gut geeignet, die Korrektheit der Antwort zu bewerten.

Was auch durch die eigene Studie verdeutlicht wird, da ja bei der Bewertung von Experten ohne spezifisches Kurswissen, die Antworten sehr unterschiedlich bewertet wurden (S.7).

Im Gegensatz zur IU sehe die 36.7% bzw. den erwarteten 44% nicht als eine positive Sache.

Die IU hat eine miserable Qualitätskontrolle, durch die selbst unsinnige Skripte durchkommen. Jetzt wird die fehlerhafte Basis als Maßstab genommen, und ohne Kontrolle akzeptiert.

Ich bin mir sicher, dass auch die Fragen- und Antwortgenerierung automatisiert werden soll.

Dann kann die IU "irgendjemand" mit dem Skript schreiben beauftragen, das Ding ins System füttern und der Kurs ist fertig.

Das Problem ist halt nur, dass wenn man ein System mit Müll füttern auch nur Müll rauskommt.

Während die Studierenden noch die Option haben, sich gescheite Literatur herauszusuchen oder auf eine Neuauflage eines Kurses zu warten, muss die KI sich damit zufrieden geben, was die IU ihr vorsetzt.

TLDR;

Die Studie sieht "engeres Vergleichen von Stichworten" als ideale Methode zur Bewertung von Hochschulleistungen an.
Hohe Schwankungen bei den Bewertungen durch Experten wird nicht als Problem des Datensatzes, sondern als Problem des Menschen verstanden.

Das ganze Ding ist ein selbstverstärkender Kreislauf.

Die Korrektur von Arbeiten ist aktuell schon "minimal entlohnt", es wird also deutlich, welchen Stellenwert die IU dem beimisst. Aus der geplante AI Unterstützung werden zwei Dinge logisch folgen:

Um Zeit zu sparen, werden Korrektoren ihre Meinung an die Vorschläge anpassen. Damit korrigieren sie schneller, und da pro Arbeit ein fester Satz bezahlt wird, haben die Korrektoren dazu auch einen guten Anreiz.
Wenn ein Korrektor sich nicht an die KI hält, wird das geflaggt (S.11). Wie in der Studie zu sehen ist, werden Abweichungen aber als Problem des Korrektors gesehen → auch hier also Anreiz sich an die Vorgabe der KI zu halten.

Dadurch wird die KI in der Auswertung immer "besser" werden. Und schwuppdiwupp ist die automatische Bewertung (laut der Daten) eine valide Option.

Bearbeitet 13. April von DerLenny

Muddlehead · 13. April

vor 3 Stunden schrieb KanzlerCoaching:

Beim Lesen schießt mir ein Gedanke durch den Kopf:

Durch KI generierte Lehrbriefe werden vom Studierenden durch KI generierte Hausarbeiten/die Thesis in Prüfungen gearbeitet, was wiederum eine KI korrigiert und bewertet.

Ist halt nur ein Gedanke, der genau wohin führen soll? Jedenfalls nicht in eine funktionierende Realität.

Bearbeitet 13. April von Muddlehead

Markus Jung · 13. April

@Muddlehead: Welche Elemente davon gibt es in der Realität (noch) nicht?

Durch KI generierte Lernhefte?
Studierende, die Hausarbeiten/Abschlussarbeiten durch die KI erstellen lassen?
KI-Systeme, die Arbeiten automatisiert analysieren können?

Muddlehead · 13. April

vor 17 Minuten schrieb Markus Jung:

@Muddlehead: Welche Elemente davon gibt es in der Realität (noch) nicht?

Durch KI generierte Lernhefte?

Studierende, die Hausarbeiten/Abschlussarbeiten durch die KI erstellen lassen?

KI-Systeme, die Arbeiten automatisiert analysieren können?

Frau Kanzler verweist auf einen Kreislauf, in dem Studierende keine Rolle mehr spielen. So mein Verständnis.

KanzlerCoaching · 13. April

vor 3 Stunden schrieb Muddlehead:

Frau Kanzler verweist auf einen Kreislauf, in dem Studierende keine Rolle mehr spielen. So mein Verständnis.

Stimmt. Das war meine Phantasie, als ich den Beitrag gelesen habe.

Was ich mich auch frage: Wenn der Student sich nicht korrekt beurteilt fühlt, weil z.B. Teile seiner Antwort nicht vollständig oder nicht angemessen berücksichtigt sieht - welche Bedeutung gibt die Hochschule dann der Korrektur durch die KI? Grade in Hinblick darauf, dass Studienbriefe nicht immer fehlerfrei sind, wie es Lenny berichtet.

DerLenny · 13. April

vor 9 Minuten schrieb KanzlerCoaching:

Teile seiner Antwort nicht vollständig oder nicht angemessen berücksichtigt sieht

Die Studierenden bekommen ja nur das Gesamtergebnis.

Für mehr Infos muss man dann in die Einsicht. Die Einsicht geht nur in Persona, es darf keine Literatur mitgenommen werden und die Zeit ist auf 30min begrenzt. In dieser Zeit müssen alle Teile der Prüfungsleistung, deren Bewertung man überprüft haben möchte, anzeigt und ausführlich darlegt werden, aus welchen Gründen man die Bewertung für fehlerhaft hält.

Es ist beinahe so, als ob die Interessen der Studierenden (und hier schließe ich mal korrektes Wissen ein) nicht so hoch bewertet werden, wie die Möglichkeit Geld zu sparen.

Daher wird auch massiv daran geforscht, wie man die Betreuung weiter zurückbauen und die Korrekturen automatisieren kann. Und weniger darum, wie man die Studienerfahrung und die das Wissen der Studierenden verbessern kann.

Das sollte spätestens, seit das QM Teil des Marketings ist, auch wirklich unstrittig sein.

vor 4 Stunden schrieb Markus Jung:

Durch KI generierte Lernhefte?

Ich glaube, ich werde ein paar Skripte echt mal durch nen Analyse Tool schicken...

Muddlehead · 13. April

vor 2 Stunden schrieb KanzlerCoaching:

Stimmt. Das war meine Phantasie, als ich den Beitrag gelesen habe.

Was ich mich auch frage: Wenn der Student sich nicht korrekt beurteilt fühlt, weil z.B. Teile seiner Antwort nicht vollständig oder nicht angemessen berücksichtigt sieht - welche Bedeutung gibt die Hochschule dann der Korrektur durch die KI? Grade in Hinblick darauf, dass Studienbriefe nicht immer fehlerfrei sind, wie es Lenny berichtet.

Stand jetzt ist und bleibt es Fantasie. Am Ende muss ein menschliche Person über KI-Ausgabe als letzte Instanz stehen. Es sei denn Wahrscheinlichkeitsaussagen werden Fakten umgewidmet.

vor 1 Stunde schrieb DerLenny:

Es ist beinahe so, als ob die Interessen der Studierenden (und hier schließe ich mal korrektes Wissen ein) nicht so hoch bewertet werden, wie die Möglichkeit Geld zu sparen.

Es gibt keinen vernünftigen Grund wieso bei der IU keine Ferneinsicht statt finden könnte. Es ist meiner Meinung nach gewollt, um die Einspruchanträge zu senken, respektive Hürden dafür hoch zu halten , um den Aufwand und die Kosten gering zu halten. Oder, @IU Internation. Hochschule ?

Bearbeitet 13. April von Muddlehead

AZI · 14. April

Kennt ihr das: Ihr habt den Fachbegriff gerade nicht parat, könnt aber alles genau beschreiben und korrekt beantworten ohne den expliziten Begriff zu nennen? Ein Menschlicher Korrektor wird dann zumindest teilpunkte geben, eine KI die nur nach Stichworten sucht nicht. Das ist eigentlich das erste was mir in denn Sinn kommt auch in Hinblick auf die Stressituation Prüfung.

Der Nächste Punkt der mir aufstößt ist der den Lenny schon genannt hat. Wenn die Lehrhefte Fehlerhaft sind, die KI mit den Lehrheften gefüttert wird, ist jeder Student der ernsthaft studiert im Nachteil

Und der Letzte Punkt, wenn das ernsthaft so umgesetzt werden soll, werden dass doch erst recht auswendiglernen und Vergessen Dinger. Ich lerne die Stichpunkte des Skripts auswendig klatsch sie hin und die KI wird es als korrekt bewerten wozu da noch irgendwelche Mühen investieren..... ICh sehe das sehr Kritisch

Anmelden

Neue IU Forschungsarbeit: Ist die Bewertung von Freitext-Aufgaben durch die KI gerechter?

Empfohlene Beiträge

Link zu diesem Kommentar

Auf anderen Seiten teilen

Top-Benutzer in diesem Thema

Aktive Tage

Top-Benutzer in diesem Thema

Aktive Tage

Beliebte Beiträge

KanzlerCoaching

DerLenny

Nadja_studiert_Informatik

Veröffentlichte Bilder

Link zu diesem Kommentar

Auf anderen Seiten teilen

Link zu diesem Kommentar

Auf anderen Seiten teilen

Link zu diesem Kommentar

Auf anderen Seiten teilen

Link zu diesem Kommentar

Auf anderen Seiten teilen

Link zu diesem Kommentar

Auf anderen Seiten teilen

Link zu diesem Kommentar

Auf anderen Seiten teilen

Link zu diesem Kommentar

Auf anderen Seiten teilen

Link zu diesem Kommentar

Auf anderen Seiten teilen

Link zu diesem Kommentar

Auf anderen Seiten teilen

Erstelle ein Benutzerkonto oder melde Dich an, um zu kommentieren

Benutzerkonto erstellen

Anmelden

Neue Inhalte aus allen Foren

Beliebte Inhalte aus allen Foren