Zum Inhalt springen

Neue IU Forschungsarbeit: Ist die Bewertung von Freitext-Aufgaben durch die KI gerechter?


Empfohlene Beiträge

Anzeige: (wird für registrierte Benutzer ausgeblendet)

Am 13.4.2024 um 18:40 schrieb KanzlerCoaching:

Was ich mich auch frage: Wenn der Student sich nicht korrekt beurteilt fühlt, weil z.B. Teile seiner Antwort nicht vollständig oder nicht angemessen berücksichtigt sieht - welche Bedeutung gibt die Hochschule dann der Korrektur durch die KI? Grade in Hinblick darauf, dass Studienbriefe nicht immer fehlerfrei sind, wie es Lenny berichtet.

Ich frage mich: Welche Bedeutung gibt die Hochschule Bildung?

 

Ich stimme @DerLenny in allen Punkten voll zu.

 

Ähnliche Gedanken habe ich mir auch schon gemacht.
 

Und die KI-generierten Texte passen hervorragend mit KI-generierten Skripten, Fragen und eben auch mit KI-Korrekturen / -Bewertungen zusammen. Keine Frage. Das wird bei dem derzeitigen Stand eine qualitative Abwärtsspirale zunächst. Ich denke schon, dass in Zukunft KIs alle diese Aufgaben hervorragend erledigen können. Aber im Moment verstärkt sich dadurch nur das Problem, das die IU eh schon hat: mangelnde Transparenz, zu viel Massenabfertigung, zu wenig Wissenschaftlichkeit, zu wenig intellektuelle Leistung.

 

Im Informatik-Discord-Channel habe ich gelesen, dass sich immer mehr Studierende beschweren, dass nicht nur häufig keine Kommentare bei schriftlichen Ausarbeiten vorhanden sind, sondern neuerdings Kommentare aus KI-Textstücken.

 

Ist es eigentlich ein Täuschungsversuch, wenn man Prompt Injections in seine Arbeit einarbeitet, um eine gute Note zu bekommen? Schließlich behauptet die IU ja bisher, dass Lehrpersonal die Arbeiten bewertet? Das wäre dann ja nur der Beweis, dass das nicht stimmt. Und warum eigentlich braucht die IU immer noch 2,5 Monate zum Korrigieren einer 10-seitigen Arbeit?

 

Ich sehe an sich große Chancen bei solchen Themen durch die Verwendung von KIs. Ich würde mich ja freuen über schnell und gut bewertete Arbeiten. Hier sieht man aber auch gut die großen Nachteile. Ich hätte gerne, dass meine individuelle Eigenleistung, die sich im Idealfall stark von dem Skript und den Klausurfragen abhebt, fair bewertet wird und ich auch entsprechend Feedback erhalte, aus dem ich wieder etwas lernen kann. Das ist sehr schade, dass das unmöglich an der IU ist. KIs können auch zu mehr Wissenschaftlichkeit, Forschung und Bildung beitragen. Aber wenn das Ziel ein ganz anderes ist, dann hilft die KI halt beim Verkauf von Zertifikaten in Massen.

 

Abgesehen davon ist mir noch nicht ganz klar welche Daten da wie verwendet werden. Bei der letzten Studie zu Syntea habe ich zähneknirschend vermutet, dass ich bei der Verwendung von Syntea irgendwo zugestimmt habe, dass meine Daten den Forschungszwecken der IU dienen können. Aber tue ich das bezogen auf meine Klausuren? Ich will so überhaupt gar nicht, dass meine Prüfungsinhalte für solche fragwürdigen Forschungsmethoden verwendet werden. Ich muss mir das nochmal genauer durchlesen.

Link zu diesem Kommentar
Auf anderen Seiten teilen

vor 28 Minuten schrieb Nadja_studiert_Informatik:

Aber tue ich das bezogen auf meine Klausuren? Ich will so überhaupt gar nicht, dass meine Prüfungsinhalte für solche fragwürdigen Forschungsmethoden verwendet werden.

Das müsste, wenn ja in den Datenschutzerklärungen der Prüfungen stehen, denke ich?

 

@IU Internation. Hochschule bei welchem Schritt im Ablauf gibt man denn diese Zustimmung? Und wie kann man denn prüfen, ob man zugestimmt hat / seine Zustimmung widerrufen?

Link zu diesem Kommentar
Auf anderen Seiten teilen

Ich habe mir die Studie nochmal angesehen. Ich verstehe es nicht so ganz. Vielleicht könnt ihr mir helfen.

 

Verstehe ich das richtig, dass die Unterschiede bei den menschlichen Prüfern im Durchschnitt 2,8 Punkte betragen haben? Pro Aufgabe??? Das wäre übel bei den kurzen Aufgaben mit den wenigen Punkten. Eine Klausur hat doch sechs Freitext-Aufgaben mit jeweils zweimal 6, 8 und 10 Punkten, oder? Wenn die Abweichungen zwischen den Bewertern pro Aufgabe so hoch sind, macht das sehr viel aus. Ist das normal, vor allen Dingen auch bei Aufgaben mit so wenig Text? Es wird beschrieben, dass die Abweichungen umso höher sind je besser die Note ist. Was heißt das? Das Korrigierende unterschiedliche Auffassungen von einer sehr guten Arbeit haben? Wenn man sich das anschaut, macht es dann überhaupt Sinn, dass die KI „richtig“ liegt, wenn sie den Mittelwert dieser Bewertungen trifft? Also ich meine, man kann den Mittelwert ja in so einer ersten Studie nehmen, um überhaupt erstmal irgendwas zum Trainieren zu haben. Aber ich stelle mir die Frage, ob das dann überhaupt anwendbar ist. Vielleicht müsste man erstmal schauen, was überhaupt die richtige Bewertung ist? Oder wie versteht ihr die Daten? Ich denke 1600 Aufgaben sind auch nicht sehr viele, wenn eine Klausur sechs Freitextaufgaben hat, oder? Was wäre dann eine gute Datenmenge? Habt ihr gesehen in der Studie, ob auch die 6-Punkte-Fragen genommen wurden, bei denen ja drei Stichpunkte in der Regel ausreichen?

 

Ich finde die Studie interessant, aber an anderen Stellen als da, wo der Fokus liegt. Ist ja oft so…

Link zu diesem Kommentar
Auf anderen Seiten teilen

Ich will an dieser Stelle noch sagen, dass ich dem Lehrpersonal keinen Vorwurf mache! Ich denke, dass die Korrigierenden bei dieser Entwicklung und den Wachstumszahlen der IU wenig Einfluss haben. Ich finde halt, so lange sich bei Discord unter den Studierenden hartnäckig der Mythos hält, dass Willkür bei den Bewertungen vorliegt und man eine schlechtere Note bekommt, wenn man nachfragt wann denn nun mit dem Ergebnis zu rechnen ist, sollte die Hochschule Alles unternehmen, um dagegen aufzuklären. Also man bräuchte konkrete Transparenz-Maßnahmen. Aber bei dieser Entwicklung werden diese Vorstellungen der Studierenden halt massiv gefördert.

 

Eine Frage noch, die ich auch bei der Studie habe:

Es wird das Black Box Problem erwähnt. Das heißt, man überprüft auch nicht wie die KI zu der Bewertung kommt? Das könnte man doch aber einbauen? Also man könnte doch eine Begründung von der KI für die Note fordern? Vielleicht habe ich überlesen, dass das noch gemacht wird?

Link zu diesem Kommentar
Auf anderen Seiten teilen

vor 23 Minuten schrieb Nadja_studiert_Informatik:

Also man könnte doch eine Begründung von der KI für die Note fordern?

Kannst Du machen, die würde aber post-factum generiert. Es wäre eine Antwort, aber nicht unbedingt die, die wirklich zur Entscheidung geführt hat. KIs funktionieren gewissermaßen wie japanische Kücken-Genderer: implizite Mustererkennung.

 

vor 26 Minuten schrieb Nadja_studiert_Informatik:

Also man bräuchte konkrete Transparenz-Maßnahmen.

Das wäre wirklich eine gute Sache, aber kaum im Interesse der IU, fürchte ich.

 

vor 42 Minuten schrieb Nadja_studiert_Informatik:

Ich finde die Studie interessant, aber an anderen Stellen als da, wo der Fokus liegt. Ist ja oft so…

Der Studienfokus dürfte weniger auf der Wissensmehrung, und mehr auf den Marketingaspekten liegen. Siehe auch den Veröffentlichungskanal.

 

Du erkennst auch den Ansatz: Es geht nicht darum, den Prozess zu verbessern, sondern die menschlichen Korrektoren zu ersetzen. Daher auch der Vergleich mit diesen, anstatt zu prüfen, ob die Korrektur an sich besser geworden ist. Auch, weil man dafür ja einen Blick auf die Aufgaben, deren Musterlösungen und die Bewertungsvorgaben werfen müsste. 

Das würde zwar langfristig die Qualität erhöhen, so rein von den Vorgehensweisen ist aber scheint es aber so, dass hohe Qualität nicht das Ziel der IU ist. Im Gegenteil, es geht eher darum, das absolute Minimum zu bieten (da günstiger).

Link zu diesem Kommentar
Auf anderen Seiten teilen

vor 3 Minuten schrieb DerLenny:

Kannst Du machen, die würde aber post-factum generiert. Es wäre eine Antwort, aber nicht unbedingt die, die wirklich zur Entscheidung geführt hat. KIs funktionieren gewissermaßen wie japanische Kücken-Genderer: implizite Mustererkennung.

Vielleicht weiß ich zu wenig über die Funktionsweise der neuen Transformer. Aber ich stelle es mir ein bisschen so vor wie wenn ich ChatGPT zum Verbessern meiner Sprachübersetzungen verwende: Ich gebe ChatGPT meinen übersetzten Text und bitte um Verbesserungen mit genauer Erklärung. In den häufigsten Fällen ist die Begründung „für den Sprachfluss“. Ja gut, nichts dabei erfahren als dass die KI halt insgesamt ein gebräuchlicheres Englisch kann als ich, was ja vorher schon klar war. Aber hin und wieder werden mir halt auch Bedeutungs- und selten sogar Grammatikfehler genannt und dann erfahre und lerne ich wirklich was. Wäre es bei der Bewertung von Klausuren nicht auch so, dass womöglich am häufigsten quasi gesagt wird, es wurden fünf toll klingende Wörter genannt, die häufig in dem Kontext genannt werden? Und dann wüsste man halt, dass an dieser Stelle nochmal ein Tutor ranmuss. Vielleicht habe ich aber auch eine falsche Vorstellung von der Funktionsweise.

 

vor 12 Minuten schrieb DerLenny:

so rein von den Vorgehensweisen ist aber scheint es aber so, dass hohe Qualität nicht das Ziel der IU ist. Im Gegenteil, es geht eher darum, das absolute Minimum zu bieten (da günstiger).

Ja, das sieht ganz so aus. 😒 Ich wollte trotzdem mal erläutern, wo ich die Probleme sehe und wie ich es besser fände…

 

Ich denke schon viel nach wie die Transformer die Welt verändern werden. Ich meine, man weiß das alles noch nicht und es ist nur Spekulation. Ich finde halt, wirklich relevant sind doch die Fragen, wie sich Schreiben und Lesen und Faktenlage und das Verhältnis zu solchen Dingen entwickeln werden. Und wo der Unterschied in Bildung und Wissenschaft zwischen Menschen und Maschinen liegen wird, ist doch der relevante Punkt. Mich frustriert es halt furchtbar, wenn eine Hochschule in diesem Kontext nur über Verkauf nachdenkt. Ich fühle mich dann irgendwie falsch am Platz. 
 

Aber gut, so lange ich nicht den Eindruck habe, dass die IU mein Selbst-Denken bestraft, konzentriere ich mich weiterhin selbst auf meine Bildung. Ich will dann aber nicht, dass meine wertvollen Daten für diesen Verkaufs-Zweck verschleudert werden.

Link zu diesem Kommentar
Auf anderen Seiten teilen

@phoellermann hat die Studie bei LinkedIn diskutiert:

https://www.linkedin.com/feed/update/urn:li:activity:7186278012114366464?updateEntityUrn=urn%3Ali%3Afs_feedUpdate%3A(V2%2Curn%3Ali%3Aactivity%3A7186278012114366464)

 

Zitieren möchte ich ihn daraus, was die Zweitbewertung angeht, weil ihr die hier auch angesprochen habt:

Zitat

Allerdings ist auch auffällig, dass die erneute Benotung durch menschliche Tutoren ("Re-Grading") fast immer zu signifikant schlechteren Ergebnissen führte. So wurden Aufgaben, die ursprünglich mit 18 (von 18) Punkten bewertet wurden, bei der erneuten Bewertung durchschnittlich nur noch mit 11 Punkten bewertet. Aufgaben, die mit 15 Punkten bewertet waren, erreichten beim Review nur noch 7 Punkte. Nur in einem Bewertungsbereich verbesserte sich beim Review der Durchschnitt der Noten.

Warum dem so ist, ist eine spannende Frage: Bewerteten die Reviewer auf Grund des Settings durchgängig kritischer? Oder ist die Benotung in den Ausgangsdaten ins Positive verschoben, bewerten die Prüfer der Hochschule im Alltag also deutlich zu positiv? Und würde diese "zu positive" Bewertung durch den Einsatz von KI nicht verstetigt?

 

Link zu diesem Kommentar
Auf anderen Seiten teilen

Hat denn irgendjemand mal im Laufe der Studie genau verglichen, welche Antworten unterschiedlich durch Tutoren und KI bewertet wurden? Oder hat die Arbeiten unterschiedlichen Tutoren zur Bewertung vorgelegt und hat dann die Ergebnisse verglichen?

 

Ich kann aus all dem hier Geschriebenen und der Studie nicht erkennen, wer (oder was) denn nun die zutreffende Bewertung abgegeben hat. Und das wäre doch wohl das Ziel bei der Entscheidung, ob KI oder ein Tutor korrigiert. Oder sollte es zumindest sein.

Bearbeitet von KanzlerCoaching
Link zu diesem Kommentar
Auf anderen Seiten teilen

Erstelle ein Benutzerkonto oder melde Dich an, um zu kommentieren

Du musst ein Benutzerkonto haben, um einen Kommentar verfassen zu können

Benutzerkonto erstellen

Neues Benutzerkonto für unsere Community erstellen. Es ist einfach!

Neues Benutzerkonto erstellen

Anmelden

Du hast bereits ein Benutzerkonto? Melde Dich hier an.

Jetzt anmelden



×
  • Neu erstellen...