Zum Inhalt springen

Mit Syntea schlechter studieren? Ein kritischer Blick auf die IU-Studie


Empfohlene Beiträge

Vor einiger Zeit hat die IU einen Forschungsbericht zu den bisherigen Ergebnissen mit Syntea veröffentlicht.

Markus hat in diesem Post darüber berichtet.

 

Ich habe mir gestern den Bericht im Detail durchgelesen, und dabei sind mir ein paar interessante Punkt aufgefallen.

Die Kernaussage der Studie ist, dass durch Syntea innerhalb von drei Monate die Lerndauer um 27% reduziert wurde (Möller et al., 2024, S.1).

 

Als Teil der Treatment Group werden alle Personen betrachtet, die den Syntea Prüfungstrainer zumindest einmal genutzt haben. Es wird nicht angegeben, ob die Studierenden dann auch die Prüfung in dem Kurs abgelegt haben, in dem der Prüfungstrainer genutzt wurde. Aber nur dann könnte ein Einfluss von Syntea auf den Prüfungstermin angenommen werden. Hier sollte die Formulierung nochmals nachgeschärft werden. Auch wird Syntea nicht in allen Kursen angeboten. Eine Reduktion auf die Kurse, in denen Syntea angeboten wird, kann hier helfen, Verzerrungen durch Umfangs- oder Komplexitätsunterschieder der Kurse zu verringern.

 

Der Notendurchschnitt fällt im dritten Syntea Monat jedoch signifikant (p < 0,001) um 3,6% im Vergleich zu vor der Einführung ab (Möller et al., 2024, S.6).

Die Durchfallquote in der Kontrollgruppe bleibt unverändert, steigt jedoch in der Syntea Gruppe um 1% an (nicht statistisch signifikant, p=0,93). 

 

Der Einfluss auf die Noten wird in der Studie auf diesen einen Satz in der Diskussion reduziert "what if Syntea did in fact speed up students, but at the cost of worse outcomes?"  (Möller et al., 2024, S.5). Dies ist aber laut der Studie kein "what if" sondern ein statistisch signifikantes Ergebnis.

 

Die Frage sollte also sein, ob der Assistent möglicherweise ein falsches Sicherheitsgefühl gibt, also nicht das Lernen beschleunigt wird, sondern die Studierenden nach kürzerer Zeit mit weniger Wissen in die Prüfung gehen. Eine solche Verkürzung wäre auch durch einmalige Nutzung (das Einschlusskriterium) denkbar, wohingegen ein Einfluss auf die Retention mehr Interaktionen mit dem Tool voraussetzen dürfte.

Auch wäre es interessant zu wissen, ob die Ergebnisse des ExamTrainers denen der eigentlichen Prüfungsleistung entsprechen, das Tool also geeignet ist, den Studierenden "Prüfungsbereitschaft" zu signalisieren.

 

Auch ist unklar, welche Relevanz die KI in dieser Studie hat. Der ExamTrainer hat in meinen Test vorgefertigte Fragen gestellt, und bietet single-choice Antworten an. Hierfür ist keine KI notwendig. Nun kann es natürlich sein, dass es unterschiedliche Ausprägungen gibt, und in einzelnen davon in der Tat auf die KI Funktionalität zurückgegriffen wird. Dann sollte die Studie aber auch hier unterscheiden und die Rolle der KI klarstellen.

 

Generell wäre eine differenzierte Aufarbeitung der Daten wünschenswert, wie Relation der Nutzung des Tools im Vergleich zum Outcome (zum Beispiel Anzahl abgeschlossener Testprüfungen im Vergleich zu Zeitdauer und Outcome).

 

Die Validität der Studie muss als gering eingestuft werden, da die herangezogenen Kriterien nicht geeignet sind, die Fragen zu beantworten, die die Studie versucht zu beantworten.  Ein Studierender könnte Syntea im einem Kurs ausprobieren, dann Klausuren in drei anderen Fächern ablegen, und dies würde in der "Treatment" Gruppe auftauchen. Auch muss für Studienmodell und Kurs kontrolliert werden, um aussagekräftige Daten zu erhalten.

 

Die Objektivität muss bemängelt werden, da die Verschlechterung der Prüfungsergebnisse in der Studie selbst nicht thematisiert wird.

 

 

Quelle:

Möller, M., Nirmal, G., Fabietti, D., Stierstorfer, Q., Zakhvatkin, M., Sommerfeldt, H., & Schütt, S. (2024). Revolutionising Distance Learning: A Comparative Study of Learning Progress with AI-Driven Tutoring. https://iu-international-university-of-applied-sciences-research-papers.s3.eu-central-1.amazonaws.com/pfjknzpkrcffpfddyypgztbyggxxwnxw.pdf
Bearbeitet von DerLenny
Link zu diesem Kommentar
Auf anderen Seiten teilen

Anzeige: (wird für registrierte Benutzer ausgeblendet)

Kaum schläft man etwas, schon fällt einem mehr ein 🙃

 

Laut der Studie werden alle Klausuren im Okt, Nov und Dez zur „Treatment" Gruppe gerechnet, wenn irgendwann in diesem Zeitraum mindestens einmal diese Prüfungstrainer aufgerufen wird.

 

Beispiel:

Person A schreibt eine Klausur im Okt, eine im Nov und eine im Dez und schaut dann kurz vor Jahreswechsel mal in Syntea und probiert so ne Test aus. Und schon ist diese Person in der Treatment Gruppe und diese drei Klausuren werden als Syntea zugeordnet.

Selbst eine einfache Prüfung, dass die Syntea Nutzung VOR der Klausur stattgefunden hat, könnte hier helfen. Wobei es natürlich schon besser wäre, nur die Klausuren zu werten, für die Syntea auch genutzt wurde.

 

Könnten die Daten trotzdem irgendwie passen, wenn man eine ausreichend große Stichprobe hat?

Möglicherweise. Problematisch ist hier aber meiner Meinung nach weniger der Stichprobenumfang, sondern die Dauer der Untersuchung.

 

Das Feature wurde Anfang Oktober gestartet. Laut den Daten benötigt eine Person etwa 2 Monate pro Klausur. Es werden 3 Monate betrachtet.

Das ist zeitlich sehr eng, selbst wenn die Personen aus der Treatment Gruppe direkt zum Release mit diesem Tool arbeiten. Wenn man allerdings davon ausgeht, dass eine Sitzung ausreicht, und diese am Ende des Zeitraum stattfinden kann, dann wird es etwas wahrscheinlicher. Aber das sind eine Menge Prämissen.

Wäre der Untersuchungszeitraum länger (was ja durchaus möglich gewesen wäre), dann wär es etwa belastbarer.

 

Man sollte also die folgenden Punkte beachten:

  • Syntea Nutzung VOR der Klausur
  • Klausur in dem Kurs, in dem Syntea genutzt wurde
  • Vergleich auf Kursebene (also mit der Kontrollgruppe) um Vergleichbarkeit zu gewährleisten.

 

Aber hier kommen wir dann in ein anderes Problem rein.

Die „Geschwindigkeit“ wird ja durch die Klausuren pro Monat ermittelt. Ich tippe, das liegt daran, dass es aktuell nicht möglich ist, zu bestimmen, wann eine Person wirklich anfängt zu lernen, was es schwierig macht, die aktuelle Lerndauer zu bestimmen.

In Kombination mit den unterschiedlichen Zeitmodellen wird es dann schwieriger, die Geschwindigkeit bzw. Kursdauer zu berechnen. 

 

Übersehe ich hier was?

Ich mein, die Studie wird von der IU ja aktiv gestreut, also tippe ich mal, dass sie diese Studie für belastbar halten. Aber so, wie die Studie in dem Paper beschrieben ist, erscheint mir die Herangehensweise nicht wirklich schlüssig.

 

Kann jemand von euch mal drüber kucken und mir sagen, ob ich in meiner Argumentation irgendwo nen groben Schnitzer hab?

 

 

Bearbeitet von DerLenny
Link zu diesem Kommentar
Auf anderen Seiten teilen

  • 2 Wochen später...

Ich habe Syntea für das aktuelle Modul zur Wissensabfrage & zum Lernen genutzt und es jetzt wieder gelassen.
Die Rückmeldungen von Syntea sind fast immer positiv. Es wird wenig korrigiert oder auf noch fehlende Informationen hingewiesen. Wenn das meine erste Klausur wäre, würde ich mich richtig gut vorbereitet fühlen, ohne es überhaupt im Ansatz zu sein. Leider ist nicht erkennbar, auf welche Detailebene gelernt sein sollte, damit die Klausur bestanden wird bzw. eine gute Note dabei rumkommt.
In einigen Gruppen gab's bereits die Rückmeldungen von Kommilitonen, dass Module nicht bestanden wurden, obwohl sie durch das Lernen mit Syntea den Eindruck hatten, gut vorbereitet zu sein. Syntea lernt ja (hoffentlich) auch noch dazu ;)
 

Grundsätzlich finde ich die Idee super, den Studierenden einen Lernbuddy zur Verfügung zu stellen :)

Link zu diesem Kommentar
Auf anderen Seiten teilen

Am 7.4.2024 um 20:24 schrieb Schlumpfgoettin:

eider ist nicht erkennbar, auf welche Detailebene gelernt sein sollte, damit die Klausur bestanden wird bzw. eine gute Note dabei rumkommt.

Jo, das wäre ein Punkt, auf den man einen Blick werfen könnte. Einschätzung von Syntea im Vergleich zur tatsächlichen Klausurnote.

 

 

Am 7.4.2024 um 20:24 schrieb Schlumpfgoettin:

In einigen Gruppen gab's bereits die Rückmeldungen von Kommilitonen, dass Module nicht bestanden wurden, obwohl sie durch das Lernen mit Syntea den Eindruck hatten, gut vorbereitet zu sein.

In der Studie steht, dass die Durchfallquote in der Syntea Gruppe gestiegen ist und die Studierenden in der Synteagruppe im Schnitt schlechter geworden sind. Ich bin mir zwar nicht sicher, ob die Zahlen belastbar sind, da die Studie doch das eine oder andere Problem hat.

 

So rein vom Prinzip her würde "schneller, aber schlechter" sowohl die Aussage des Artikels als auch die Erfahrungen der Studierenden beschreiben. 

 

Mir werden in ein paar Kursen gerade die Fragen zur Prüfungszulassung von Syntea gestellt, die im Vergleich zur Klausur ja doch ein paar Größenordnungen leichter sind. 

 

In der Psy Gruppe basteln sich auch einige mit ChatGPT eigene Bots um über das Skript labern zu können. Was wohl deutlich besser funktioniert, da die Parameter der IU doch sehr nervig sind, wenn man wirklich mit dem Teil lernen will.

Link zu diesem Kommentar
Auf anderen Seiten teilen

vor einer Stunde schrieb phoellermann:

 

Tell us more. 

 

Es gibt ein paar Dinge, die mich persönlich stören. Zum einen ist da ein IU Teil vorangestellt, ich tippe mal, um die Anfragen an OpenAI zu minimieren.  In diesem Teil sind auch die Tutoren involviert, die einzelnen Fragen manuell und mit fixen Antworten begegnen. 

Wenn jetzt unerwartete Antworten kommen, versuchen die Studierenden, durch Umformulierung der Frage bessere Antworten zu bekommen. Was allerdings nur zu einer hohen Anzahl an ähnlichen Fragen bei den Tutoren führt. Worüber sich diese bereits in den Course Feeds beklagt haben.

 

Ein weiteres Problem ist, dass dieser Sokrates'sche Dialog immer nur einen kleinen Teil des Skripts betrifft und dann automatisch beendigt wird. Um dann weiterzulernen, ist ein recht hoher Aufwand notwendig, man wird also nach der ersten Runde rausgeworfen. Vom Timing her ist es für mich recht ungeschickt, da der erste Durchgang meist dann beendet wird, wenn ich gerade "rein gekommen" bin.


Da man sich mit nur sehr wenigen Zeilen Anweisung deutlich nützlichere Modelle bauen kann, wird das inzwischen auch gemacht.

Link zu diesem Kommentar
Auf anderen Seiten teilen

Am 13.4.2024 um 12:16 schrieb DerLenny:

@IU Internation. Hochschule

Gibt es eigentlich inzwischen eine Obperson für wissenschaftliches Fehlverhalten?

Hallo,

 

ja ->

https://www.iu.de/forschung/ethikkommission/

 

Viele Grüße

IU Intern. Hochschule

Louisa (Leitung Student Relations & Community)

Link zu diesem Kommentar
Auf anderen Seiten teilen

Erstelle ein Benutzerkonto oder melde Dich an, um zu kommentieren

Du musst ein Benutzerkonto haben, um einen Kommentar verfassen zu können

Benutzerkonto erstellen

Neues Benutzerkonto für unsere Community erstellen. Es ist einfach!

Neues Benutzerkonto erstellen

Anmelden

Du hast bereits ein Benutzerkonto? Melde Dich hier an.

Jetzt anmelden



×
  • Neu erstellen...