KI-gestütztes Feedback – welche Bedingungen braucht es?

KI-gestützte Feedbackprogramme werden künftig eine Rolle für das Lernen und die Unterrichtsgestaltung spielen (Terhart 2021, S. 7). Für ihren Einsatz gibt es einige starke Argumente. Vor allem die Tatsache, dass solche Programme unmittelbar im Prozess lernrelevante Rückmeldung generieren können (als formative Leistungsbeurteilung oder genauer gesagt als „assessment for learning“). Das ist ein großer Vorteil, weil so der Lernerfolg gefördert werden kann. Außerdem kann sehr viel mehr Rückmeldung erzeugt werden, als dies einer einzelnen Lehrkraft möglich ist. Und eventuell können auch besser individuell angepasste Hinweise für das Lernen der Schülerinnen und Schüler bereitgestellt werden. Alles freilich nur da, wo Kinder und Jugendliche ihre Arbeiten über eine Tastatur eingeben oder auf einem anderen Weg eine Datei erzeugen.

Aus Sicht der Lernpsychologie, der Unterrichtsentwicklung und der Pädagogischen Diagnostik möchte ich im Folgenden einige Merkpunkte formulieren, die es zu beachten gilt, wenn KI-gestützte Rückmeldeprogramme tatsächlich für das Lernen wirksam werden sollen und zu einem Unterricht beitragen, der lebendig und adaptiv ist (Helmke 2009, S. 246ff, 253). Diese Punkte müssen m. E. bei der Einführung von entsprechenden Programmen diskutiert und auch bei ihrer Entwicklung berücksichtigt werden. Zudem ergeben sich aus diesen Punkten einige Forschungsdesiderata für die begleitende Evaluation der Maßnahmen. Ich stelle zunächst eine Reihe allgemeiner Überlegungen vor und berichte anschließend von meinen Erfahrungen mit Fiete.

Feedback ist mehr als „richtig“ und „falsch“ und keine Einbahnstraße

„Feedback ist eine grundlegende Bedingung für Lernen (Jacobs 2009). Die Schülerinnen und Schüler müssen z. B. erfahren welche Ergebnisse richtig sind und welche falsch. “

Noch weitaus wirksamer ist es aber, wenn sie auch erfahren, wie sie vorgehen müssen, um bestimmte Aufgaben erfolgreich bearbeiten zu können (und wie sie im Vergleich dazu selbst vorgehen) – also inhaltliches Feedback. Aber Feedback darf nicht als Einbahnstraße von der Lehrperson zu den Schülerinnen und Schülern gesehen werden. Der umgekehrte Informationsfluss gehört dazu, er hat überragende Bedeutung für die Wirksamkeit von Unterricht. John Hattie (2013) hat in seinen umfangreichen Metaanalysen zu wirksamem Lernen herausgestellt, dass Feedback nicht nur in einer Richtung gedacht werden darf. Er schreibt: „Der Fehler, den ich machte, war, in Feedback etwas zu sehen, was die Lehrpersonen den Lernenden geben.“ Und er fährt fort: „Wenn Lehrpersonen Feedback von den Lernenden einfordern - oder zumindest offen sind gegenüber dem, was Lernende wissen, was sie verstehen, wo sie Fehler machen, wo sie falsche Vorstellungen haben, wo es ihnen an Engagement mangelt - dann können Lehren und Lernen miteinander synchronisiert werden und wirksam sein.“ (a.a.O., S. 206). Besonders wichtig ist es, dass die Lehrpersonen Informationen darüber erhalten oder sich verschaffen, welches Vorwissen und welche (Prä-) Konzepte die Lernenden mitbringen und anwenden. Hattie stellte fest, dass eine formative Evaluation des Unterrichts, in deren Rahmen sich die Lehrperson Feedback über die Wirkungen ihres Unterrichts verschafft, zu den wirksamsten Mitteln der Leistungsentwicklung in den Klassen gehört (a.a.O., S. 215). Eine etwas geringere, aber immer noch hohe Wirksamkeit wurde für inhaltliches Feedback, das die Schülerinnen und Schüler im Unterricht erhalten, gefunden (a.a.O., S. 206ff.). Ergänzend dazu schreibt Hattie: „Programmierter Unterricht, Lob, Bestrafung und extrinsische Belohnungen sind in Bezug auf die Leistungsverbesserungen die am wenigsten effektiven Formen von Feedback“ (a.a.O., S. 207).

Nimmt man diese Forschungsergebnisse ernst, dann sind KI-gestützte Feedbacktools nicht nur danach zu bewerten, wie viel und welche Information sie den Schülerinnen und Schülern zur Verfügung stellen können sondern auch, welche Informationen die Lehrpersonen erhalten und wie sie diese nutzen können. Die Lehrpersonen sollten genügend und qualitativ hochwertige Information über das aktuelle Lernen ihrer Schülerinnen und Schüler bekommen, damit sie den folgenden Unterricht entsprechend anlegen und sich eventuell zusätzliche Informationen beschaffen und weitere Maßnahmen ergreifen können. Zu diesem Rückfluss gehört es auch zur Kenntnis zu nehmen welches Feedback das Programm den Lernenden vermittelt, was freilich die Zeitersparnis wieder auffressen kann – ein Problem das bei KI-gestützten Assistenzsystemen nicht untypisch ist (Scheuer 2024).

Es zeichnet sich ab, dass der gesamte Komplex des Einsatzes von Feedbacktools und auch die Nutzung der generierten Informationen betrachtet werden muss, damit beurteilt werden kann, ob und wie sie lernförderlich wirken (Winter 2021a). Fatal wäre es vor allem, wenn die Lehrpersonen im Kontext des Einsatzes von KI-gestützten Feedbacktools dazu übergehen würden, sich ihrer Aufgabe, das Lernen der Schülerinnen und Schüler selbst zu diagnostizieren und zu fördern, versuchen würden zu entledigen. Sie könnten sich dadurch doppelt dequalifizieren. In der Begleitforschung sollte daher untersucht werden, wie und mit welchen Vorstellungen die Lehrpersonen die Tools einsetzen und ob sich ihre diagnostischen Kompetenzen letztlich verbessern oder verschlechtern.

Feedback braucht geeignete Rahmenbedingungen

In den vergangenen Jahrzehnten ist sehr viel und auch anwendungsbezogen zu Feedback und den Bedingungen, unter denen es wirksam werden kann, geforscht worden – vor allem im angelsächsischen Sprachraum (Müller/Ditton 2014; Busse u. a. 2019; Winter 2016; 2021a). Wichtige Merkmale nützlichen Feedbacks an die Lernenden fassen Chappuis u. a. (2012, S. 31; Übersetzung FW) zusammen: Es soll ...

während des Lernens erfolgen, solange noch Zeit bleibt, daran zu arbeiten;

sich auf teilweise Verstandenes richten;

die Aufmerksamkeit auf das beabsichtigte Lernen richten, wobei die Stärken herausgehoben und spezifische Informationen angeboten werden, die eine Verbesserung anleiten können;

die korrektive Information so begrenzen, dass die Lernenden damit noch umgehen können;

den Schülerinnen und Schülern nicht das Denken abnehmen.

In dieser Hinsicht ist den KI-gestützten Programmen einiges zuzutrauen. Das betrifft vor allem den Ansatzpunkt während des Lernprozesses. Insbesondere die Untersuchungen von Black und Wiliam (2009) haben belegt, dass formative Beurteilung und Feedback erheblich zur Leistungsverbesserung beitragen können. Allerdings ist dabei im Detail gut zu überlegen zu welchem Zeitpunkt das Feedback erfolgen soll und was darauf folgt. Wirksam kann es nur werden, wenn anschließend tatsächlich Zeit eingeräumt wird bzw. vorhanden ist, damit die Schülerinnen und Schüler erneut an einem Produkt arbeiten und es verbessern können. Ohne das bleibt Feedback eine folgenlose Fremdbewertung.

„Dass KI-gestütztes Feedback während des Arbeits- und Lernprozesses gegeben wird und Verbesserungen ermöglicht, ist sein großer Vorteil. “

Dass es sich auf teilweise Verstandenes konzentriert und gleichzeitig die Stärken der Arbeiten berücksichtigt, ist realisierbar. Ebenso verhält es sich mit der Bereitstellung von spezifisch nützlichen Informationen, auf welche die Lernenden zurückgreifen können. Schwierig scheint es mir dagegen generell zu sein, den beiden letztgenannten Punkten zu entsprechen. Theoretisch kann ein KI-gestütztes Feedbacksystem natürlich auch die einzelnen Lernenden „kennen“, ihre Lernbiografie speichern und auswerten und dann individuumspezifisch angepasste Vorschläge machen. Wie weitgehend das derzeit möglich und zulässig ist (Datenschutz) entzieht sich meiner Kenntnis.

Ein Problem, das mir nicht lösbar erscheint, ist den aktuellen Bereitschaftsgrad für die Annahme von KI-gestütztem Feedback zu berücksichtigen. Das klingt vielleicht ein wenig übertrieben, ist aber letztlich nicht unbedeutend. Wieweit ein Schüler oder eine Schülerin bereit und in der Lage ist, eine Rückmeldung produktiv aufzunehmen, hängt nämlich auch damit zusammen, welche Ziele die Lernenden bei der Aufgabenlösung verfolgt haben und welche Feedbackinformationen sie selbst im Prozess der Aufgabenbearbeitung bislang gewonnen haben. Man muss sich klar machen, dass üblicher Weise ein großer Teil des nützlichen Feedbacks gerade nicht von anderen gegeben wird sondern entsteht, während die Lernenden an etwas arbeiten. Zum Beispiel dann, wenn ein Text geschrieben wird, einem aber ein Satz nicht recht verständlich scheint und man ihn deshalb korrigiert. Oder ein Schüler bemerkt beim Schreiben, dass ihm eine Information fehlt, die er noch hinzuziehen möchte usw. Der Abgleich des extern generierten mit dem selbst erzeugten Feedback ist m. E. nur dann möglich, wenn ein intensiver Fachdialog entsteht – etwa mit Peers aus der Klasse und mit der Lehrperson. Kontraproduktiv wäre es, wenn KI-gestützte Feedbacksysteme dazu führen würden, dass die Lernenden ihre eigenen Prozesserfahrungen weniger wertschätzen oder einfach zurückstellen, weil sie sich auf die Fremdrückmeldung verlassen. Freilich besteht diese Gefahr auch bei Rückmeldungen seitens der Lehrperson. Trotzdem ein Merkposten für die Evaluation der Maßnahmen.

Generell stellt sich die Frage, wieweit die Schülerinnen und Schüler beim Einsatz KI-gestützter Feedbacktools noch voneinander und miteinander lernen; zielen diese doch jeweils auf individuelle Rückmeldung und individuelle Verbesserung. Ein gemeinsames Lernen, bei dem die Konzepte von qualitätsvollen Texten eines Genres herausgearbeitet werden können und auch die individuellen Präkonzepte sichtbar werden, hat aber für das Lernen besondere Vorteile (Winter 2024). Unter anderem den, dass die Lernenden die Kriterien für die Verbesserungsvorschläge diskutieren und tiefer verstehen. Sie werden dadurch in die Lage versetzt, zunehmend ihre Arbeiten selbst zu überprüfen und zu verbessern („assessment as learning“).

Unterrichtsreform und neue Formen der Leistungsbeurteilung

Wenn neue Unterrichtsverfahren oder –techniken erfolgreich eingeführt werden sollen kommt es nicht zuletzt darauf an, ob die Voraussetzungen dafür günstig sind. Misserfolge ergeben sich oftmals dadurch, dass die Reihenfolge der Reformmaßnahmen falsch ist und die Akzeptanz der Betroffenen und Beteiligten gering. Anschauliche Belege dazu kann man sich in den beiden Filmen von Dylan Wiliam „The Classroom Experiment“ ansehen – (Wiliam ohne Jahresangabe).

Wie bereits angesprochen, kann Feedback seine lernförderliche Wirkung nur dann entfalten, wenn im Unterricht Möglichkeiten vorhanden sind, Schlussfolgerungen daraus zu ziehen und die neu gewonnenen Einsichten umzusetzen. Allgemein gesprochen heißt das, dass offene Unterrichtsformen mit einem hohen Anteil an selbstgesteuertem Lernen der Schülerinnen und Schüler besser geeignet sind, von prozessintegriertem Feedback zu profitieren, als gemeinsames, eng lehrergeführtes Lernen. Insofern macht es eher Sinn KI-gestützte Feedbacksysteme in erstgenannten Unterrichtsformen einzusetzen bzw. vor ihrer breiten Einführung den Unterricht entsprechend zu reformieren.

Eine ähnliche Problematik ergibt sich in Bezug auf die Leistungsbeurteilung.

„In einem Unterricht, bei dem alle Lernenden gewissermaßen im Gleichschritt die selben Ziele erreichen sollen und regelmäßig in Form von Klassenarbeiten dazu überprüft werden, verspricht eine Feedbackoffensive mit KI-gestützten Programmen weniger Erfolg als in Klassen, in denen Schülerinnen und Schüler im eigenen Tempo und mit einem hohen Grad an Selbststeuerung differenzierte Lernziele verfolgen können. “

Denn die Verbesserungsaufgaben und Lernziele, die sich aus dem Feedback ergeben, können recht unterschiedlich sein. Das setzt aber wiederum eine Leistungsbeurteilung voraus, die nicht hauptsächlich darauf ausgerichtet ist, die Lernenden bezüglich ihrer Leistungshöhe zu vergleichen und mit Noten gegeneinander einzustufen (Nölte & Wampfler 2021; Winter 2018a; 2021b). Stattdessen muss es darum gehen, Lernentwicklungen in Gang zu bringen, sie zu steuern und begleitend zu kontrollieren – ganz im Sinne von „ongoing assessment“ und „assesment for learning“. Im Rahmen eines derartigen Beurteilungskonzepts kann die Feedbackkultur eine tragende Rolle spielen. Auch diesbezüglich ist daher zu fordern, dass vor der Einführung KI-gestützter Feedbackmethoden oder begleitend zu ihr eine Reform der Leistungsbeurteilung in Gang gesetzt wird. Fatal wäre es dagegen, wenn Lehrpersonen das Programm mit der Vorstellung einsetzen würden, sie könnten ihre Notengebung damit unterfüttern oder gar daran delegieren (Winter 2018b).

Erfahrungssammlung, Evaluation, Forschung und Kontrolle

Die Wirksamkeit von Feedback hängt – wie gerade kurz vorgetragen – also von vielen Faktoren und Rahmenbedingen des schulischen Lernens ab. Das trifft gleichermaßen auf die bisherigen als auch auf KI-gestützte Feedbackverfahren zu. Daher ist es notwendig deren Einführung sorgfältig zu planen und dann zu prüfen, wie sich die Maßnahmen auf das Lernen, die Unterrichtsgestaltung und auf die Einstellungen sowie die Motivation der Betroffenen und Beteiligten auswirken. Es ist nicht einfach davon auszugehen, dass die positiven empirischen Belege für die lernförderliche Wirkung von Feedback sowie für eine formative Leistungsbeurteilung auf das neue Arrangement übertragen werden können. Sie sind in anderen Kontexten gewonnen und müssen daher neu beforscht werden. Es ist zu erwarten bzw. sicher, dass die Lernenden KI-gestütztes Feedback anders wahrnehmen und eventuell auch nutzen, als solches, das sie von Lehrpersonen erhalten.

Und es gibt noch ein Problem, das es zu beachten gilt: Die meisten der programmierten Systeme werden privatwirtschaftlich entwickelt und die zugrundeliegenden Algorithmen sind nicht einsehbar. Das erschwert es, ihre Wirkweisen zu erkennen und zu beforschen. Weiterhin ist mit dem Einsatz privatwirtschaftlich entwickelter Programme in den Schulen die nicht von der Hand zu weisende Gefahr verbunden, dass sensible Daten zu den Schülerinnen und Schülern gesammelt und unkontrolliert genutzt werden können. Diesbezüglich gilt es Vorkehrungen zu treffen.

Meine Erfahrungen mit Fiete

Soweit ich mir bislang über einen kleinen Versuch ein Bild von den Arbeitsweisen des Programms „Fiete“ machen konnte, scheint es mir gut geeignet, Schülerinnen und Schülern konkrete Hinweise zur Überarbeitung von Produkten zu vermitteln. Einige davon waren sehr eindrucksvoll und gingen über meine gesetzten Kriterien hinaus. Die Lernenden wurden auf ansprechende Weise ermutigt, weiter an der Verbesserung zu arbeiten. Ein Rückfluss mit Informationen an die Lehrperson ist vorhanden und kann von ihr genutzt werden. Alle Empfehlungen sind einsehbar. Wieweit die Säulendiagramme zu den einzelnen Kriterien nützliche Information vermitteln, ist mir nicht ganz klar geworden. Sicher scheint mir aber zu sein, dass sie und die Balkendiagramme (zum erzielten Fortschritt zwischen erster und zweiter Version) nicht ohne weiteres für die vergleichende Leistungsbewertung genutzt werden können und sollen. Denn ob hier umfassende und valide Kriterien für einen Leistungsvergleich zum Einsatz kommen, ist nicht klar. Das Tool ist deutlich für die Anregung von Verbesserungen im Detail und auch an der Konstruktion von Texten ausgelegt, nicht aber für Leistungsvergleiche. Das ist auch gut so.

Tiefer greifende Lern- und Entwicklungsdiagnosen und entsprechende Fördervorschläge, die über die Bereitstellung von Informationen für die Überarbeitung einzelner aufgabenbezogener Texte oder anderer Produkte hinausgehen, sind derzeit wohl noch nicht möglich und können vielleicht auch gar nicht das Ziel sein. Vermutlich sind diese generell besser bei der Konferenzarbeit von Lehrpersonen und anderen Betreuungspersonen sowie Eltern und Schülern aufgehoben, welche die Lernenden kennen und vieldimensional einschätzen sowie persönlich begleiten und fördern können – Stichwort: Eltern-Lehrer-Schülergespräche. In diesen Kontexten können Diagnosen auch kommunikativ validiert werden.

Für Lehrpersonen und Schulen, die in ihrem Unterricht eine vielfältige Feedbackkultur aufbauen und nutzen wollen, scheint mir das Programm eine besondere Komponente bereitzustellen, die zu mehr und schnellerem Feedback führt. Allerdings ist es wichtig, dass Lehrpersonen und Schulen bei der Einführung des Tools Vorstellungen dazu entwickeln, wie sie das Programm nutzen und evaluieren wollen. Es braucht Überlegungen dazu, was die Lehrperson an das Tool delegiert, wie sie es selbst für sich nutzt und welche ergänzenden Feedbackmaßnahmen sie in der Klasse organisiert oder selbst übernimmt. Auch das Verhältnis zur Leistungsbewertung sollte vorab bedacht und sorgfältig geklärt werden.

Literatur

Black, Paul; Wiliam, Dylan (2009): Developing the theory of formative assessment. In: Educational Assessment. Evaluation and Accountability Jg. 21, H. 1, S. 5–31.

Busse, Vera u. a. (Hrsg.)(2019): Feedback. Friedrich Jahresheft Jg. 37. Seelze: Friedrichverlag.

Chappuis, Jan; Stiggins, Rick; Chappuis, Steve; Arter, Judith (22012): Classroom assessment for student learning. Upper Sadle River: Pearson.

Hattie, John (2013): Lernen sichtbar machen. Baltmannsweiler: Schneider.

Helmke, Andreas (2009): Unterrichtsqualität und Lehrerprofessionalität. Diagnose, Evaluation und Verbesserung des Unterrichts. Seelze-Velber: Kallmeyer u.a.

Jacobs, Bernhard (2008): Was wissen wir über die Lernwirksamkeit von Aufgabenstellungen und Feedback? In: Thonhauser, J. (Hrsg.): Aufgaben als Katalysatoren von Lernprozessen. Münster: Waxmann, S. 99-114.

Müller, Andreas; Ditton, Hartmut (2014): Feedback: Begriff, Formen und Funktionen. In: Dies.: Feedback und Rückmeldungen. Münster: Waxmann.

Nölte, Björn; Wampfler, Philippe (2021): Eine Schule ohne Noten. Bern: hep.

Scheuer, Stephan (2024): Das Schweigen der Tech-Konzerne. In Wahrheit lähmen uns die Assistenzsysteme auch an einigen Stellen. In: Handelsblatt 4.3. 24, S. 17.

Terhart, Ewald (2021): Lehrer/Lehrerin: Der Beruf als Profession. In: Lernende Schule, Jg. 24, H. 94, S. 4-7.

Wiliam, Dylan (o.J.): The Classroom Experiment.https://www.youtube.com/watch?v=J25d9aC1GZA; https://www.youtube.com/watch?v=1iD6Zadhg4M&t=0s (19.10.2023)

Winter, Felix (2016): Rückmeldungen: drei Irrtümer und einige Neuigkeiten. In: Friedrich Jahresheft Jg. 34, S. 73-75.

Winter, Felix (2018a): Lerndialog statt Noten. Neue Formen der Leistungsbeurteilung. Weinheim: Beltz.

Winter, Felix (2018b): Auslagern oder integrieren? Fragen zur Zukunft der Leistungsbeurteilung an den Schulen. In: Lernende Schule Jg. 21, H. 84, S. 8-12.

Winter, Felix (2021a): Welches Feedback ist lernförderlich? In: Pädagogik, Jg. 73; H. 5, S. 6-10.

Winter, Felix (2021b): Noch 50 Jahre mit Ziffernzensuren? In: Pädagogik, Jg. 73; H. 5, S. 29-32.

Winter, Felix (2024): Das Dialogische Lernkonzept – Prüfen und Fördern integrieren. In: Langela-Bickenbach, A.; Dreier, R.; Wampfler, Ph.; Albrecht, Ch. (Hrsg.): Wege zu einer zeitgemäßen Prüfungskultur. Weinheim:Beltz, S. 119-135.

Zum Autor

Felix Winter ist Diplompsychologe und Bildungswissenschaftler. Er hat als Lehrer und Forscher an den Schulprojekten der Bielefelder Universität gearbeitet und bis 2013 in der Ausbildung von Gymnasiallehrpersonen an der Universität Zürich. Heute berät er Schulen und Bildungssysteme bezüglich neuer Formen der Leistungsbeurteilung und Prüfung. Als Diagnostiker hat er vielfach die Notengebung als Leistungsbewertung kritisiert und sich insbesondere für den Einsatz von Portfolios engagiert und dazu publiziert. Außerdem zum Dialogischen Lernkonzept (Ruf/Gallin) und zur Feedbackkultur im Unterricht.

Links

Ausführliches Interview zur Leistungsbeurteilung auf YouTube: https://www.youtube.com/watch?v=uPyLWz-Gi04