Warum Lehrkräfte KI direkt lernen sollten
EdTech-Plattformen versprechen einfachen Zugang zu KI, schaffen aber Abhängigkeiten und vermitteln keine echte Kompetenz.
Artikel lesen"Wissenschaftlich belegt: ChatGPT macht dumm!" – "Studie zeigt: KI schwächt kritisches Denken!" – "Evidenzbasiert: Schüler lernen mit KI weniger." Wer sich in bildungspolitischen Debatten auf Social Media bewegt, kennt solche Schlagzeilen. Sie werden geteilt, kommentiert, als Argument in Diskussionen genutzt. Das Wort "evidenzbasiert" verleiht den Aussagen Gewicht, suggeriert wissenschaftliche Fundierung und unanfechtbare Wahrheit.
Doch ein genauerer Blick auf die zitierten Studien zeigt: Oft werden Thesen verlautbart, die durch die tatsächlich gemessenen Ergebnisse keinesfalls gedeckt sind. Die Studienlandschaft zu KI und Bildung ist komplex, methodisch herausfordernd und vor allem: Sie hinkt der technologischen Entwicklung zwangsläufig hinterher. Wer kritisch denken möchte, sollte auch Studien kritisch lesen – gerade wenn sie die eigene Meinung zu bestätigen scheinen.
Wissenschaftliche Studien brauchen Zeit. Von der Konzeption über die Ethikgenehmigung, Teilnehmerrekrutierung und Datenerhebung bis zur Auswertung, Peer-Review und Publikation vergehen leicht eineinhalb bis zwei Jahre, oft länger. Das ist bei den meisten Forschungsthemen kein Problem. Bei KI schon.
ChatGPT wurde Ende 2022 öffentlich zugänglich gemacht – mit GPT-3.5 als zugrunde liegendem Modell. Im März 2023 folgte GPT-4, im Mai 2024 GPT-4o, im August 2025 GPT-5 und im November 2025 bereits GPT-5.1. Jede dieser Versionen brachte substanzielle Verbesserungen in Verständnis, Genauigkeit und Leistungsfähigkeit. Die Entwicklung verläuft nicht linear, sondern exponentiell.
Was bedeutet das für Studien? Eine Untersuchung, die 2023 begonnen wurde und 2024 oder 2025 publiziert wird, hat mit hoher Wahrscheinlichkeit mit GPT-3.5 oder frühen Versionen von GPT-4 gearbeitet. Ihre Ergebnisse beschreiben also Modelle, die zum Zeitpunkt der Veröffentlichung bereits technisch überholt sind. Aussagen über "die KI" oder "ChatGPT allgemein" lassen sich daraus nicht ableiten – bestenfalls Aussagen über spezifische, mittlerweile veraltete Modellversionen.
Dieses strukturelle Problem ist nicht den Forschenden anzulasten. Es liegt in der Natur der Sache: Sorgfältige empirische Forschung braucht Zeit, technologische Innovation bewegt sich schneller. Wer aber Studienergebnisse zitiert, sollte diese zeitliche Diskrepanz im Blick behalten.
Klassische Experimentaldesigns arbeiten mit Kontrollgruppen. Man vergleicht eine Gruppe, die einer bestimmten Intervention ausgesetzt ist, mit einer Gruppe, die es nicht ist. Nach einem definierten Zeitraum vergleicht man die Ergebnisse und zieht Schlussfolgerungen über die Wirkung der Intervention.
Bei KI stellt sich die Frage: Kann es überhaupt eine Kontrollgruppe geben, die keine KI nutzt? Wie wollte man das sicherstellen? ChatGPT ist frei verfügbar, auf jedem Smartphone nutzbar, in Suchmaschinen integriert, in Textverarbeitungsprogrammen eingebettet. Selbst wenn Studierende angewiesen werden, für eine Untersuchung auf KI zu verzichten – wie lässt sich das kontrollieren?
Mehr noch: Viele Schüler*innen und Studierende nutzen KI bereits routinemäßig, ohne dass sie sich dessen immer bewusst sind. Autokorrektur, Übersetzungstools, Suchvorschläge – die Grenzen sind fließend. Eine "KI-freie" Kontrollgruppe zu definieren, ist praktisch unmöglich.
Das führt zu methodischen Verzerrungen, die in den Studien selbst oft benannt, in der medialen Rezeption aber ignoriert werden. Studienergebnisse sind dann keine objektiven Messungen einer klar definierten Intervention, sondern bestenfalls Momentaufnahmen in einem hochdynamischen, unkontrollierten Feld.
Schauen wir uns zwei häufig referenzierte Studien genauer an.
Diese Studie des MIT Media Lab untersuchte die neurologischen und verhaltensbezogenen Auswirkungen der Nutzung von Large Language Models beim Essay-Schreiben. 54 Teilnehmende wurden in drei Gruppen eingeteilt: eine arbeitete mit einem LLM, eine mit Suchmaschinen, eine ohne technische Hilfsmittel ("Brain-only"). Über vier Sitzungen hinweg wurden mittels Elektroenzephalographie (EEG) die Hirnaktivitäten gemessen.
Die Ergebnisse: Die LLM-Nutzer*innen zeigten die schwächste Gehirnkonnektivität, die "Brain-only"-Gruppe die stärkste. LLM-Nutzer*innen berichteten außerdem von geringerem Ownership-Gefühl bezüglich ihrer Texte und hatten Schwierigkeiten, ihre eigenen Formulierungen korrekt zu zitieren. Die Studie spricht von "kognitiven Kosten" und warnt vor langfristigen Bildungsimplikationen.
Diese Ergebnisse wurden in sozialen Medien breit geteilt – häufig mit der Interpretation: "Wissenschaftlich bewiesen: ChatGPT macht faul und dumm." Doch was zeigt die Studie tatsächlich?
Erstens: Sie misst Hirnaktivität während der Nutzung eines Werkzeugs. Dass diese geringer ist, wenn ein Werkzeug Arbeit abnimmt, ist nicht überraschend. Auch wer mit einem Taschenrechner arbeitet, zeigt weniger kognitive Aktivität im Bereich des Kopfrechnens. Das ist keine Pathologie, sondern die normale Funktion von Werkzeugen: Sie entlasten.
Zweitens: Die Studie sagt nichts über langfristige Effekte aus. Sie misst, was während der Nutzung passiert, nicht, was danach bleibt. Ob die geringere Aktivität während der Arbeit mit KI zu schlechteren Lernergebnissen führt, bleibt offen.
Drittens: Das Ownership-Problem ist real und wichtig – aber es ist kein Beweis für kognitive Schädigung, sondern ein Hinweis auf veränderte Autorschaft. Das ist eine pädagogische Herausforderung, keine neurologische Katastrophe.
Die Studie liefert wertvolle Hinweise auf Mechanismen. Sie "beweist" aber nicht, dass KI dumm macht. Diese Interpretation ist eine Überzeichnung, die mehr über die Erwartungen der Rezipierenden aussagt als über die Studienergebnisse.
Eine weitere häufig zitierte Untersuchung beschäftigt sich mit den Auswirkungen von KI-Chatbots auf das kritische Denken. Die in der Zeitschrift Societies veröffentlichte Studie von Michael Gerlich befragte 666 Teilnehmende verschiedener Altersgruppen und Bildungshintergründe. Die Ergebnisse zeigten eine signifikante negative Korrelation zwischen häufiger KI-Nutzung und Fähigkeiten zum kritischen Denken, vermittelt durch zunehmende kognitive Entlastung (Cognitive Offloading). Die Befürchtung: Wer sich auf KI-generierte Antworten verlässt, verlernt es, selbst kritisch zu hinterfragen.
Auch hier gilt: Die Ergebnisse solcher Studien sind methodisch komplex. Kritisches Denken ist schwer messbar, die Operationalisierung in Testszenarien immer eine Vereinfachung. Und auch hier stellt sich die Frage: Was wird eigentlich verglichen? Studierende, die KI nutzen, mit Studierenden, die Suchmaschinen nutzen? Mit Studierenden, die Lehrbücher nutzen? Mit Studierenden, die gar keine Hilfsmittel nutzen?
Jede dieser Vergleichsgruppen würde andere Schlussfolgerungen nahelegen. Die Ergebnisse solcher Studien sagen weniger über "die KI" als Technologie aus als vielmehr über die spezifischen Nutzungskontexte und -kompetenzen. Denn auch Suchmaschinen können kritisches Denken untergraben, wenn sie unreflektiert genutzt werden. Die Art der Nutzung spielt eine entscheidende Rolle – nicht allein das Werkzeug.
Die verzerrte Rezeption von Studien hat psychologische Gründe. Der Confirmation Bias – die Neigung, Informationen so zu interpretieren, dass sie die eigene Meinung bestätigen – spielt eine zentrale Rolle.
Wer KI skeptisch gegenübersteht, wird Studien, die Probleme zeigen, bereitwillig teilen und als Beweis für die eigene Position interpretieren. Wer von KI überzeugt ist, wird dieselben Studien als methodisch fragwürdig abtun oder Einschränkungen betonen. Beide Seiten suchen nicht nach Wahrheit, sondern nach Bestätigung.
Verschärft wird das durch den Bedarf an Autoritätsargumenten. In bildungspolitischen Debatten wird "die Wissenschaft" als neutrale Instanz angerufen – als ob es die eine wissenschaftliche Wahrheit gäbe. Studien werden zu symbolischem Kapital, das man in Diskussionen einsetzt: "Hier, eine Studie, die mir recht gibt."
Das funktioniert in beide Richtungen. Sowohl Befürworter*innen als auch Gegner*innen von KI im Bildungsbereich nutzen Studien strategisch, um ihre Position zu legitimieren. Die tatsächlichen Inhalte, methodischen Einschränkungen und Interpretationsspielräume der Studien geraten dabei in den Hintergrund.
Das Wort "evidenzbasiert" hat in den letzten Jahren eine bemerkenswerte Karriere gemacht – nicht zuletzt in KI-generierten Texten, die es gerne als Platzhalter für Wissenschaftlichkeit verwenden. Doch was bedeutet es eigentlich?
Evidenzbasiert heißt nicht: wissenschaftlich bewiesen und unanfechtbar. Es heißt: auf empirischen Befunden beruhend, die systematisch erhoben und transparent dokumentiert wurden. Evidenzbasierung ist ein Prozess, keine Wahrheitsgarantie. Sie setzt voraus, dass man die Evidenz versteht – ihre Entstehung, ihre Grenzen, ihre Kontexte.
Im Fall von KI und Bildung müssen wir uns eingestehen: Wirklich belastbare, langfristige, methodisch saubere Evidenz gibt es noch kaum. Dafür ist die Technologie zu neu, zu dynamisch, zu allgegenwärtig. Was es gibt, sind erste Hinweise, explorative Studien, Momentaufnahmen.
Das bedeutet nicht, dass Forschung nutzlos ist. Im Gegenteil: Sie hilft, Mechanismen zu verstehen, Hypothesen zu entwickeln, Risiken zu identifizieren. Aber sie liefert keine endgültigen Antworten auf die Frage, ob KI in Schulen gut oder schlecht ist. Diese Frage ist ohnehin zu pauschal.
Für Lehrkräfte bedeutet das: Vorsicht vor scheinbar eindeutigen Studienaussagen. Wenn jemand behauptet, "wissenschaftlich bewiesen" sei, dass KI schädlich oder hilfreich ist, lohnt sich die Nachfrage:
Diese Fragen zu stellen, ist kein Angriff auf Wissenschaft, sondern wissenschaftliches Denken. Kritische Reflexion bedeutet nicht, Studien grundsätzlich abzulehnen, sondern sie in ihrem Kontext zu verstehen.
Wichtiger noch: Lehrkräfte sollten sich nicht von vermeintlich eindeutigen Studienergebnissen einschüchtern lassen. Weder in die eine noch in die andere Richtung. Die Frage, ob und wie KI im Unterricht eingesetzt werden soll, lässt sich nicht durch eine Studie beantworten. Sie erfordert pädagogisches Urteilsvermögen, das auf Erfahrung, Reflexion und kontextbezogener Abwägung beruht.
In einer Phase, in der die Forschung der Praxis zwangsläufig hinterherhinkt, gewinnt die reflektierte Praxiserfahrung an Bedeutung. Lehrkräfte, die selbst mit KI arbeiten, entwickeln ein Gespür dafür, wo die Technologie hilfreich ist und wo problematisch. Dieses Erfahrungswissen ist nicht beliebig oder unwissenschaftlich – es ist situiert, kontextbezogen und oft präziser als allgemeine Studienaussagen.
Das bedeutet nicht, dass jede Lehrkraft für sich selbst entscheiden soll, ohne auf andere zu hören. Es bedeutet, dass wir aktuell in einer Übergangsphase sind, in der praktische Erprobung und kollegialer Austausch ebenso wichtig sind wie Forschungsbefunde. Beides sollte sich ergänzen, nicht gegeneinander ausgespielt werden.
Entscheidend ist die kritische Haltung: sowohl gegenüber Studien als auch gegenüber der eigenen Praxis. Wer Studien unkritisch als Autoritätsargument nutzt, macht es sich zu einfach. Wer Studien grundsätzlich ignoriert, ebenfalls. Der produktive Weg liegt dazwischen: Studien ernst nehmen, ihre Grenzen erkennen, eigene Erfahrungen reflektieren und beides miteinander ins Gespräch bringen.
Die Debatte über KI und Bildung wird emotional geführt. Beide Seiten suchen nach wissenschaftlicher Legitimation für ihre Positionen. Studien werden zu Munition in einem Stellungskrieg, in dem es weniger um Erkenntnisgewinn geht als um Rechtfertigung.
Dabei wäre gerade hier kritisches Denken angebracht – jene Fähigkeit, die durch KI angeblich gefährdet ist. Wer kritisch denken möchte, muss auch Studien kritisch lesen. Das bedeutet: verstehen, was gemessen wurde, erkennen, was nicht gemessen wurde, und einordnen, was die Ergebnisse tatsächlich aussagen.
Die gute Nachricht: Wir müssen nicht auf die eine große, endgültige Studie warten, die alle Fragen klärt. Diese Studie wird es nicht geben. Stattdessen brauchen wir eine Kultur der reflektierten Praxis, in der Forschungsbefunde und Praxiserfahrung gleichberechtigt nebeneinanderstehen und kritisch diskutiert werden.
Lehrkräfte, die KI verstehen wollen, sollten sie nutzen, ausprobieren, reflektieren – und dabei sowohl Studienergebnisse als auch die eigene Erfahrung ernst nehmen. Nicht unkritisch, nicht dogmatisch, sondern mit der Bereitschaft, zu lernen und Positionen zu revidieren. Das ist keine Abkehr von Wissenschaftlichkeit, sondern deren Kern.
Möchten Sie lernen, wie Sie KI reflektiert nutzen und kritisch bewerten können? Die Reflexions-Workshops auf ki-lehren.de bieten Raum für genau diese Auseinandersetzung: Wir diskutieren Studienergebnisse, erproben praktische Anwendungen und entwickeln gemeinsam ein differenziertes Verständnis für die Möglichkeiten und Grenzen von KI im Bildungskontext. Nicht als vorgefertigte Lösung, sondern als Prozess kritischer Reflexion.
© Sven Lüder, www.ki-lehren.de
EdTech-Plattformen versprechen einfachen Zugang zu KI, schaffen aber Abhängigkeiten und vermitteln keine echte Kompetenz.
Artikel lesenKI stellt traditionelle Leistungsformate in Frage – bietet aber auch massive Entlastung und neue Möglichkeiten.
Artikel lesenEine kritische Betrachtung der medialen Berichterstattung über KI-Fehler und die EBU-Studie.
Artikel lesen