11. Mai 2026 · 5 Min. Lesezeit

Bias in generativer KI: Status quo, Fortschritte, blinde Flecken

Wer ChatGPT auffordert, ein Bild einer Lehrkraft zu erzeugen, bekommt mit hoher Wahrscheinlichkeit eine relativ junge, Brille tragende Frau mit Zahnarztlächeln zu sehen, die vor einer Tafel steht. Die Bildgeneratoren reproduzieren das Bild der Welt, das ihre Trainingsdaten ihnen mitgegeben haben, also den Ausschnitt, den Internet, Verlage und Stockbild-Agenturen dokumentieren. Das Phänomen heißt Bias und ist seit Jahren Dauerthema der KI-Debatte. Während sich die Diskussion in derselben Schleife bewegt, haben sich die Modelle weiterentwickelt. Eine Bestandsaufnahme.

Was Bias eigentlich heißt

Zunächst ist festzuhalten, dass der Begriff „Bias“ recht unscharf ist, weil er für mindestens vier verschiedene Phänomene steht.

Repräsentationsbias bezeichnet stereotype Outputs: z.B. Frauen häufiger in pflegenden, Männer in technischen Rollen, nicht-westliche Kulturen in Klischeebildern.
Allokativer Bias meint ungleiche Behandlung in Entscheidungen, etwa wenn die Vorauswahl von Bewerbungen Frauen systematisch benachteiligt.
Politischer und kultureller Bias erfasst ideologische Schieflagen sowie die englische und US-amerikanische Dominanz in Trainingsdaten und Entwicklerteams.
Verfahrensbias entsteht im Training selbst: durch Reinforcement Learning aus menschlichem Feedback, das Modelle systematisch zustimmend und positiv klingen lässt – eine Verzerrung in Richtung sozialer Erwünschtheit.

Diese Dimensionen verhalten sich messtechnisch und ethisch unterschiedlich. Darum macht es Sinn, KI nicht pauschal dafür zu verurteilen, dass sie eine Bias aufweist. Zumal in den letzten Jahren eine deutlich positive Entwicklung zu beobachten ist, weil verschiedene Verzerrungen in den Outputs als problematisch gekennzeichnet wurden und in der Folge an Korrekturen gearbeitet wurde.

Was sich verändert hat

Die ersten Generationen großer Sprachmodelle waren Fundgruben für Bias-Forscher*innen. Word-Embeddings vor 2020 gaben auf die Analogie „Mann verhält sich zu Programmierer wie Frau zu …“ das Wort „Hausfrau“ aus. GPT-3 schrieb auf Anfrage rassistische Witze. Bilder von „CEO“ zeigten Männer, Bilder von „Putzkraft“ Frauen mit dunklerer Hautfarbe.

Mit Reinforcement Learning aus menschlichem Feedback (RLHF) und mit Constitutional AI (einem Verfahren, das Modelle ihre Outputs an expliziten Prinzipien selbst kritisieren lässt) wurde ein Großteil der auffälligen Outputs adressiert. Eine Vergleichsstudie im Journal of Computer Science and AI (Simpson et al. 2025), die sechs Modellarchitekturen prüft, dokumentiert messbare Reduktionen bei expliziten Stereotype-Tests, mit RLHF und adversarialem Training als wirksamsten Verfahren. Politische Schieflagen werden weniger plump: Eine Längsschnittstudie von Aksoy et al. über GPT-3.5 bis GPT-5 dokumentiert deutliche Verschiebungen, mit dem Ergebnis, dass neuere Modelle weniger links-orientiert wirken.

Den langsamsten Fortschritt zeigt die Bildgenerierung. Die Aymara Image Fairness Evaluation prüfte 2025 dreizehn kommerzielle Bildmodelle: Bei nicht-stereotypen Berufen erzeugen sie zu 68 Prozent männliche Personen. Stereotype werden über die Realdaten des Arbeitsmarkts hinaus verstärkt. Janus-Pro, ein 2025 veröffentlichtes Modell, schneidet schlechter ab als Stable Diffusion von 2022.

Was bleibt

Eine PNAS-Studie von Bai und Kollegen zeigt das zentrale Muster aktueller Modelle: Sie bestehen explizite Bias-Tests und scheitern an impliziten. In Verfahren, die dem Implicit Association Test der Sozialpsychologie nachempfunden sind, assoziieren die Modelle Frauennamen mit Heim und Geisteswissenschaften, Männernamen mit Wissenschaft und Macht. Die Parallele zum Menschen, der egalitäre Werte vertritt und trotzdem implizite Vorurteile zeigt, ist auffällig.

Hinzu kommt sprachlicher Bias. Englisch ist Trainingszentrum, Deutsch Peripherie, viele Sprachen sind kaum vertreten. Eine Frage auf Französisch zu einem deutschen Schulthema bringt schlechtere Antworten als dieselbe Frage auf Englisch zu einem US-Schulthema. Auch der Maßstab ist Setzung: Die meisten Bias-Benchmarks sind US-amerikanisch konzipiert. Was dort nicht als Bias gilt, fällt durch das Raster.

Mensch oder KI – wer ist verlässlicher?

Ob nun die KI oder der Mensch als verlässlicher gelten kann, kann man nicht pauschal sagen. Bekannte Denkfehler, die bei Menschen seit Jahrzehnten erforscht sind – sich am ersten Eindruck festbeißen (Anchoring), sich selbst zu sicher sein (Overconfidence), lieber das wahrnehmen, was die eigene Meinung bestätigt (Bestätigungsfehler) – machen aktuelle Sprachmodelle ebenfalls. Eine Studie von Chen et al. prüfte 2025 GPT-3.5 und GPT-4 auf 18 solcher Verzerrungen und fand sie in 15 von 36 Fällen wieder, manche schwächer als beim Menschen, manche stärker. Die KI ist also kein nüchterner Gegenpol zum verzerrten menschlichen Urteil. Sie ist ein verzerrter Spiegel.

Anders fällt das Bild aus, wenn beide zusammenarbeiten. Eine Untersuchung von Kaya und Bogers auf der größten dänischen Jobplattform verglich drei Verfahren der Bewerbervorauswahl: Menschen allein, Algorithmus allein, und beide kombiniert. Das Ergebnis: Menschen produzierten fairere Trefferlisten als der Algorithmus allein. Am fairsten war jedoch das hybride Verfahren: Mensch und Maschine zusammen schnitten besser ab als jede Seite für sich.

Beide Befunde zusammen ergeben das beste Bild zum Status Quo in Sachen Bias: Am verlässlichsten sind dementsprechend Verfahren, in denen sowohl Menschen als auch eine KI involviert sind. Haben beide Seiten denselben blinden Fleck, verstärkt er sich. Sind ihre blinden Flecken unterschiedlich, können sie einander korrigieren.

Wollen Sie verstehen, wo KI-Verzerrungen im Schulalltag konkret auftreten – und wie Sie damit umgehen können? In meinen Workshops arbeite ich an konkreten Beispielen aus Unterricht und Schulorganisation.

Bias in generativer KI: Status quo, Fortschritte, blinde Flecken

Was Bias eigentlich heißt

Was sich verändert hat

Was bleibt

Mensch oder KI – wer ist verlässlicher?

Weitere Artikel

Werkzeug oder Begleiter? Die soziale Dimension unserer KI-Nutzung

Mein Haus, meine Familie, meine KI?

Kommunikation ohne Scham: Was Menschen einer Maschine anvertrauen