Ein Abstecher nach Sachsen-Anhalt – was eine KI-Studie über unsere Vorurteile verrät
- Barbara Oberrauter

- 14. Okt.
- 2 Min. Lesezeit
Habt ihr schon mal einen Abstecher nach Sachsen-Anhalt gemacht? War’s schön? Oder: Ist es wirklich the worst – wie eine Studie jetzt behauptet?
Bevor jetzt die Reiseführer-Flammenwerfer starten: Der Titel „Saxony-Anhalt is the Worst“ bezieht sich nicht auf Tourismus, sondern auf eine wissenschaftliche Studie der Hochschule München, die untersucht hat, wie KI-Sprachmodelle deutsche Bundesländer bewerten.
Kurz: Die Studie zeigt, dass Sprachmodelle wie ChatGPT & Co. Ostdeutschland durchweg schlechter bewerten – nicht nur bei weichen Attributen wie Fleiß oder Attraktivität, sondern sogar bei „neutralen“ Werten wie der Körpertemperatur.
Was war drin in der Studie?
Die Studie „Saxony-Anhalt is the Worst: Bias Towards German Federal States in Large Language Models“ (Kruspe & Stillman, 2024) hat drei Modelle getestet: ChatGPT-3.5, ChatGPT-4 und LeoLM.
Diese Modelle bekamen Aufgaben, Bundesländer zu bewerten – sowohl mit subjektiven Merkmalen (z. B. „Fleiß“, „Attraktivität“, „Arroganz“) als auch mit objektiven Merkmalen (z. B. geschätzte Durchschnittstemperatur, Bevölkerungsdichte etc.).
Und das Ergebnis? Die ostdeutschen Bundesländer – besonders Sachsen-Anhalt – landeten systematisch schlechter.
Ein paar Highlights:
Ostdeutsche wurden weniger fleißig bewertet – und gleichzeitig auch weniger faul. Widersprüchlich? Ja. Aber konsequent mit dem Muster, Ost „negativer“ zu sehen.
Bei neutralen Fragen (z. B. „Wie hoch ist die durchschnittliche Körpertemperatur?“) sagten manche Modelle: Ostdeutsche hätten niedrigere Werte. Nur GPT-4 erkannte korrekt: Temperatur ist überall gleich.
Selbst auf Deutsch und Englisch formulierte Prompts führten zu denselben Verzerrungen – der Bias ist sprachübergreifend.
Diese Befunde deuten darauf hin: Der Bias ist tief verankert – nicht bloß eine Ausrutscher-Antwort, sondern Teil dessen, was das Modell gelernt hat.
Was sollten wir als „normale Nutzer:innen“ damit anfangen?
Okay, wir können keine Modelle neu trainieren. Aber wir können:
1. Skepsis kultivieren
Wenn eine KI über Menschen urteilt – haltet inne. Überleg: Stecken da Vorurteile drin, die das Modell mitgeliefert bekommen hat?
2. Kontexte einfordern
Fragt gezielt nach Quellen, nach Daten oder nach Gegenbeispielen. Nicht blind glauben, was eine KI sagt.
3. Vergleichen
Wenn eine KI etwas über Region, Herkunft oder Eigenschaften sagt – macht denselben Prompt mit anderen Regionen oder Bezeichnungen. Tritt der gleiche Ton auf? Das kann auf Vorurteile hinweisen.
4. Menschliche Urteilskraft nicht aus der Hand geben
Wenn’s um Menschen geht (Bewerbungen, Einschätzungen, Ratings) – sollte KI lediglich ein Werkzeug sein, nicht der Richter. Wir sollten selbst denken, reflektieren und abwägen.
5. Öffentlich diskutieren & hinterfragen
Solche Studien gehören breit bekannt gemacht. Je mehr wir über diese Verzerrungen sprechen, desto eher werden sie erkannt und – mittelbar – bekämpft.
Mein Fazit
Ich find’s spannend und ein bisschen beunruhigend: Eine KI – die wir gerne als neutral ansehen – kann solche Stereotype nachzeichnen, ohne dass wir’s merken.
Wenn ihr also irgendwann mal nach Sachsen-Anhalt fahrt: Lasst euch nicht von so einer KI-„Bewertung“ beeindrucken. Eure eigene Erfahrung zählt mehr als jeder Prompt.



