Prof. Dr. René Peinl vom Institut für Informationssysteme der Hochschule Hof (iisys) zeigt mit einer Arbeit auf, wie Sprachmodelle helfen können, Verzerrungen in KI-generierten Bildern zu vermeiden.

Künstliche Intelligenz erzeugt mittlerweile erstaunlich realistische Bilder – doch sie hat ein Problem: Viele dieser Bilder spiegeln stereotype Vorstellungen wider. Frauen erscheinen eher als Krankenschwestern, Männer als Feuerwehrleute. Bestimmte Ethnien werden häufiger in problematischen Kontexten dargestellt. Solche Verzerrungen (Biases) sind nicht nur ärgerlich, sondern können gesellschaftliche Vorurteile verstärken.
Ein aktueller Beitrag von Prof. Peinl von der Hochschule Hof zeigt nun einen vielversprechenden Weg auf, wie diese Verzerrungen reduziert werden können – ganz ohne die Bild-KI selbst zu verändern.
Die Lösung: Sprachmodelle überarbeiten die Nutzereingaben
Der Ansatz ist ebenso einfach wie effektiv: Statt direkt einen Prompt (z. B. „eine Ärztin“) an die Bild-KI zu schicken, wird dieser zuerst von einem großen Sprachmodell (LLM) wie ChatGPT oder Claude „übersetzt“. Diese Modelle analysieren, welche Informationen fehlen könnten – etwa zu Geschlecht, Alter oder Hautfarbe – und formulieren daraus eine vielfältigere Beschreibung. So entsteht nicht nur ein einzelnes Bild, sondern eine ganze Bandbreite an Darstellungen.
Das Überraschende: Die so generierten Bilder sind nicht nur fairer, sondern oft auch kreativer und visuell ansprechender als die aus den ursprünglichen Prompts.“
Prof. Dr. René Peinl

Ergebnisse mit Tiefgang
In der Studie wurden über 2400 Bilder mit und ohne Prompt-Überarbeitung verglichen. Besonders auffällig war: Während bei neutralen Prompts wie „eine glückliche Familie“ vorher fast ausschließlich weiße, heterosexuelle Paare gezeigt wurden, sorgten die LLMs für deutlich mehr Diversität – sowohl bei Ethnie als auch bei Geschlecht, Alter oder Körperform.
Bei Berufen wie Ärztinnen/Ärzten oder Soldatinnen/Soldaten gelang es den Sprachmodellen meist gut, stereotype Darstellungen aufzubrechen. In Einzelfällen kam es jedoch zu Überkorrekturen – etwa wenn aus „ein Soldat“ plötzlich vier weibliche Soldatinnen wurden oder eine Bild-KI eine Figur mit Vogelkopf darstellte, weil der Prompt zu extravagant war.
Nicht perfekt, aber richtungsweisend
Natürlich ist der Einsatz von Sprachmodellen kein Allheilmittel. Sie benötigen Rechenzeit, verursachen zusätzliche Wartezeiten – und bei sehr spezifischen Prompts kann es passieren, dass sie die Nutzerabsicht nicht richtig erfassen. Dennoch zeigt die Studie: Die Kombination aus KI und ethischem Feingefühl kann funktionieren.
Prof. Peinl sieht großes Potenzial, diese Technik in der Praxis einzusetzen – etwa durch kleinere, speziell trainierte Sprachmodelle, die direkt in Bildgeneratoren integriert werden könnten. „Perspektivisch könnten sogar landesspezifische oder personalisierte Prompt-Anpassungen möglich werden“, so der Forscher.
Weniger Bias, mehr Vielfalt
Die Studie liefert einen wichtigen Beitrag zur Frage, wie wir mit KI verantwortungsvoll Bilder erzeugen können. Sie zeigt, dass bereits einfache Eingriffe – wie die Umformulierung eines Prompts durch ein Sprachmodell – viel bewirken können. Und dass „divers“ nicht nur politisch korrekt, sondern auch visuell spannend sein kann.