Die Künstliche Intelligenz und ihre enormen Entwicklungen und Möglichkeiten sind in aller Munde. Seit kurzem stehen Studierenden sowie Mitarbeiterinnen und Mitarbeitern an der Hochschule Hof eigene KI-Tools zur Text- und Bildgenerierung („Lisa und Luis“) zur Verfügung, die auch immer mehr Verwendung finden. Sie wurden eigens durch das KI-Anwenderzentrum am Institut für Informationssysteme (iisys) entwickelt und bereitgestellt. Mit Leiter Prof. Dr. René Peinl haben wir nun über die Tools und die ersten User-Rückmeldungen gesprochen.
Prof. Peinl, warum hat man sich dazu entschieden eigene Tools innerhalb der Hochschule anzubieten?
“Generative KI ist ja spätestens seit ChatGPT vielen zumindest vom Hörensagen bekannt und häufig wird das dann direkt mit den Marktführern assoziiert. Obwohl diese tatsächlich gut funktionieren, sind sie keineswegs so alternativlos, wie häufig angenommen wird. Für jeden Einzelnen ist die Nutzung der Cloud-Angebote von US-Konzerne sehr bequem und nicht schlimm. Gesamtgesellschaftlich befeuern wir dadurch aber freiwillig das nächste Monopol und sorgen dafür, dass unsere heimischen Unternehmen abgehängt werden. Denn KI basiert auf Daten und mit der Nutzung der Dienste generieren wir neue Daten, die dem Anbieter zugutekommen.”
Für welche Anwendungsgebiete sind “Lisa und Luis” ausgelegt?
“Die Werkzeuge sind grundsätzlich relativ vielseitig verwendbar und nicht auf einzelne Anwendungsfälle eingeschränkt. Das ist übrigens auch ein Merkmal fortschrittlicher KI. Besonders gut eignen sie sich aber für Anwendungen, wo es nicht ganz so stark auf faktische Korrektheit ankommt. In einem Werbetext kann ruhig mal ein wenig übertrieben oder blumig umschrieben werden. Ein illustratives Bild für eine Website muss nicht in allen Details 100% den Tatsachen entsprechen. Da kann mal ein Schatten den Lichtverhältnissen widersprechen, oder ein Katze ein ungewöhnliches Fleckenmuster haben, ohne dass es schlimm wäre.”
Für alle, die es noch nicht entdeckt haben: Wie kann man „Lisa und Luis“ konkret nutzen?
“Über die Einstiegsseite ai.hof-university.de kann man die ständig im Ausbau befindlichen Angebote der Hochschule zu KI zugreifen, nachdem man sich angemeldet hat. Dafür wird dieselbe Kennung verwendet, wie für alle anderen Hochschulangebote wie Moodle oder Primuss.”
Wie ist aus Ihrer Sicht der aktuelle Stand der Instrumente?
“Die Entwicklung in der KI ist unglaublich schnell. Ein Modell, das heute noch State-of-the-Art ist, kann in zwei Monaten schon fast wieder überholt sein. Daher ist es auch wichtig, dass wir regelmäßig aktualisieren. So testen wir aktuell das Modell Llama 3, das wegen etwas größerer Modellgröße und deutlich umfangreicheren Trainingsdaten, in einigen Fällen deutlich bessere Ergebnisse erzielt, als das aktuell eingesetzte Modell, das auf dem aus Frankreich stammenden Mistral aufbaut. Der Bildgenerator basiert aktuell auf Stable Diffusion XL Lightning, welches sozusagen die Version 2.5 mit Zusatzbeschleunigung darstellt. Er ist aktuell auf der Höhe der Zeit. Allerdings ist für den 12.6.24 die Veröffentlichung des Nachfolgers v3 angekündigt, so dass wir im Herbst sicher auch hier ein neues Modell anbieten werden. Weiterhin gibt es seit Kurzem auch ein Textmodell zur Generierung von Softwarecode, der den Informatik-Studierenden helfen soll.”
Wer war denn an der Erstellung unserer eigenen KI-Tools beteiligt?
“Auf Professorenseite haben Kollege Sven Rill aus der Informatik-Fakultät, sowie Vizepräsident Dietmar Wolff mitgewirkt. Es war jedoch erstmal ein Stück Überzeugungsarbeit nötig, nicht wie viele andere den vermeintlich leichten Weg zu OpenAI zu gehen. Auf Seite der Mitarbeitenden sind besonders Thomas Herpich, Thomas Weber und Johannes Wirth, sowie auch Noah Lehmann zu nennen. Schließlich hatten wir auch noch studentische Unterstützung, zum Beispiel von Hannes Steinel.”
Welche Schritte sind in diesem Feld für die Zukunft geplant?
“Aufgabe ist, die bestehenden Angebote aktuell zu halten, also alle 3-6 Monate zu aktualisieren, sowie weitere Angebote mit einzubauen. Aktuell sind wir in Gesprächen, wie sich die bestehenden Daten der Hochschule in den Chatbot einbauen lassen, so dass Studierende dann Fragen zur Hochschule über den Chatbot beantwortet bekommen, oder Mitarbeitende Fragen zu Abläufen oder Ansprechpartnern stellen können. Zudem planen wir eine Erweiterung auf Bildverständnis, so dass Fragen zu Bildern gestellt werden können. Auch Sprachein- und -ausgabe wäre möglich. Es ist aber eine Frage der Zeit, die wir hier aufwenden können, da unsere Hauptaufgabe ja Lehre und Forschung ist und der Aufbau von Infrastruktur zu keinem der beiden Felder originär gehört.”
Erste Fragen von Usern an die Entwickler:
Lieber Herr Prof. Peinl, im Folgenden haben wir nun einige Fragen und User-Beobachtungen von Studierenden gesammelt und möchten Sie bitten, darauf zu antworten, da wir denken, dass dies allen Nutzerinnen und Nutzern zugutekommt:
–Zur Textgenerierung mit „Lisa“:
Lassen sich mit KI-Tools bereits Texte zu Nischen-Themen erstellen oder macht es mehr Sinn zunächst nur allgemeinere Themen abzufragen?
“Das kommt ein bisschen darauf an, was man als Nischen-Thema sieht, aber ich denke, dass die allermeisten Themen genügend oft in den Trainingsdaten enthalten und damit sinnvoll abfragbar sind.”
Mitunter sind Antworten zu aktuellen Themen veraltet oder nicht auf dem neuesten Stand – wird sich dies verbessern?
“Nein, das ist ein prinzipielles Problem. Das Training der KI-Modelle endet zu einem gewissen Stichtag (aktuell z.B. bei vielen Modellen im Oktober 2023) und anschließend wird nichts mehr „dazugelernt“. Tagesaktuelle Daten sind nur über die Koppelung mit einer Suchmaschine in den Chatbot zu bringen. Das machen z.B. Microsoft und Google in einigen Fällen so.”
Wie ist generell die Entwicklung im Bereich der Kreativität von KI?
“Lange Zeit hieß es, die Kreativität bliebe für lange Zeit eine Domäne der Menschen. Heute wissen wir, dass ähnlich wie Schachspielen nur eine Form von Intelligenz darstellt, auch Kreativität sehr viele Aspekte hat. Vieles von dem, was bisher als kreativ galt, kann die KI heute schon übernehmen. Daher wird Kreativität aktuell wieder neu definiert, was aber auch bedeutet, dass nur ganz wenige Menschen echt kreativ sind. Ganz neue Dinge gefallen den meisten Menschen auch gar nicht so gut. Die Innovationen, die am besten ankommen, bauen auf bekanntem auf und variieren es nur. Wenn man aktuell in die Charts schaut, dann ist gerade ein 90er Revival Welle am Rollen und mit „Stumblin in“ hat es sogar ein Song von 1978 in nur ganz vorsichtig aktualisierter Form wieder in die Charts geschafft. Wenn das kreativ ist, dann ist es die KI auch. Wenn nicht, dann sind es auch die wenigsten Menschen.”
Welches Vorgehen bringt bessere, weniger „maschinell“ klingende Texte hervor?
a) Ein englischsprachiger Prompt (Kommandozeile) fordert einen englischsprachigen Text von der Textgenerierungs-KI, der im Anschluss manuell oder durch ein anderes KI-Tool (z. B. DeepL) ins Deutsche übersetzt wird. Oder…
b) Ein deutscher Prompt fordert direkt einen deutschsprachigen Text von der Textgenerierungs-KI und lässt dadurch die wahrscheinlich grundsätzlich eher Englisch „denkende“ KI neben der Inhaltsleistung auch eine Übersetzungsleistung tätigen.
“Das ist eine sehr gute Frage, die eine genauere Untersuchung erfordern würde. Unsere “Lisa” springt im Dialog aktuell vom Englischen immer wieder mal ins Deutsche, weil sie so trainiert wurde. Bei vielen anderen Modellen ist es genau umgekehrt. Zudem ist die Antwort auch immer nur eine Momentaufnahme. Bei den besten Modellen würde ich sagen b), bei den durchschnittlichen eher a), wobei auch die Übersetzer nicht fehlerfrei sind.”
Wird das Ergebnis der Textgenerierungs-KI passgenauer, wenn man zunächst konkrete Personas erstellt und anschließend in der Texterstellung auf diese Personas (als angeblicher Textersteller oder als Zielgruppe) verweist?
“Ja, das würde ich schon sagen. Generell ist es immer gut, wenn man eine expliziten Kontext aufbaut, auf dem der Chatbot arbeiten kann. Das ist so, als würde man sich selbst erst ein paar Stichpunkte auf einen Zettel schreiben, bevor man eine Rede hält. Man muss dazu nicht einmal viel tippen. Der Chatbot selbst kann helfen, den Kontext aufzubauen, indem man ihm entsprechende Anfangsfragen stellt.”
ChatGPT gibt oft sehr umfangreiche Antworten, wenn auch oft in recht monotonen Satzbau. „Lisa“ dagegen antwortet meist sehr knapp. Kann man die Tiefe der Antworten über die Prompts beeinflussen?
“Ja, das ist bis zu einem gewissen Grad möglich, darüber hinaus aber wieder eine Frage der Trainingsdaten. Modelle, die auf vielen langen Passagen trainiert wurden neigen zur Geschwätzigkeit. Andere, die überwiegend kurze Antworten in den Trainingsdaten hatten, tun sich schwer mit ausführlichen Antworten. Grundsätzlich ist es aber immer gut, wenn man Anweisungen wie „fasse dich kurz“, „die Antwort soll maximal 200 Zeichen haben“, oder „antworte detailliert und ausführlich“ mit in den Prompt gibt.”
Aktuell weist die Textgenerierungs-KI „Lisa“ noch einige Rechtschreibschwächen auf. Wie können die Entwickler darauf Einfluss nehmen?
“Nach meiner Einschätzung sind es eher Grammatik- als Rechtschreibschwächen. Teilweise werden Wörter falsch gebildet. So habe ich z.B. schon einmal was von „Mutterin“ gelesen, weil die KI die Ausnahmen zur Bildung von weiblichen Formen im Deutschen nicht alle kennt. Das ist eine Folge dessen, dass über 90% der Trainingsdaten Englisch sind und Deutsch je nach Modell nur rund 1% ausmacht. Das Problem ist, dass es gar nicht genügend Deutsche digital öffentlich verfügbare Texte gibt, um den großen Vorsprung an Englischen Informationen auszugleichen. Ein BayernGPT, wie Markus Söder es sich wünscht, oder auch vorher schon das Ergebnis des Forschungsprojekts OpenGPT-X könnte mit einer ausgewogeneren Mischung an Trainingsdaten hier jedoch Verbesserung schaffen.”
–Zur Bildgenerierung mit „Luis“:
Wie kann man unsere KI-Tools dazu bringen, Texte in den Bildern zu generieren (aktuell sind manchmal noch Rechtschreibfehler oder Verzerrungen im Bild zu beobachten)?
“Das ist ein bekanntes Problem von Bildgeneratoren. Sie wurden in der Vergangenheit kaum mit Bildern trainiert, die Text enthielten. Das oben angesprochene Modell v3 von Stable Diffusion soll hier deutlich besser werden. Auch da wird jedoch vermutlich gelten, dass Englische Wörter eher fehlerfrei „gemalt“ werden als Deutsche. Das ist eine Folge dessen, dass wir es in Deutschland versäumt haben selbst früh genug in die Forschung zu dieser Art KI zu investieren, und die öffentlich verfügbaren Modelle fast alle mit überwiegend englisch-sprachigen Daten trainiert werden, was übrigens auch für Bilder ohne Texte ein Problem ist. So werden Bilder von Joe Biden und Taylor Swift ziemlich gut generiert, aber deutsche Prominente wie Lena Meyer-Landrut sind eher unbekannt.”
Luis wirft qualitativ gute Bilder aus, allerdings versteht er oft nicht, was im Prompt gemeint ist. Wie kann an der Erkennungsfähigkeit gearbeitet werden und welche Perspektiven gibt es hier?
“Bisher muss man noch genau beschreiben, wie das Bild aussehen soll (z.B. Mülleimer mit Symbol für Kreislaufwirtschaft). Wenn zu einem abstrakten Thema ein Bild generiert werden soll (z.B. Recycling), dann ist die KI überfordert, weil es viele Möglichkeiten und keine klare Anweisung gibt. Für die Zukunft hoffen die Forschenden, dass ein enges Zusammenspiel von Chatbots und Bildgeneratoren hier Besserung schafft. In gewisser Weise funktioniert das auch heute schon. Man kann einfach Lisa bitten, einen Prompt für Luis zu generieren.”
Gesichter und Hände wirken oft noch sehr unecht. Wie beim Zeichnen, so scheinen sie auch für die KI die größte Herausforderung zu sein. Warum ist das so?
“Bei Gesichtern stimmt das nur, wenn sie nicht das Hauptmotiv des Fotos sind. Die gröbsten Fehler entstehen wegen mangelnder physikalischer und biologischer Kenntnisse der Modelle. Sie „wissen“ nicht, dass Hände immer fünf Finger haben. Auf den Trainingsbildern sind mal mehr oder weniger Finger zu sehen, also scheint das für die KI variabel zu sein. Beim Zählen ist die KI eh nicht gut. Das haben wir bei Chatbots zwar mittlerweile bis zu einem gewissen Grad in den Griff bekommen, aber bei Bildgeneratoren ist das immer noch so. Auch das Arme nicht in beliebigen Stellungen sein können, sondern durch Knochen und Gelenke eingeschränkt sind, ist der Bild-KI unbekannt. Daher werden einfach die visuellen Muster generiert, so wie sie gerade „zu passen“ scheinen, bzw. wie es das Zufallsmuster, aus dem das Bild verfeinert wird vorzugeben scheint.”
Wird es bald möglich sein, neben Fotos auch ganze Layouts für Websites auszuwerfen?
“Man kann schon heute HTML- und CSS-Quellcode für Websites erzeugen und die guten Modelle können sogar passendes JavaScript mit dazu generieren, um einfache Spiele wie Tic-Tac-Toe umzusetzen. Die Forschenden arbeiten in Richtung genereller KI. Das bedeutet, dass sie alle menschlichen Tätigkeiten (insb. Bürojobs) übernehmen können soll. Die Frage ist also nur wann bald sein wird und da streiten sich die Experten und die Meinungen reichen von 1-2 Jahren bis hin zu Jahrzehnten. Ich persönlich tendiere eher zu kürzeren Zeiträumen, als zu längeren. Yann LeCun, der Chef-KI Forscher von Meta, hat 11 Monate vor dem Erscheinen von ChatGPT behauptet, Alltagsphysik könne nicht aus Text alleine gelernt werden. Das von ihm angeführte Beispiel wurde dann in weniger als einem Jahr widerlegt, obwohl LeCun sicher einer der besten KI-Experten weltweit ist.”
Herzlichen Dank für Ihre Antworten und die vielfältigen Informationen!