Künstliche Intelligenz oder kurz „KI“ ist in aller Munde. Besonders beliebt bei vielen ist die Bilderstellung. Entsprechende Programme schießen derzeit wie Pilze aus dem Boden, das Internet sowie die sozialen Netzwerke werden scheinbar überflutet mit KI-generierten Bildern und Clips. Dabei wird es immer schwieriger den Überblick über den enorm wachsenden Bereich zu behalten. Prof. Dr. René Peinl, Leiter des Instituts für Informationssysteme der Hochschule Hof (iisys) ist ein Experte auf dem Gebiet der Künstlichen Intelligenz. Er verrät, welche Programme und Anwendungen man wirklich kennen sollte!
Midjourney – der Marktführer
“Das Programm arbeitet etwas ungewöhnlich. Es nutzt einen Chat-Server (Discord), um Anfragen an das Modell zu schicken. Wenn man nichts zahlt, werden die eigenen Anfragen hinten in die Warteschlange eingereiht und mit niedriger Priorität, also sehr langsam abgearbeitet. Das bedeutet, dass man mehrere Minuten an Wartezeit hinnehmen muss. Als zahlender Kunde hat man ein Kontingent, das dagegen innerhalb weniger Sekunden abgearbeitet wird. Bezüglich der Qualität ist das Programm aktuell die Referenz, wenngleich mit geringem Abstand zu den Konkurrenten.”
Beispiele für mit “Midjourney” erstellte Bilder:
DALL-E 3 von OpenAI – präzise bei inhaltlichen Anforderungen
“Das Programm ist am leichtesten über den Bing Image Creator zugänglich. DALL-E 3 zeigt sich ebenso auf hohem Niveau, insbesondere was die Umsetzung inhaltlicher Angaben betrifft. Wenn man sich aber photo-realistische Ergebnisse wünscht, so wird man allerdings häufiger enttäuscht. Die Ergebnisse sehen eher wie gut gemachte, realistische Zeichnungen aus. Dafür werden auch komplexe Prompts (kurze Hinweise, z. B. in Form von allgemeinen Fragen oder genauen Ausführungsanleitungen) meist sehr detailliert umgesetzt. Auch andere Stile wie der Impressionismus oder der Stil von Salvador Dali werden gut gemeistert. Der Vorteil: Über den Bing Image Creator kann man täglich ein paar Bilder kostenlos generieren, wenn man einen kostenlosen Microsoft-Account hat.”
Beispiele für mit “DALL-E 3” erstellte Bilder:
Stable Diffusion – für Freunde von OpenSource-Modellen
“Ich bin selbst ein bekennender Verfechter digitaler Souveränität und daher Anhänger von Open Source-Modellen. In diesem Bereich gibt es mit Stable Diffusion von Stability AI einen gleichwertigen Konkurrenten. Die Basismodelle von Stability AI selbst sind gut, aber nicht ganz auf demselben Niveau wie Midjourney oder DALL-E 3. Stability AI bietet selbst seit kurzem einen Cloud-Dienst mit den eigenen Modellen kostenpflichtig an.
Seit Kurzem (28.11.23) gibt es eine Version SDXL turbo, die bei der Erstellung ähnlich gut ist wie SDXL, aber fünf bis zehnmal schneller. Die Bilderstellung erfolgt bei allen genannten Alternativen (auch Midjourney und DALL-E) in mehreren Schritten, indem zufällige Pixelmuster schrittweise zum gewünschten Ergebnis umgeformt werden. Bei SDXL braucht man dazu 20-40 Schritte für gute Ergebnisse in hoher Auflösung. Mit SDXL turbo sind es nur noch 5-10. Kleinere Bilder gelingen sogar in 2-3 Iterationen in ordentlicher Qualität.”
Beispiele für mit SDXL erstellte Bilder:
Fooocus – das unkomplizierte Programm für Einsteiger
“Es gibt zudem dutzende freie Angebote von Dritten, welche das Basismodell weiter verfeinern. Viele davon behandeln ganz spezielle Anwendungsfälle, also z.B. fotorealistische Bilder von Menschen oder Tieren, Fantasie-Gemälde, etc. Diese kann man auf seinem eigenen PC installieren, ohne dass man dafür ein Informatik-Studium braucht. Ein gutes Beispiel ist “Fooocus”. Das Programm richtet sich explizit an Einsteiger. Darin sind die Einstellungen bewusst etwas versteckt gehalten. Dafür bekommt man gute Ergebnisse ohne Detailwissen über Prompt Engineering, also dem Formulieren von Bildgenerierungswünschen. Die KI setzt sie in bester Qualität möglichst 1:1 um. Wenn man tiefer einsteigen will, kann man trotzdem in den Einstellungen viel umstellen und nochmals bessere Ergebnisse erzielen.”
automatic 1111 – für Fortgeschrittene
“Auch dieses Programm ist einfach zu installieren, versteckt die dutzenden Einstellmöglichkeiten aber nicht, so dass es auf Laien zunächst etwas erschlagend wirken kann. Wenn man aber verschiedene Modelle ausprobieren will, dann ist das der beste Einstieg. Häufig sind die relevanten Einstellungen vom Ersteller des Modells dokumentiert, so dass man die Werte nur übertragen muss, ohne im Detail zu verstehen, was sie genau bedeuten.
Fooocus und automatic 1111 liefern aber nur die Benutzeroberfläche und das “Drumherum”. Für beide benötigt man “unter der Haube” noch das Bildgenerierungsmodell. Zum direkten Loslegen wird aber eines mitgeliefert, weitere bekommt man z.B. auf Huggingface.”
Übrigens…
Die Hochschule Hof hostet am Institut für Informationssysteme (iisys) auch ein Bildgenerierungsmodell, das ab dem Sommersemester 2024 allen Hochschulmitarbeiterinnen und -mitarbeitern sowie den Studierenden zur Verfügung stehen soll. Aktuell ist es noch in der Erprobung.
Disclaimer: Die Hochschule Hof steht in keinerlei Verbindung zu den genannten Unternehmen.
(Stand: 16.01.2024)