KI-Bildgeneratoren: Beispiele, Vor- & Nachteile - Plan Z

Okt. 11, 2022

KI BILDGENERATOREN

Wie KI-Bildgeneratoren unseren Umgang mit Bildern verändern – und mit uns und der Welt!

Auf Künstlicher Intelligenz (KI) basierende Bildgeneratoren können aus kurzen Texten bzw. Bildschreibungen in Sekundenschnelle reale Bilder erzeugen. Bilder, die wir uns wünschen. Das ist nicht völlig neu. Führte in der Vergangenheit aber oft noch zu eher gruselig oder skurril anmutenden Ergebnissen. Im Laufe des Sommer 2022 hat diese „Text-To-Image“ Technik durch eine ganze Reihe neuer und öffentlich zugänglicher Anwendungen einen massiven Durchbruch erlebt. Unseren Umgang mit Bildern könnte dies nachhaltig verändern – und auch den Umgang mit uns und mit der Welt!

Oft stehen hinter diesen Bildgenerator-Anwendungen große KI-Entwicklerprojekte. Wie etwa das Forschungslabor „OpenAI“ (Microsoft und Elon Musk sind hier engagiert) oder auch „ImagenAI“ von Google. Die Text-To-Image-Systeme dienen dabei gerne auch als deren werbliches Aushängeschild. Entsprechende KI-Modelle – wie etwa „Stable Diffusion“,
„Dall-E 2“ (nicht zu verwechseln mit „Dall-E-Mini“, heute „Craiyon“) oder „Midjourney“ – sind mittlerweile für jeden zugänglich. Teils noch in Betaversion, teils kostenlos, teils kostenpflichtig. Die Systeme können Bilder erzeugen, die – wenn gewünscht – kaum mehr von (echten) Fotos zu unterscheiden sind. Das Spektrum der möglichen Bilder ist dabei nahezu unbegrenzt: Realistische Bilder von Personen, Architektur oder Landschaften. Renderings von nicht existierenden Produkten. Gemälde im Stile berühmter Künstler. Grafik Designs, Comics, … etc.

Es macht enormen Spaß, diese Anwendungen einfach mal selbst auszuprobieren. Selbstverständlich sind auch alle Bilder in diesem Blogbeitrag per KI erzeugt (konkret mit der Software „Midjourney“). Zugleich sind die hierfür erzeugten Bilder ganz bewusst nicht weiterbearbeitet. Damit ein authentischer Eindruck der bisher möglichen, automatisch generierten Bildqualität entsteht. Natürlich könnte man die Bilder in Photoshop oder mit einem anderen Bildbearbeitungsprogramm auch noch perfektionieren…

Anschauliche Beispiele: Das leisten KI-Bildgeneratoren aktuell…

Produktdesign: Mal eben 100 Entwürfe für Parfumflaschen erstellen?

KI Bildgenerator KI Bild

KI Bild

Bilder aus der Arbeitswelt: Ersatz für Stock-Bilder?

KI Bild KI Bild

Auf dieses Fake-Bild würden wohl nicht so viele hereinfallen… ?

KI Bild

Eye-Catcher für die Werbung gefällig? Ein Kleid aus fließendem Wasser…!

KI Bild KI Bild

Ein frisches Gesicht für die eigene Website?

KI Bild KI Bild

Wie hätten berühmte Künstler wohl Frauenkleider gestaltet?

KI Bild KI Bild

Ein paar Architektur-Inspirationen…

Dies ist natürlich nur ein kleiner Auszug und Eindruck davon, was mit den (öffentlich zugänglichen) KI-Bildgeneratoren ganz aktuell bereits möglich ist. Der weiteren Phantasie und Kreativität sind hier keine Grenzen gesetzt…

Wie funktionieren KI-Bildgeneratoren überhaupt?

Zunächst einmal musste die KI lernen, wie Bildinhalte mit Bildbeschreibungen zusammenhängen. Dazu werden in der Regel Abermillionen öffentlich zugänglicher Bilder aus dem Internet verwendet. Je mehr Bilder dabei herangezogen werden, und je besser und genauer die Bildbeschreibungen sind, desto leistungsfähiger ist die KI, da sie mit mehr Begriffen etwas anfangen kann. Die KI-Modelle, die dabei entstehen, sind so komplex, dass niemand sagen kann, wie diese genau funktionieren. Aber sie funktionieren!

Gibt man nun die Beschreibung eines Bildes ein, versucht die KI aus den gelernten Zusammenhängen ein Bild zu erzeugen, das dieser Beschreibung möglichst gut entspricht. Es handelt sich also nicht um eine Suche nach bereits vorhandenen Bildern im Bilduniversum. Die Bilder werden neu generiert. Und werden mit hoher Wahrscheinlichkeit nirgendwo anders in identischer Form existieren. Es sind also Originale. Bei der Verwendung von eher abwegigen begrifflichen Kombinationen können auch völlig neuartige Bilder entstehen, die so nie in der „Lernstichprobe“ vorzufinden waren. Auch eine wiederholte Eingabe der gleichen Beschreibung führt nie zum exakt gleichen Ergebnis.

Es ist dabei sehr faszinierend zu beobachten, wie sich die Bilder Schritt für Schritt aus dem „Rauschen“ herausbilden. Und das Ergebnis am Ende mit den eigenen Erwartungen und Wünschen abzugleichen. Bildbeschreibungen zu verfeinern oder zu wechseln. Das macht einfach Spaß. Ein anschauliches Demo-Video für das Herausbilden der Bilder aus dem „Rauschen“ findet sich hier:

Aktuell befinden sich viele der Tools wie erwähnt noch in der (öffentlichen) Betaphase. Die Entwicklung zeigt sich sehr dynamisch. Was heute nur zu erahnen ist, wird morgen schon möglich sein. Insgesamt herrscht derzeit noch ein forscherischer und spielerischer Umgang, ein breites Ausprobieren der verschiedenen KI-Bild-Systeme vor.
In absehbarer Zeit dürfte sich aber auch eine breite professionelle Nutzung solcher Anwendungen durchsetzen. Nicht zuletzt auch im Marketing oder im Produktdesign. Mit besonderer Dynamik, und mit massenhaft neuem bildlichen Content, wohl auch in den Social Media.

Vorteile von KI-Bildgeneratoren

Zahlreiche Vorteile von KI-Bildgeneratoren liegen auf der Hand:

Die erzeugten Bilder sind Unikate. Keine Stock-Bilder, die teilweise vielfach im Internet auftauchen und breite Verwendung finden. Natürlich entstehen bei gleicher Bildbeschreibung teilweise ähnliche Bilder. Diese werden aber nie völlig identisch sein. Die eigene Website oder der eigene Social-Media-Auftritt kann so viel einfacher mit einzigartigem Bildmaterial versehen werden.
Mit weiter steigender Leistungsfähigkeit der Software werden sich die Bilder auch immer leichter und zielgenauer individualisieren lassen. Zum Beispiel durch die Vorgabe von konkreten Text, der auf dem Bild erscheinen soll (das erfordert, zumindest bei „Midjourney“, momentan noch etwas Glück).
Verschiedene KI-Bildgeneratoren erlauben auch die Vorgabe eines Bildes. Dies kann zum Beispiel eine grobe Vorzeichnung bzw. Skizze einer Komposition sein, die dann von der KI mit Details und mit Leben gefüllt wird. Auch kann ein vorhandenes Bild erweitert werden, indem die KI den Inhalt ergänzt, der auf einem Foto nicht mehr zu sehen ist.
Es lassen sich sehr schnell verschiedene Bildideen ausprobieren. Agenturen, Fotografen, Designer, Grafiker oder Künstler werden sich über diesen Weg neuen kreativen Input beschaffen – und diesen dann auf klassischen Wegen umsetzen (sofern sie nicht zu reinen KI-Bildgenerator-Anwendern werden…).
Es lassen sich sehr einfach auch „unmögliche“ Bilder produzieren, die sonst sehr viel Arbeit in Bildbearbeitungsprogrammen erfordern würden.
Es entstehen im Marketingkontext keine Kosten mehr für Fotografen, Fotomodelle, aufwendige Studioaufbauten, Scouting oder Miete von Locations, etc.
Wie die Nutzungskosten der (professionellen) Text-To-Image-Systeme langfristig aussehen werden, wird sich erst noch zeigen. Wahrscheinlich werden diese aber deutlich unter den bisherigen Lizenzkosten für hochwertige Stockfotos liegen. „Billigen“ Stockfotos hingegen, werden diese hingegen qualitativ überlegen sein.
Es dürfte nur eine Frage der Zeit sein, bis sich mit dieser Technik auch überzeugende KI-basierte Videos produzieren lassen (aktuell ist dieser Bereich noch in einem früheren Anfangsstadium). Dadurch erweitert sich das Nutzungsspektrum noch einmal deutlich.

Überlegen Sie daher auch selbst einmal: Wo und mit welchen Zwecken und Zielen lassen sich solche KI-Systeme in Ihrem Unternehmen sinnvoll, kreativ, effektiv und effizient nutzbar machen? Zugleich aber auch: Was könnte möglicherweise – aus internen oder externen Gründen – gegen deren Einsatz sprechen?

Grenzen und Probleme von KI-Bildgeneratoren

Natürlich gibt es auch Grenzen und gewichtige Probleme dieser Technik. Trotz rasanter Fortschritte ist technisch momentan sicher noch nicht alles bereits perfekt. Zum Beispiel gelingen Abbildungen von „Händen“ bisher nur selten überzeugend. Ebenso „Szenen“ mit verschiedenen Menschen (siehe folgende Beispielbilder mit eher seltsamen Gesichtern und Händen). Auch die Aufgabe, „einen grünen Apfel in einem Korb roter Äpfel“ darzustellen, bereitet teils noch farbliche Probleme.

KI Bild

Manche Bildideen lassen sich bisher auch nicht erfolgreich umsetzen. Solche Punkte und Beschränkungen werden sich voraussichtlich nach und nach verbessern bzw. auflösen.
Ob über KI-Modelle erzeugte Bilder höchst anspruchsvollen Zwecken – wie etwa im Bereich Imagewerbung oder Markenimages – erfüllen werden, wird sich ebenfalls erst zeigen. Zugleich besteht umgekehrt aber auch die Möglichkeit, über KI-Bildgeneratoren ganz eigene und neue Bildwelten zu schaffen (jenseits von Einzelbildern). Die dann wiederum selbst markenbildend werden können. Auch die Frage, wie Menschen als Verbraucher und Kunden auf den vermehrten Einsatz von KI-Bildern in der Werbung reagieren werden, ist aktuell noch völlig offen. Auch was dies mit der Wahrnehmung und der Authentizität von Marken (und deren Bildern) machen wird.

Gesellschaftliche und ethische Probleme von KI-Bildgeneratoren

Noch deutlich schwerwiegender sind aber gesellschaftliche und ethische Probleme, die mit der Verbreitung einer solchen Technik verbunden sind. Und für die es bisher erst wenige Lösungen gibt.

Zunächst ist hier einmal das wichtige Thema „Fake News“ und „Deep Fakes“ (Bilder, Videos) zu nennen. Letztere gab und gibt es auf dem Wege klassischer Retuschen und Bildnachbearbeitungen immer schon. Allerdings in begrenzter Zahl. Es gelingt einer KI heute schon recht überzeugend, Gesichter von bekannten Persönlichkeiten in die eigenen Bildgestaltungen zu integrieren. Durch die massenhafte Verbreitung im digitalen Zeitalter wird man Bildern in Zukunft aber immer weniger trauen können (u.a.: Bilden diese eine vorhandene/vorfindbare Realität ab, oder nicht?). Längst wird daher auch bereits über eine „Kennzeichnungspflicht“ für KI-Bilder diskutiert.
Ebenfalls hochbedeutsam: Die KI-Bildgeneratoren spiegeln alle Vorurteile und gesellschaftlichen Verwerfungen, die sich im „Lerndatensatz“ bzw. im aktuellen Bilduniversum finden, auch in den Bildergebnissen wider. Reproduzieren und perpetuieren diese. Wenn im Ausgangsmaterial beispielsweise Kriminalität eher mit „People of Color“, und nicht mit weißer Hautfarbe verbunden wird, wird sich dies auch in den KI-generierten Bildern von „Kriminellen“ zeigen. Wenn sich zu technischen Berufen mehr Bilder von Männern finden, wird sich auch das wiederspiegeln. Ebenso wenn Begriffe wie „CEO“ primär mit Männern und „Pflegekraft“ mehr mit Frauen verknüpft ist.
Das heißt: Auch wenn die KI in bestimmter Hinsicht „neue“ Bilder schafft, unterliegen diese dabei doch dem Bias, den Klischees und der antrainierten Voreingenommenheit dessen, was in der Welt (bisher) bildlich bereits dargestellt wurde bzw. wird (und damit verbundenen Normen, Werten, Bewertungen, Gewohnheiten, Interessen).
Die KI produziert aus sich heraus – sofern man sie nicht bewusst dazu auffordert bzw. entsprechend trainiert – keine dem Mainstream der Lernstichprobe gegenläufigen oder vorurteilsfreie Bilder. Dies bleibt ein menschlich motivierter Akt.
Im Rahmen der Erstellung dieses Blogbeitrags wurde beispielsweise versucht Bilder von „alten KünstlerInnen in ihren Ateliers“ zu erzeugen. Dies gelang bei männlichen Künstlern sofort. Alte Künstlerinnen wurden hingegen – trotz gegenteiliger Bildbeschreibung – mehrfach als junge schöne Frauen dargestellt.
Verlieren Bilder aufgrund der KI-Bildgeneratoren für uns zukünftig generell an „Wertigkeit“? Beispielsweise auch im Kontext von Marken-Bildern?
Auch handfeste juristische Probleme gilt es noch zu lösen: Dürfen alle frei zugänglichen Bilder als Lernstichprobe für KI-Systeme herangezogen werden. Oder müssen die Urheber der Bilder dieser Verwendung explizit zustimmen? Und was ist mit dem Urheberrecht auf die KI-erzeugten Bilder selbst? Diese sind nicht automatisch und überall urheberrechtsfrei – auch wenn das Urheberrecht speziell in den USA und in Deutschland nahelegt, dass dieses ausschließlich für „menschliche Werke“ greift. Lassen sich über KI-Bildgeneratoren erzeugte und für eigene Zwecke ausgewählte Bilder dann aber noch vor der Verwendung durch Dritte schützen?

Was ist mit künstlich erzeugten Gewaltdarstellungen, pornographischen Inhalten und Missbrauchsdarstellungen? Wie wird generell dem Missbrauch solcher öffentlich zugänglicher KI-Systeme vorgebeugt? Reichen vorhandene Gesetze hier bereits aus?
Die Welt wird durch einfach zugängliche KI-basierte Systeme zukünftig noch mehr durch KI-Bilder und weiteren digitalen Content zugemüllt werden. Denn nicht nur die Viel-Poster, sondern auch Bots können in Zukunft jeden Tag Millionen von Bildern, Videos und Texten automatisiert erzeugen. Auf diesen Spam, mehrheitlich wohl völlig nebensächlichen, trivialen und sich selbst hochschaukelnden wie teils auch gefährlichen Content-Overkill, freut sich so richtig sicher niemand.

Weitere Einordnungen und Zukunftsperspektiven

Der „BrandEins“ Kolumnist Gregor Schmalzried sieht in KI-Bildgeneratoren (und dies gilt auch für andere KI-basierte Anwendungen im Bereich Video oder Text) bereits die Vorboten einer Zeit, in der Künstliche Intelligenz uns als Menschen zwingen wird, ständig zu beweisen, dass wir keine Maschinen sind.

Dies mag Manchem spontan vielleicht übertrieben erscheinen. Aber denken wir nur einmal an unseren eigenen Internet-Alltag: Werden wir da nicht jetzt bereits, etwa beim Online-Shopping, regelmäßig aufgefordert zu bestätigen: „Ich bin kein Roboter“ … Und auch, dass der aktuelle Schach-Weltmeister Magnus Carlsen seinem Gegner, dem US-Teenager Hans Niemann, Betrug vorwirft (dieser habe KI-gestützt gehandelt) ist dafür nur ein weiteres Beispiel. Es zeigt, wie grundlegend sich diese Problematik auch in anderen Feldern des Alltags einmal entwickeln könnte.

Die Autoren des Buchs „Re-Engineering Humanity“ erweitern diese Perspektive, plädieren sogar für eine Umkehr der üblichen Fragestellung:

Die wesentliche Frage – so der Rechtswissenschaftler Brett Frischmann und der Philosoph Evan Seliger – sei nicht, ob und inwiefern Maschinen in bestimmten Bereichen menschenähnlich werden können (Menschen also partiell ersetzen, simulieren oder auch überflügeln können…; Menschen ihrerseits zugleich so tun können, als ob sie selbst Urheber von über KI / Maschinen erzeugter „Werke“ seien; eigenes Mensch-Sein sich zugleich erst beweisen muss).
Sondern die Frage, ob der Mensch selbst maschinenähnlich und programmierbar werden kann. Und wer daran ein Interesse hätte.

Wichtige und spannende Fragestellungen und Herausforderungen, die auf substanzielle Antworten und Lösungen warten.

KI Probieren geht über reines Studieren…

Doch zurück zu den KI-Bildgeneratoren: Jeder, der beruflich in irgendeiner Form regelmäßig Bilder verwendet, diese erstellt und damit kommuniziert – und auch alle, die forscherisch wie praktisch an den Themen Digitalisierung und KI interessiert sind – sollten sich zweifellos einmal die bereits jetzt vorhandenen Möglichkeiten ansehen. Es macht enorm viel Spaß!
Mit speziellem Blick auf den professionellen Einsatz in unternehmerischen und kundenbezogenen Kontexten gilt: Neugierig ausprobieren, Möglichkeiten und Grenzen ausloten, konkrete Chancen und Risiken erforschen. Neue Anwendungen sinnvoll und mit Bedacht nutzen und evaluieren. Die Marktforschung liefert hierzu wertvolle Begleitung und Unterstützung.

Kontakt aufnehmen und austauschen

Interessiert am weiteren Austausch zur Verwendung von KI-Bildgeneratoren und anderen KI-Systemen in unternehmensbezogenen Kontexten, und damit verbundenen Forschungsprojekten und Forschungsperspektiven? Sprechen Sie uns gerne darauf an: HEUTE UND MORGEN – Robert Quinke – robert.quinke@heuteundmorgen.de – Telefon: +49 221 995 005-13.
Wir freuen uns auf den persönlichen Austausch mit Ihnen!

Weitere Blogbeiträge zu zukunftsrelevanten und innovativen Themen – speziell auch zur Digitalisierungsforschung und zum Innovationsmanagement – finden Sie regelmäßig auch auf der Themenübersicht unseres Blogs „Plan Z – Zeit für Zukunft“.