Als ich im Frühjahr 2022 zum ersten mal auf Midjourney stieß, eine Plattform, die es ermöglichen sollte, nur mit Hilfe von Worten künstlerische Bilder zu erschaffen, hatte ich sofort Visionen von einer Welt, in der Menschen mit natürlicher Sprache mit Computern interagieren, um Kunst zu erschaffen, Code zu schreiben und von einander zu lernen. Als OpenAI dann Ende 2022 ChatGPT vorstellte, Adobe kurz darauf generative KI in Photoshop integrierte und erste Services für Musikproduktion mittels KI erschienen, wurde mir klar, dass diese Welt womöglich näher war, als ich dachte…
AI und die Kunst des Lernens
Mein Interesse und meine Begeisterung für AI wuchsen und ich begann mich immer tiefer in die Materie einzuarbeiten, bis ich ein solides Grundverständnis für die interne Funktionsweise von generativen KIs entwickelt hatte. Doch während ich damit beschäftigt war, die Arbeitsweise von UNet, Text Encoder, Scheduler und VAE besser kennenzulernen, waren andere schon fleißig damit beschäftigt, die neue Technologie als Plagiat-Maschine zu verteufeln. Verständlich, zeigten doch die ersten Demonstrationen von Midjourney wie einfach es war, damit ein Bild im Stil von Vincent van Gogh oder Salvador Dalí zu erzeugen. Erste Stimmen von Künstlern wurden laut, die nicht wollten, dass generative KI-Modelle mit Hilfe ihrer Bilder trainiert werden. Meine Gedanken hierzu waren weniger geprägt von Sorge, sondern eher philosophischer Natur: Was macht ein Bild eigentlich zu Kunst? Ist es der Schaffensprozess oder das Ergebnis? Und was schätzen Kunstliebhaber mehr, ein Bild oder seinen Erschaffer? Was macht einen Menschen zu einem Künstler? Ist es das handwerkliche Talent? Is es die Zeit, die er in seine Arbeit investiert?
Ich für meinen Teil habe diese Fragen so für mich beantwortet: Kunst entsteht aus dem leidenschaftlichen Drang, etwas aus dem eigenen Inneren für andere erfahrbar zu machen. Egal um welches Medium es geht – sei es Fotografie, Malerei, Musik, Bildhauerei oder Literatur – Künstler ist, wer aus einer intrinsischen Motivation heraus etwas erschafft, um es anderen zu präsentieren, in der Hoffnung, diese damit auf die eine oder andere Weise zu berühren. Eine AI hingegen, zumindest die Art von generativer AI, wie wir sie heute haben, hat keinerlei Motivation. Auch wenn ein Gespräch mit ChatGPT wirken mag, als würde man mit einem vernunftbegabten und empfindungsfähigen Wesen kommunizieren, ist was unter der Haube geschieht bloße Stochastik. Ein unheimlich elaborierter Party-Trick. Am Ende ist es der Mensch, der sich entscheidet, ob er eine Plagiat-Maschine sein will, die nur Werke immitiert, oder ob er etwas Eigenes auszudrücken gesucht.
Umso enttäuschter war ich, zu sehen, dass die beeindruckendsten Werke auf der Midjourney Website meist jene waren, bei denen sich die AI nur sehr schlecht an den Prompt des Nutzers gehalten hat, sodass das Ergebnis letztlich nicht mehr als ein glücklicher Unfall war. Während ein „happy little accident“ bei Bob Ross noch Kunst sein mag, da dieser sein Handwerk gut beherrscht, sehe ich wenig künstlerisch wertvolles in einem beeindruckenden AI-Bild, welches gar nicht den Vorstellungen des Künstlers entspricht.
Eigene Modelle und der Weg zur kreativen Freiheit
Mit meinem großen Interesse an generativer KI und dem gleichzeitigen Anspruch, dass die Ergebnisse stets genau meinen Vorstellungen entsprechen sollten, da ich schließlich etwas aus meinem Geist nach außen tragen wollte, und nicht nur Bilder aus der Maschine, lernte ich, was man heute als Prompt Engineering bezeichnet. Meine Ideen auf eine präzise und strukturierte Art und Weise zu beschreiben, die ein AI-Model versteht. Doch nicht jedes AI-Model ist gleich gut in Sachen Prompt Adherence. Manche mischen alle Elemente wild zusammen, wenn der Prompt zu lang und komplex wird, andere benötigen vor allem negative Prompts um ihre antrainierten Biases auszuhebeln und wieder andere mögen Stichwörter deutlich lieber als natürliche Sprache. Daher fing ich an, Datensätze für das Trainieren einer eigenen KI zu erstellen. Mit dem Release der XL-Version der quelloffenen generativen AI Stable Diffusion war es dann im Sommer 2023 soweit, und ich begann meine ersten eigenen AI-Modelle zu trainieren.
Als Fotograf und Bildbearbeiter konnte ich auf eigene Werke aus 20 Jahren beruflichen Schaffens zurückgreifen. Ich gestaltete dabei meine Trainingsdaten gezielt so, dass Persönlichkeitsrechte meiner Modelle von den generierten Ergebnissen nicht beeinträchtigt werden. Das ist durch entsprechend freie Verschlagwortung leicht umsetzbar. Zumal selbst mit Fotoarbeiten aus 20 Jahren allein kein ausreichender Datensatz für eine vollständig funktionierende KI zusammenzustellen ist, und das resultierende Modell stets noch mit einem Pruned Model des Basismodells „aufgefüllt“ werden muss. Auch dies ist leicht, denn letztendlich sind sämtliche Parameter eines AI Models nur Fließkommawerte, die sich mit entsprechenden Formeln verrechnen lassen. Dennoch ist AI-Training ein zeitintensiver Prozess mit viel Trial and Error. Es dauerte Monate, bis ich durch Training eines eigenen Haupt-Modells, Merging mit dem SDXL Basis-Modell und zusätzlichen trainierten LoRAs (steht für „Low Rank Adaption“ – das sind kleinere Fine-Tuning Modelle, um einem Hauptmodell neue Konzepte, Stile oder Inhalte beizubringen) zu einem eigenen Modell gelangte, welches meiner präferierten Ästhetik und meinem fotografischen Stil folgen kann.
Das Ergebnis aus Arbeit und Anspruch
Mit Umbral Dreams veröffentliche ich heute eine neue Web-Galerie, in der ich meine KI-Kunst ausstelle. Sie ist das Ergebnis von fast zwei Jahren Arbeit, bestehend aus dem Erlernen von KI-Technologie an sich, Prompt Engineering und dem Training eigener KI-Modelle, welche wiederum das Ergebnis von 20 Jahren Arbeit als Fotograf und Bildgestalter sind. Es steckt also sehr viel von mir in diesen AI-Werken. Mit Umbral Dreams widme ich mich vor allem jenen Themen, mit denen ich auch als Fotograf und Bildbearbeiter einst angefangen habe: Goth Girls und Dark Fantasy, aber auch ein wenig Steampunk, Cyberpunk und Cosplay. Auch ich habe Künstler, von deren Arbeiten ich mich inspiriert fühle. Das geht wohl jedem Künstler so. In meinem Fall sind es Luis Royo, Zdzisław Beksiński, H.R. Giger und Victoria Francés, um nur ein paar bekanntere meiner Einflüsse zu nennen. Ich sehe es als Hommage an ihr Schaffen an, wenn man diese Einflüsse in meinen Arbeiten wiedererkennt. Ich trainiere meine KI-Modelle und gestalte meine Prompts jedoch gezielt so, dass sie den Stil eines anderen Künstlers nicht plagiieren, sondern Einflüsse stets Einflüsse bleiben und meine Arbeiten ihre eigene Bildsprache sprechen. Ich hoffe, dass es mir auch aus Ihrer Sicht gelungen ist, diesen selbstauferlegten Ansprüchen zu genügen.
Als Vorgeschmack hier ein kunterdunkler Mix einiger Werke aus meinem neuen AI-Art Projekt.
Wenn Sie mehr sehen mögen, gelangen Sie hier zur Umbral Dreams Galerie.