August 2022
Blog

Fake Future #2: KI-generierte synthetische Bilder

Oliver Kampmeier

Cybersecurity Content Specialist

In unserer Artikelserie „Fake Future“ wollen wir uns mit neuen Technologien beschäftigen, die das Potenzial haben, die Zukunft grundlegend zu bestimmen.

In unserem letzten Artikel haben wir uns mit Deepfake-Videos beschäftigt. Wie sie erstellt werden, welche Anwendungsfälle es gibt und wie die aktuelle Rechtslage ist.

In diesem Artikel geht es um den Einsatz von künstlicher Intelligenz in Verbindung mit Bildern. Wir befassen uns mit verschiedenen Ebenen der KI, bis wir schließlich zu synthetischen Bildern kommen, d. h. zu Bildern, die vollständig von einem Computer erstellt wurden.

Da die Erstellung von synthetischen Bildern in vielen Teilen der Erstellung von Deepfake-Videos ähnelt, sollten Sie unbedingt unseren letzten Artikel lesen, wenn Sie detaillierte Informationen darüber erhalten möchten.

Bildquelle

Was sind KI-generierte / synthetische Bilder?

Die Definition von computergenerierten Bildern (CGI) kann sehr weit gefasst werden. Bei Filmproduktionen bezieht sich der Begriff CGI auf visuelle Spezialeffekte, die von einem Menschen mit Hilfe eines Computers erzeugt werden.

KI-generierte Bilder werden ebenfalls mit Hilfe eines Computers erstellt, stellen aber eine Unterkategorie der computergenerierten Bilder dar. Der Unterschied zu CGI ist die fehlende menschliche Interaktion bei der Erstellung der Bilder.

So kann beispielsweise ein Computerprogramm auf Gesichter trainiert werden, bis es schließlich in der Lage ist, selbst ein menschliches Gesicht zu „erfinden“ und auszugeben. Genau dies ist der Anwendungsfall der Website thispersondoesnotexist.com, die beim Aufruf ein echt aussehendes Profilbild eines Menschen anzeigt. Wie der Name der Website jedoch vermuten lässt, gibt es die abgebildeten Personen nicht. Der Algorithmus wurde mit Profilbildern realer Personen trainiert, bis er in der Lage war, ein fiktives Gesicht realitätsgetreu nachzubilden und so das Profilbild einer völlig neuen Person zu erstellen.

Inzwischen gibt es auch eine Reihe von Programmen, die Bilder auf der Grundlage einer einfachen Textbeschreibung erstellen können. Sie beschreiben dem Programm mit Worten, was Sie sehen möchten, und das Programm erstellt das Bild automatisch.

Aus diesem Grund werden die Bilder auch als synthetisch bezeichnet. Im Gegensatz zu realen Bildern, die von einem bildgebenden Gerät wie einer Kamera aufgenommen und dann in Pixel umgewandelt werden, werden synthetische Bilder durch reine Berechnung erzeugt, d. h. durch Modellierung der realen Welt und Simulation der optischen Gesetze.

Wie werden synthetische Bilder erstellt?

Ähnlich wie bei der Erstellung von Deepfake-Videos werden synthetische Bilder mit Hilfe von Generative Adversial Networks (GANs), Autoencodern oder den anspruchsvolleren Vector Quantized Variational Autoencodern (VQ-VAE) erstellt.

Wir wollen hier nicht zu sehr ins Detail gehen, da es schnell sehr wissenschaftlich und mathematisch wird. Wenn Sie mehr über GANs und Autoencoder und deren Funktionsweise erfahren möchten, können Sie unseren Artikel über Deepfake-Videos lesen, in dem wir kurz erklären, wie sie funktionieren.

Wenn Sie mehr über VQ-VAEs erfahren möchten und keine Angst vor mathematischen Formeln haben, empfehlen wir Ihnen die folgenden hervorragenden Artikel zu diesem Thema:

Bildquelle

Das Wichtigste ist, dass der Computer eine Form des unbeaufsichtigten Lernens verwendet, d. h. eine Art von Algorithmus, der selbständig Muster lernt, ohne dass ein Mensch die Eingabedaten erklärt oder kennzeichnet.

Anwendungsfälle und Beispiele für künstliche Intelligenz in Kombination mit Bildern

Es gibt eine Vielzahl von Anwendungsfällen, in denen künstliche Intelligenz in Verbindung mit Bildern eingesetzt wird.

Einfache Anwendungsfälle sind die Gesichtserkennung oder die automatische Anpassung der Einstellungen an die Lichtverhältnisse in Ihrer Smartphone-Kamera-App. Kleine Hilfen, die heute selbstverständlich und für viele von uns unverzichtbar sind.

Um die verschiedenen Anwendungsmöglichkeiten der KI zu veranschaulichen, werden im Folgenden einige Beispiele angeführt. Nicht alle Beispiele enthalten synthetische Bilder, sondern sollen die verschiedenen Stufen der künstlichen Intelligenz verdeutlichen.

Bildquelle

FOTOBEARBEITUNG UND -VERBESSERUNG

Als 1826 die erste Fotografie mit einer Kamera aufgenommen wurde, dauerte es nicht lange, bis das erste manipulierte Bild entstand.

Im Jahr 1860 wurde ein Foto des Politikers John Calhoun manipuliert und sein Körper auf einem anderen Foto mit dem Kopf des Präsidenten der Vereinigten Staaten, Abraham Lincoln, verwendet.

Heutzutage ist die Bildbearbeitung ein natürlicher Prozess. Ob nach einem professionellen Shooting oder nach Omas Urlaubsbildern, unsere Bilder durchlaufen mehrere Optimierungsverfahren, von denen einige automatisch und mit Hilfe künstlicher Intelligenz durchgeführt werden.

Die automatische Bildbearbeitung umfasst das Entfernen unerwünschter Objekte in Verbindung mit inhaltsbezogenen Füllungen, Farbverbesserungen und perspektivischem Verzerren.

In den letzten Jahren haben immer mehr KI-basierte Werkzeuge und Funktionen ihren Weg in Photoshop, das am häufigsten verwendete Bildbearbeitungsprogramm, gefunden.

Aber auch die Konkurrenz schläft nicht. Es gibt inzwischen Fotobearbeitungsprogramme, die explizit mit den Funktionen ihrer künstlichen Intelligenz werben und diese als Alleinstellungsmerkmal hervorheben.

LuminarAI ist ein solcher KI-gesteuerter Fotoeditor und verspricht seinen Usern einige verblüffende Funktionen wie die automatische Bearbeitung von Gesicht und Haut, das Ändern der Augenfarbe, das Entfernen von Sommersprossen und sogar das Ändern des Himmels mit kompletter Neubeleuchtung der Szene.

Weitere Anwendungsfälle finden sich bei Hotpot.ai. Die Werkzeuge können nicht nur automatisch Hintergründe entfernen (siehe auch remove.bg), sondern auch Farben aus Schwarz-Weiß-Fotos wiederherstellen oder künstliche Intelligenz nutzen, um Kratzer zu entfernen und Farben aus alten Fotos zu schärfen.

Topazlabs konzentriert sich auf drei weitere Anwendungsbereiche:

Entfernung von Rauschen und Artefakten, die besonders bei Bildern mit hohen ISO-Werten sichtbar werden
Hochskalierung von Bildern, um sie in hoher Auflösung, z. B. auf Postern, verwenden zu können
Korrektur von Objektivunschärfe und Bewegungsunschärfe, um gestochen scharfe Bilder zu erhalten

Wie Sie sehen, sind den Einsatzmöglichkeiten von künstlicher Intelligenz in der Bildbearbeitung heute keine Grenzen gesetzt.

Bildquelle

KAMERAASSISTENTEN ZUR VERBESSERUNG DER FOTOGRAFIE

Es gibt aber nicht nur die Möglichkeit, Bilder im Nachhinein mit Hilfe von künstlicher Intelligenz zu bearbeiten, sondern sie bereits während der Aufnahme zu nutzen. Unsere zweite Ebene der KI in Verbindung mit Bildern sind intelligente Kameras und Kamera-Gadgets.

Arsenal vermarktet sein Produkt als intelligenten Kameraassistenten, der Fotografen dabei hilft, das perfekte Bild aufzunehmen. Dies geschieht durch die Verwendung eines neuronalen Netzwerks zur intelligenten Entwicklung jedes Fotos. Es generiert eine Reihe von Anpassungen, die speziell auf jedes Foto zugeschnitten sind und für starke Bilder sorgen, ohne übertrieben zu wirken.

Darüber hinaus hilft es auch bei Panorama- und Langzeitbelichtungsaufnahmen und kann automatisch Personen oder andere bewegte Objekte aus Bildern entfernen, indem es mehrere Aufnahmen kombiniert.

Arsenal konnte über Kickstarter über 2,5 Millionen Dollar einsammeln. Der Nachfolger Arsenal 2 schaffte es sogar, über 4 Millionen Dollar einzusammeln.

Der Markt für intelligente Kamera-Assistenten ist noch relativ neu, weshalb wir in den kommenden Jahren mit weiteren Produkten und Innovationen rechnen können.

Google verfolgte vor ein paar Jahren einen etwas anderen Ansatz, als es Google Clips einführte. Eine intelligente Kamera, viel kleiner als eine GoPro, die automatisch den besten Zeitpunkt für ein Foto erkennt. Auf diese Weise sollte kein schöner Moment verpasst werden, weil es zu lange dauert, die Kamera oder das Smartphone zu zücken.

Die User sollten die Kamera einfach irgendwo platzieren und sich nicht mehr um die Aufnahme kümmern müssen. Dennoch können Bilder jederzeit manuell über einen Auslöser oder die Smartphone-App aufgenommen werden.

Googles Personenerkennungsalgorithmen arbeiten im Inneren, erkennen automatisch bekannte Gesichter und interessante Aktivitäten und nehmen im passenden Moment mehrere Bilder auf, die dann zu einem 7-sekündigen „Clip“ zusammengefügt werden.

Leider wurde das Produkt schnell wieder verworfen und eingestellt. Das mag auch daran gelegen haben, dass die ersten Tester nicht ganz zufrieden waren. Sowohl die Bildqualität (u.a. waren nur 12 Megapixel verbaut) als auch der automatische Auslöser waren nicht überzeugend.

Das Produkt zeigt jedoch deutlich, in welche Richtung sich die Kameras entwickeln. In Zukunft wird es vielleicht nicht mehr notwendig sein, einen manuellen Auslöser zu verwenden, sondern die Kamera wird selbst entscheiden, wann der beste Zeitpunkt zum Fotografieren ist.

NEURONALE STILÜBERTRAGUNG

Die dritte Ebene, die wir hervorheben möchten, ist eine Familie von Algorithmen, die als Neural Style Transfer (NST) bezeichnet wird.

„Die neuronale Stilübertragung ist ein Optimierungsverfahren, bei dem zwei Bilder – ein Inhaltsbild und ein Stilreferenzbild (z. B. ein Kunstwerk eines berühmten Malers) – miteinander vermischt werden, so dass das Ausgabebild wie das Inhaltsbild aussieht, aber im Stil des Stilreferenzbildes „gemalt“ ist.“ (TensorFlow)

Vielleicht haben Sie schon einmal die Mona Lisa gesehen, die im Stil von van Gogh gemalt wurde. Dies wurde durch NST-Algorithmen erreicht.

Bildquelle

IDENTIFIZIEREN VON OBJEKTEN UND PERSONEN

Neben der Erstellung und Bearbeitung von Fotos kann künstliche Intelligenz auch zur Erkennung von Objekten auf Fotos eingesetzt werden. Eines der bekanntesten Beispiele ist Google Lens (Android | iOS). Die App ist in der Lage, auf der Grundlage eines Bildes:

Suche nach einem Objekt, z. B. einer Sehenswürdigkeit oder ähnlichen Möbelstücken, durchführen
Übersetzen von Text auf dem Bild in mehrere Sprachen
Identifizierung von Tieren, Pflanzen, Lebensmitteln und vielem mehr
Bestimmte Aktionen ausführen, wie z. B. die automatische Verbindung mit einem Wi-Fi-Netzwerk, wenn ein entsprechender QR-Code fotografiert wird
und vieles mehr

Während Google Lens eine All-in-One-Lösung ist, gibt es Apps, die sich auf die Erkennung bestimmter Objekte spezialisiert haben. Ein solches Beispiel ist die PictureThis: Plant Identifier App (Android | iOS), mit der sich verschiedene Pflanzen und Blumen identifizieren lassen.

Ein weiteres Beispiel sind Bird Buddy und Birdfy, die beide verwendet werden können, um Vogelarten zu identifizieren, die sich an Ihrem Vogelhaus aufhalten.

Alle Apps funktionieren nach einem ähnlichen Prinzip: Die künstliche Intelligenz wurde darauf trainiert, anhand eines großen Datensatzes bestimmte Objekte in Bildern zu erkennen. Google gibt uns folgende Informationen darüber, wie Google Lens funktioniert:

„Lens vergleicht die Objekte in Ihrem Bild mit anderen Bildern und ordnet diese Bilder nach ihrer Ähnlichkeit und Relevanz für die Objekte im Originalbild ein. Nehmen wir an, Lens betrachtet einen Hund, den es zu 95 % als Deutschen Schäferhund und zu 5 % als Corgi identifiziert. In diesem Fall könnte Lens nur das Ergebnis für einen deutschen Schäferhund anzeigen, den Lens als visuell am ähnlichsten eingestuft hat.“ (Google)

Bildquelle

Während die Erkennung von Tieren oder Pflanzen in bestimmten Situationen durchaus nützlich sein kann, aber darüber hinaus keine größeren Auswirkungen haben dürfte, sieht es bei der automatischen Gesichtserkennung von Menschen ganz anders aus.

Das Unternehmen Clearview.ai sammelt seit mehreren Jahren Profilbilder aus öffentlich zugänglichen Quellen im Internet und hat nach eigenen Angaben über 20 Milliarden Bilder in seiner Datenbank gesammelt. Das Unternehmen hat gegenüber seinen Investoren geäußert, dass es auf dem besten Weg ist, den Bestand bis Ende 2022 auf über 100 Milliarden zu erweitern und ein Bild von jeder Person auf der Welt in seiner Datenbank zu haben.

Clearview AI hat in der Vergangenheit mit mehr als 600 Strafverfolgungsbehörden zusammengearbeitet, darunter das Federal Bureau of Investigation (FBI) und das Department of Homeland Security (DHS).

Während die Zusammenarbeit mit den Strafverfolgungsbehörden zunächst nicht schlecht klingt, könnten der Missbrauch und der Zugriff auf die Technologie durch private Unternehmen fatale Folgen haben. So könnten beispielsweise Angestellte, die an einer Demonstration teilgenommen haben, negative Konsequenzen befürchten, wenn ihr Arbeitgeber Zugriff auf die Datenbank hat. Ebenso könnte eine falsche Identifizierung fatale Folgen für unschuldige Menschen haben.

Der Zugriff autokratischer Regierungen auf die Datenbank kann auch zu einer stärkeren Überwachung und Unterdrückung der Bevölkerung führen.

Kürzlich hat das Unternehmen eine Reihe von Geldstrafen in Millionenhöhe erhalten, da die Sammlung von Profilbildern ohne die Zustimmung der betroffenen Personen erfolgte und somit gegen bestehende Datenschutzgesetze verstieß:

Das britische Information Commissioner’s Office (ICO) hat Clearview AI mit einer Geldstrafe von über 9 Millionen Dollar bestraft
Die griechische Datenschutzbehörde hat gegen das Unternehmen eine Geldstrafe von 20 Millionen Euro verhängt
Die französische Behörde CNIL wies das Unternehmen an, die Wiederverwendung von im Internet verfügbaren Fotos einzustellen
Die italienische Datenschutzbehörde hat gegen Clearview AI ebenfalls eine Geldstrafe in Höhe von 20 Millionen Euro verhängt
Australien hat festgestellt, dass das Unternehmen gegen nationale Datenschutzgesetze verstoßen hat, und angeordnet, die Daten zu löschen
Und auch die kanadischen Datenschutzbehörden erklärten die Software für illegal

Die Zeit wird zeigen, ob und wie das Unternehmen die aktuelle Situation übersteht. Angesichts der Vielzahl von Skandalen sollte aber schon jetzt klar sein, wie umstritten der Einsatz solcher Software ist.

TEXT-ZU-BILD-TOOLS

Das letzte Beispiel, das wir anführen möchten, ist auch das abstrakteste und anspruchsvollste. Die künstliche Intelligenz ist inzwischen so weit fortgeschritten, dass sie nicht nur Texte verstehen und interpretieren, sondern auch ein komplettes Bild allein auf der Grundlage einer Textbeschreibung erstellen kann.

Ein Ölgemälde mit einem Shiba Inu, der einen Cowboyhut und ein rotes T-Shirt trägt und am Strand Fahrrad fährt? Kein Problem, hier ist es:

Oder bevorzugen Sie ein fotorealistisches Bild eines Astronauten, der auf einem Pferd auf dem Mond reitet?

Der Kreativität sind keine Grenzen mehr gesetzt.

Derzeit arbeiten mehrere Unternehmen an einer künstlichen Intelligenz, die in der Lage ist, aus einem Text ein Bild zu erstellen. Zu den bekanntesten Vertretern gehören DALL-E von OpenAI und Imagen von Google, die derzeit um die besten Ergebnisse konkurrieren.

Das folgende Video erklärt auf verständliche Art und Weise, wie die Software funktioniert. Sie wird auf Bilder aus dem Internet trainiert, die mit einem beschreibenden Text versehen sind. Auf diese Weise versteht die KI die Verbindung zwischen dem Text und dem entsprechenden Bild. Mit der Zeit ist das Programm in der Lage, zu abstrahieren und so Objekte miteinander zu verknüpfen, so dass wir einen Bass spielenden Eisbären genießen können.

Sowohl DALL-E als auch Imagen sind noch nicht für jedermann verfügbar. Es gibt jedoch eine Reihe von anderen Tools, die ähnlich funktionieren, auch wenn sie nicht ganz so beeindruckende Ergebnisse liefern:

Text-zu-Bild-Software hat wie Deepfake-Videos das Potenzial, die Gesellschaft grundlegend zu verändern und das Vertrauen in die Medien zu erschüttern. Werden wir in Zukunft noch Grafikdesigner brauchen, wenn jeder das gewünschte Bild mit Worten beschreiben kann und die KI es dann selbst erstellt? Vertrauen wir der Website, die Bilder von Politikern postet, die sich an illegalen Glücksspielen oder Schlimmerem beteiligen?

Die Text-zu-Bild-Forschung ist mit mehreren ethischen Herausforderungen verbunden. Es ist sehr wahrscheinlich, dass sowohl DALL-E als auch Imagen aus diesem Grund noch nicht für die Öffentlichkeit zugänglich sind. Beide Tools haben eine umfassende Inhaltsrichtlinie, die bestimmte Dinge verbietet, darunter Gewaltdarstellungen, Nacktheit, die Darstellung von Politikern oder Mobbing.

OpenAI hat sogar eine Reihe von Deepfake-Schutzmechanismen in DALL-E eingebaut, um zu verhindern, dass es sich an Gesichter erinnert, und das System lehnt auch hochgeladene Bilder ab, wenn sie realistische Gesichter enthalten. Das Unternehmen setzt auch menschliche Prüfer ein, um Bilder zu überprüfen, die als potenziell problematisch eingestuft wurden. Bis vor kurzem wurden auch Gesichter in der Ausgabe verzerrt dargestellt. Dies hat sich nun geändert, da DALL-E Gesichter von nicht existierenden Personen erzeugt.

Mit großer Macht geht große Verantwortung einher – das gilt definitiv für Text-zu-Bild-Tools.

Wer besitzt das Urheberrecht an KI-generierten Bildern?

Nach der Betrachtung der verschiedenen Ebenen der künstlichen Intelligenz im Zusammenhang mit Bildern – von der Bildoptimierung bis hin zur vollständigen Bilderstellung – bleibt eine Frage offen: Wer besitzt das Urheberrecht für synthetische Bilder?

Bislang wurde das Urheberrecht an computergenerierten Werken nicht angefochten, weil das Programm lediglich ein Werkzeug war, das den kreativen Prozess unterstützte, ähnlich wie Stift und Papier. Bei den neuesten Formen der künstlichen Intelligenz ist das Computerprogramm jedoch nicht mehr nur ein Werkzeug, sondern trifft viele der Entscheidungen im kreativen Prozess ohne menschliches Zutun (WIPO).

Anfang 2022 lehnte das Copyright Review Board in den USA zum zweiten Mal einen Antrag von Steven Thaler ab, der das Urheberrecht für Bilder beanspruchen wollte, die von einer künstlichen Intelligenz erstellt wurden. Begründet wurde dies mit der fehlenden menschlichen Urheberschaft, die für die Begründung eines Urheberrechtsanspruchs erforderlich ist. Der Gerichtshof hat weiterhin die Verbindung zwischen dem menschlichen Geist und dem schöpferischen Ausdruck als Voraussetzung für den Urheberrechtsschutz formuliert.

Andere Länder verfolgen einen anderen Ansatz. Im Vereinigten Königreich zum Beispiel gilt der Programmierer der künstlichen Intelligenz als Urheber.

„Im Falle eines literarischen, dramatischen, musikalischen oder künstlerischen Werks, das mit Hilfe eines Computers erstellt wurde, gilt als Urheber die Person, die die für die Schaffung des Werks erforderlichen Vorkehrungen getroffen hat.“ (CDPA 9 (3))

Derzeit gibt es in vielen Ländern entweder überhaupt keine Vorschriften oder es ist einfach nicht möglich, dass ein Mensch das Urheberrecht für Bilder beansprucht, die von einer KI erstellt wurden.

Eine weitere Frage, die ebenfalls unbeantwortet ist: Wer haftet für Urheberrechtsverletzungen durch eine künstliche Intelligenz? Der Gesetzgeber wird sich in Zukunft vermehrt mit diesen Szenarien auseinandersetzen müssen, weshalb es in diesem Bereich in den nächsten Jahren sicherlich viele Änderungen geben wird.

Was ist die Zukunft der synthetischen Bilder?

In diesem Artikel wollten wir Ihnen einen kleinen Einblick in die Welt der künstlichen Intelligenz in Verbindung mit Bildern geben. KI ist schon seit vielen Jahren ein fester Bestandteil der Fotobearbeitung und hat in letzter Zeit auch zu einem rasanten Anstieg ihrer Anwendungsmöglichkeiten geführt.

Für viele Menschen ist es erschreckend zu sehen, was heutzutage mit einem Computer und ein paar Zeilen Code möglich ist. Die KI kann nicht nur fiktive Menschen erfinden, sondern auf der Grundlage einer einfachen Textbeschreibung komplette realitätsnahe Bilder erstellen.

Welche Auswirkungen diese Technologie in Zukunft auf die Gesellschaft haben wird und welche Methoden zur Erkennung von KI-generierten Bildern erfunden werden, kann nur die Zeit zeigen.

Eines ist jedoch sicher: Die künstliche Intelligenz hat inzwischen einen Punkt erreicht, der noch vor wenigen Jahren in Science-Fiction-Filmen als ferne Zukunft dargestellt wurde.

Artikel teilen

Autor

Denis Kargl

Veröffentlicht: August 3, 2022
Aktualisiert: Juli 2, 2025

Neustes Whitepaper

Unmasking the shadows 2025

Sieh, was sonst verborgen bleibt: von der Qualität des Website-Traffics bis zur Realität von Ad-Platzierungen. Insights aus Milliarden von Datenpunkten unserer Kunden im Jahr 2024.