Abstrakte, farbige Formen
Abstrakte, farbige Formen
Abstrakte, farbige Formen

Fake Future #2: KI-generierte synthetische Bilder

03.08.2022

In unserer Artikelreihe “Fake Future” wollen wir neue Technologien betrachten, die das Potenzial haben, die Zukunft grundlegend zu definieren.

In unserem letzten Artikel haben wir uns auf Deepfake-Videos konzentriert. Wie sie erstellt werden, welche Anwendungsfälle es gibt und wie die aktuelle rechtliche Situation aussieht.

Dieser Artikel hebt die Nutzung von künstlicher Intelligenz in Verbindung mit Bildern hervor. Wir gehen auf verschiedene Ebenen von KI ein, bis wir schließlich bei synthetischen Bildern ankommen, also Bilder, die komplett von einem Computer erstellt wurden.

Da die Erstellung von synthetischen Bildern in vielen Teilen der Erstellung von Deepfake-Videos ähnelt, solltest du unbedingt unseren letzten Artikel lesen, wenn du detaillierte Informationen darüber erfahren möchtest.

Beispiele von KI-generierten Bildern

Bildquelle

Was sind KI-generierte / synthetische Bilder?

Die Definition von computer-generierten Bildern (CGI) kann sehr breit interpretiert werden. In Filmproduktionen bezieht sich der Begriff CGI auf visuelle Spezialeffekte, die von Menschen mit Hilfe eines Computers erstellt werden.

KI-generierte Bilder werden ebenfalls mit einem Computer erstellt, stellen aber eine Unterkategorie der computer-generierten Bilder dar. Der Unterschied zu CGI ist der fehlende menschliche Eingriff bei der Erstellung der Bilder.

Zum Beispiel kann ein Computerprogramm auf Gesichter trainiert werden, bis es schließlich selbst in der Lage ist, ein menschliches Gesicht zu “erfinden” und auszugeben. Genau das ist der Anwendungsfall der Website thispersondoesnotexist.com, die ein realistisch aussehendes Profilbild eines Menschen zeigt, wenn man sie aufruft. Wie der Name der Website schon sagt, existieren die dargestellten Personen jedoch nicht. Der Algorithmus wurde mit Profilbildern von echten Personen trainiert, bis er in der Lage war, ein fiktives Gesicht realitätsgetreu nachzubilden und so das Profilbild einer komplett neuen Person zu erstellen.

Es gibt mittlerweile auch eine Vielzahl von Programmen, die Bilder basierend auf einer einfachen Textbeschreibung erstellen können. Du beschreibst dem Programm mit Worten, was du sehen möchtest und das Tool erstellt das Bild automatisch.

Deshalb werden die Bilder auch als synthetisch bezeichnet. Anders als echte Bilder, die von einem Bildaufnahmegerät wie einer Kamera aufgenommen und dann in Pixel umgewandelt werden, werden synthetische Bilder durch reine Berechnung erstellt, also durch Modellierung der realen Welt und Simulation der optischen Gesetze.

Wie werden synthetische Bilder erstellt?

Ähnlich der Erstellung von Deepfake-Videos werden synthetische Bilder durch die Verwendung von Generative Adversial Networks (GANs), Autoencodern oder den fortschrittlicheren Vector Quantized Variational Autoencoders (VQ-VAE) erstellt.

Wir wollen hier nicht zu sehr auf die verschiedenen Methoden eingehen, da es schnell sehr wissenschaftlich und mathematisch wird. Wenn du mehr über GANs und Autoencoder und deren Funktionsweise erfahren möchtest, kannst du unseren Artikel über Deepfake-Videos lesen, wo wir kurz erklären, wie sie funktionieren.

Falls du mehr über VQ-VAEs lernen möchtest und nicht vor mathematischen Formeln zurückschreckst, empfehlen wir die folgenden großartigen Artikel zu dem Thema:

Diagramm zur Funktionsweise von VQ-VAEs

Bildquelle

Das Wesentliche ist zu verstehen, dass der Computer eine Form von unüberwachtem Lernen verwendet, bei der ein Algorithmus eigenständig Muster erlernt, ohne dass ein Mensch die Eingabedaten erklärt oder markiert.

Anwendungsfälle und Beispiele für künstliche Intelligenz in Verbindung mit Bildern

Es gibt vielfältige Anwendungsfälle, bei denen künstliche Intelligenz in Verbindung mit Bildern eingesetzt wird.

Einfache Anwendungsfälle umfassen die Gesichtserkennung oder die automatische Anpassung der Einstellungen an die Lichtverhältnisse in deiner Smartphonekamera-App. Kleine Helfer, die heute selbstverständlich sind und für viele von uns unverzichtbar.

Um die verschiedenen möglichen Anwendungen von KI zu veranschaulichen, werden wir im Folgenden einige Beispiele anführen. Nicht alle Beispiele beinhalten synthetische Bilder, sollen aber die unterschiedlichen Ebenen von künstlicher Intelligenz veranschaulichen.

Darstellung des ersten gefälschten Bildes aus dem Jahr 1860, bei welchem dem Politiker John Calhoun der Kopf von Präsident Abraham Lincoln aufgesetzt wurde.

Bildquelle

Foto-Bearbeitung und Verbesserung

Als das erste Foto im Jahr 1826 von einer Kamera aufgenommen wurde, dauerte es nicht lange, bis das erste manipulierte Bild erstellt wurde.

Im Jahr 1860 wurde ein Foto des Politikers John Calhoun manipuliert und sein Körper in einem anderen Foto mit dem Kopf des Präsidenten der Vereinigten Staaten, Abraham Lincoln, verwendet.

Heutzutage ist Bildbearbeitung ein natürlicher Prozess. Egal ob nach einem professionellen Shooting oder Omas Urlaubsbilder, unsere Bilder durchlaufen mehrere Optimierungsverfahren, von denen einige automatisch und mit Hilfe künstlicher Intelligenz erfolgen.

Automatische Bildmanipulation umfasst das Entfernen unerwünschter Objekte in Verbindung mit inhaltsbewussten Füllungen, Farbverbesserungen und Perspektivkorrekturen.

In den letzten Jahren haben immer mehr KI-basierte Werkzeuge und Funktionen ihren Weg in Photoshop gefunden, das am weitesten verbreitete Bildbearbeitungsprogramm.

Aber auch die Konkurrenz schläft nicht. Es gibt nun Fotobearbeitungstools, die explizit mit den Funktionen ihrer künstlichen Intelligenz werben und sie als Alleinstellungsmerkmal hervorheben.

LuminarAI ist solch ein KI-gestützter Fotoeditor und verspricht seinen Nutzern einige beeindruckende Features wie automatisierte Gesichts- und Hautbearbeitung, Änderung der Augenfarbe, Entfernung von Sommersprossen und sogar den Austausch von Himmeln mit kompletter Szenenbeleuchtung.

Weitere Anwendungsfälle findest du bei Hotpot.ai. Seine Werkzeuge können nicht nur automatisch Hintergründe entfernen (siehe auch remove.bg), sondern auch Farbe aus Schwarz-Weiß-Fotos wiederherstellen oder mit künstlicher Intelligenz Kratzer entfernen und Farben von alten Fotos schärfen.

Topazlabs konzentriert sich auf drei weitere Anwendungsbereiche:

  • Rausch- und Artefaktentfernung, die besonders sichtbar bei Bildern sind, die mit hohen ISO-Werten aufgenommen wurden

  • Upscaling von Bildern, um sie in hoher Auflösung nutzen zu können, z.B. auf Postern

  • Korrektur von Objektivunschärfe und Bewegungsunschärfe, um knackscharfe Bilder zu erhalten

Wie du siehst, sind den möglichen Anwendungsfällen von künstlicher Intelligenz in der Bildbearbeitung heute keine Grenzen gesetzt.

Werbebanner zum smarten Camera Assistant von Arsenal

Bildquelle

Kamera-Assistenten zur Verbesserung der Fotografie

Es besteht jedoch nicht nur die Möglichkeit, Bilder nachträglich mit Hilfe von künstlicher Intelligenz zu bearbeiten, sondern sie bereits während des Fotografierens zu nutzen. Unser zweites Level von KI in Verbindung mit Bildern sind intelligente Kameras und Kameragadgets.

Arsenal vermarktet sein Produkt als intelligenter Kamera-Assistent, der Fotografen hilft, das perfekte Bild zu erfassen. Dies geschieht durch den Einsatz eines neuronalen Netzwerks, das jedes Foto intelligent entwickelt. Es generiert eine Reihe von Anpassungen, die speziell auf jedes Foto abgestimmt sind, und sorgt so für eindrucksvolle Bilder, ohne übertrieben zu wirken.

Darüber hinaus hilft es auch bei Panorama- und Langzeitbelichtungsaufnahmen und kann Menschen oder andere sich bewegende Objekte aus Bildern automatisch entfernen, indem es mehrere Aufnahmen kombiniert.

Arsenal konnte über $2,5 Millionen via Kickstarter sammeln. Der Nachfolger Arsenal 2 schaffte es sogar, über $4 Millionen zu sammeln.

Der Markt für smarte Kamera-Assistenten ist noch relativ neu, weshalb wir in den kommenden Jahren mit mehr Produkten und Innovationen rechnen können.

Google nahm vor einigen Jahren einen etwas anderen Ansatz, als sie Google Clips vorstellten. Eine smarte Kamera, viel kleiner als eine GoPro, die automatisch den besten Moment zum Fotografieren erkennt. So soll kein schöner Moment verpasst werden, weil es zu lange dauert, die Kamera oder das Smartphone herauszuholen.

Nutzer sollen die Kamera einfach irgendwo platzieren und brauchen sich keine Sorgen mehr um das Fotografieren zu machen. Trotzdem können Bilder jederzeit manuell über eine Auslösetaste oder die Smartphone-App aufgenommen werden.

Googles Algorithmen zur Gesichtserkennung arbeiten im Inneren, erkennen automatisch bekannte Gesichter und interessante Aktivitäten und nehmen mehrere Bilder im passenden Moment auf, die dann zu einem 7-sekündigen “Clip” zusammengestitcht werden.

Leider wurde das Produkt schnell aufgegeben und eingestellt. Es könnte teilweise daran liegen, dass die ersten Tester nicht vollständig zufrieden waren. Sowohl die Bildqualität (unter anderem waren nur 12 Megapixel installiert) als auch der automatische Auslöser waren nicht überzeugend.

Das Produkt zeigt jedoch deutlich, in welche Richtung sich Kameras entwickeln. In Zukunft könnte es nicht mehr notwendig sein, einen manuellen Auslöser zu verwenden; stattdessen wird die Kamera selbst entscheiden, wann der beste Zeitpunkt ist, ein Foto zu machen.

Neural Style Transfer

Das dritte Level, das wir hervorheben möchten, sind Algorithmenfamilien namens Neural Style Transfer (NST).

“Neural Style Transfer ist eine Optimierungstechnik, die verwendet wird, um zwei Bilder – ein Inhaltsbild und ein Stilreferenzbild (zum Beispiel ein Kunstwerk eines berühmten Malers) – zu nehmen und sie so miteinander zu verschmelzen, dass das Ausgangsbild wie das Inhaltsbild aussieht, aber im Stil des Stilreferenzbilds “gemalt” ist.” (TensorFlow)

Du hast vielleicht die Mona Lisa im Stil von van Gogh gemalt gesehen. Dies wurde durch NST-Algorithmen erreicht.

Screenshot der App Google Lens

Bildquelle

Objekte und Menschen erkennen

Abgesehen von der Bilderschaffung und -bearbeitung kann künstliche Intelligenz auch verwendet werden, um Objekte auf Fotos zu erkennen. Eines der bekanntesten Beispiele ist Google Lens (Android | iOS). Basierend auf einem Bild ist die App in der Lage:

  • Eine Suche nach einem Objekt durchzuführen, wie einem Wahrzeichen oder ähnlichen Möbelstücken

  • Text auf dem Bild in mehrere Sprachen zu übersetzen

  • Tiere, Pflanzen, Lebensmittel und vieles mehr zu identifizieren

  • Bestimmte Aktionen durchzuführen, wie z.B. eine automatische Verbindung zu einem Wi-Fi-Netzwerk herzustellen, wenn ein entsprechender QR-Code fotografiert wird

  • und vieles mehr

Während Google Lens eine All-in-One-Lösung ist, gibt es Apps, die sich auf die Erkennung bestimmter Objekte spezialisiert haben. Ein solches Beispiel ist die App PictureThis: Plant Identifier (Android | iOS), die zur Identifikation verschiedener Pflanzen und Blumen verwendet werden kann.

Ein weiteres Beispiel sind Bird Buddy und Birdfy, die beide zur Identifikation von Vogelarten genutzt werden können, die an deinem Vogelhaus zugegen sind.

Alle Apps funktionieren nach einem ähnlichen Prinzip: Künstliche Intelligenz wurde darauf trainiert, spezifische Objekte in Bildern zu erkennen, indem sie ein großes Datenset verwendet. Google gibt uns die folgende Information darüber, wie Google Lens funktioniert:

“Lens vergleicht Objekte in deinem Bild mit anderen Bildern und ordnet diese Bilder auf Grundlage ihrer Ähnlichkeit und Relevanz zu den Objekten im ursprünglichen Bild an. Angenommen, Lens sieht sich einen Hund an, der wahrscheinlich zu 95% ein Deutscher Schäferhund und zu 5% ein Corgi ist. In diesem Fall könnte Lens nur das Ergebnis für einen Deutschen Schäferhund anzeigen, das Lens als am visuell ähnlichsten eingestuft hat.” (Google)

Screenshot der App Clearview mobile

Bildquelle

Während die Erkennung von Tieren oder Pflanzen in bestimmten Situationen recht nützlich sein kann, aber keine großen Konsequenzen darüber hinaus haben sollte, ist die Situation bei der automatischen Gesichtserkennung von Menschen eine völlig andere.

Das Unternehmen Clearview.ai sammelt seit mehreren Jahren Profilbilder aus öffentlich zugänglichen Quellen im Internet und hat, nach eigenen Angaben, über 20 Milliarden Bilder in seiner Datenbank gesammelt. Das Unternehmen hat seinen Investoren mitgeteilt, dass es auf dem besten Weg ist, den Bestand bis Ende 2022 auf über 100 Milliarden zu erweitern und ein Bild von jeder Person auf der Welt in seiner Datenbank zu haben.

Clearview AI hat in der Vergangenheit mit mehr als 600 Strafverfolgungsbehörden zusammengearbeitet, einschließlich des Federal Bureau of Investigation (FBI) und dem Department of Homeland Security (DHS).

Obwohl die Zusammenarbeit mit Strafverfolgungsbehörden zunächst nicht schlecht klingt, könnte der Missbrauch und der Zugang zur Technologie durch private Unternehmen fatale Folgen haben. Mitarbeiter, die an einer Demonstration teilnahmen, könnten beispielsweise negative Konsequenzen befürchten, wenn ihr Arbeitgeber Zugang zur Datenbank hat. Ebenso könnten Fehldiagnosen fatale Konsequenzen für unschuldige Menschen haben.

Der Zugang autokratischer Regierungen zur Datenbank kann auch zu größerer Überwachung und Unterdrückung der Bevölkerung führen.

In letzter Zeit hatte das Unternehmen eine Reihe von Geldstrafen in Millionenhöhe erhalten, da die Sammlung von Profilbildern ohne Zustimmung der betroffenen Personen erfolgte und somit gegen bestehende Datenschutzgesetze verstößt:

Die Zeit wird zeigen, ob und wie das Unternehmen die aktuelle Situation überlebt. Angesichts der zahlreichen Skandale sollte jedoch bereits klar sein, wie umstritten der Einsatz solcher Software ist.

Text-zu-Bild

Das letzte Beispiel, das wir erwähnen möchten, ist auch das abstrakteste und anspruchsvollste. Künstliche Intelligenz ist mittlerweile so weit fortgeschritten, dass sie nicht nur Texte verstehen und interpretieren kann, sondern auch ein vollständiges Bild basierend auf einer Textbeschreibung erstellen kann.

Ein Ölgemälde eines Shiba Inu mit Cowboyhut und rotem T-Shirt, der mit dem Fahrrad am Strand fährt? Kein Problem, bitteschön:

Ein Ki-generiertes Bild, das einen Shiba Inu Hund mit einem Hut auf einem Fahrrad am Strand zeigt

Oder lieber ein fotorealistisches Bild eines Astronauten, der auf dem Mond auf einem Pferd reitet?

Ein KI-generiertes Bild, das einen Astronauten auf einem Pferd zeigt

Der Kreativität sind keine Grenzen mehr gesetzt.

Zur Zeit arbeiten mehrere Unternehmen an künstlicher Intelligenz, die in der Lage ist, aus einem einfachen Text ein Bild zu erstellen. Die bekanntesten Vertreter sind OpenAI’s DALL-E und Google’s Imagen, die derzeit um die besten Ergebnisse konkurrieren.

Das folgende Video erklärt auf verständliche Weise, wie die Software funktioniert. Sie wird auf Bilder aus dem Internet trainiert, die einen beschreibenden Text haben. So versteht die KI den Zusammenhang zwischen Text und dem entsprechenden Bild. Im Laufe der Zeit ist das Programm in der Lage zu abstrahieren und somit Objekte miteinander zu verknüpfen, so dass wir einen Bass spielenden Eisbären genießen können.

Sowohl DALL-E als auch Imagen sind noch nicht für alle verfügbar. Es gibt jedoch eine Vielzahl anderer Tools, die ähnlich arbeiten, auch wenn sie nicht ganz so beeindruckende Ergebnisse liefern:

Text-to-Image-Software hat, ähnlich wie Deepfake-Videos, das Potenzial, die Gesellschaft grundlegend zu verändern und das Vertrauen in die Medien zu erschüttern. Werden wir in der Zukunft noch Grafiker benötigen, wenn jeder das gewünschte Bild mit Worten beschreiben kann und die KI es dann selbst erstellt? Trauen wir der Website, die Bilder von Politikern zeigt, die illegal zocken oder schlimmer?

Es gibt mehrere ethische Herausforderungen, vor denen die Text-to-Image-Forschung steht. Es ist sehr wahrscheinlich, dass sowohl DALL-E als auch Imagen aus diesem Grund noch nicht der Öffentlichkeit zugänglich sind. Beide Tools haben eine umfassende Inhaltsrichtlinie, die bestimmte Dinge verbietet, darunter Darstellungen von Gewalt, Nacktheit, die Darstellung von Politikern oder Mobbing.

OpenAI hat sogar eine Reihe von Deepfake-Sicherungen in DALL-E eingebaut, um zu verhindern, dass es sich Gesichter merkt, und das System lehnt auch hochgeladene Bilder ab, die realistische Gesichter enthalten. Das Unternehmen setzt auch menschliche Prüfer ein, um Bilder zu prüfen, die als potenziell problematisch eingestuft wurden. Bis vor kurzem wurden auch Gesichter im Output verzerrt. Das hat sich geändert, da DALL-E nun Gesichter von nicht existierenden Personen erstellt.

Mit großer Macht kommt auch große Verantwortung – das gilt definitiv für Text-to-Image-Tools.

Wem gehört das Copyright an KI-generierten Bildern?

Nachdem wir die verschiedenen Ebenen der künstlichen Intelligenz in Verbindung mit Bildern betrachtet haben – angefangen bei der Bildoptimierung bis hin zur vollständigen Bilderstellung – bleibt eine Frage: Wem gehört das Copyright an synthetischen Bildern?

Bisher wurden Copyrights bei computer-generierten Werken nicht infrage gestellt, da das Programm lediglich ein Werkzeug war, das den kreativen Prozess unterstützte, ähnlich wie Stift und Papier. In den neuesten Formen der künstlichen Intelligenz jedoch ist das Computerprogramm nicht mehr nur ein Werkzeug, sondern trifft viele der Entscheidungen im kreativen Prozess ohne menschliches Eingreifen (WIPO).

Zu Beginn des Jahres 2022 lehnte das Copyright Review Board in den USA erneut einen Antrag von Steven Thaler ab, der Urheberrecht für Bilder beanspruchen wollte, die von einer künstlichen Intelligenz erstellt wurden. Der Grund war das Fehlen menschlicher Autorschaft, die erforderlich ist, um einen Urheberrechtsanspruch zu begründen. Das Gericht hat weiterhin die Verbindung zwischen dem menschlichen Geist und dem kreativen Ausdruck als Voraussetzung für den Urheberrechtsschutz artikuliert.

Andere Länder verfolgen einen anderen Ansatz. Im Vereinigten Königreich zum Beispiel gilt der Programmierer der künstlichen Intelligenz als Autor.

“Im Falle eines literarischen, dramatischen, musikalischen oder künstlerischen Werks, das computer-generiert ist, gilt als Urheber die Person, durch die die für die Erstellung des Werks erforderlichen Vorkehrungen getroffen wurden.” (CDPA 9 (3))

Derzeit gibt es in vielen Ländern entweder keine Regelungen oder es ist einfach nicht möglich, dass ein Mensch Urheberrecht für von einer KI erstellte Bilder beanspruchen kann.

Eine weitere Frage, die ebenfalls ungeklärt ist: Wer haftet für Urheberrechtsverletzungen durch eine künstliche Intelligenz? Gesetzgeber werden sich in Zukunft zunehmend mit diesen Szenarien auseinandersetzen müssen, weshalb es in diesem Bereich sicherlich viele Veränderungen in den kommenden Jahren geben wird.

Wie sieht die Zukunft von synthetischen Bildern aus?

In diesem Artikel wollten wir dir einen kleinen Einblick in die Welt der künstlichen Intelligenz in Verbindung mit Bildern geben. KI ist seit vielen Jahren ein konstanter Bestandteil der Bildbearbeitung und hat in letzter Zeit auch zu einem rasanten Anstieg ihres Anwendungsspektrums geführt.

Für viele Menschen ist es beängstigend zu sehen, was heute mit einem Computer und ein paar Zeilen Code möglich ist. KI kann nicht nur fiktive Personen erfinden, sondern auch komplette realitätsbasierte Bilder erstellen, die auf einer einfachen Textbeschreibung basieren.

Welche Auswirkungen diese Technologie in der Zukunft auf die Gesellschaft haben wird und welche Methoden zur Erkennung von KI-generierten Bildern entwickelt werden, kann nur die Zeit zeigen.

Eine Sache ist jedoch sicher: künstliche Intelligenz hat mittlerweile einen Punkt erreicht, der noch vor wenigen Jahren in Sci-Fi-Filmen als ferne Zukunft dargestellt wurde.

Schütze dein Marketing vor Bots und Invalid Traffic

Hol dir die Kontrolle über dein Marketing und deine Daten zurück und teste fraud0.

Cta Image

Schütze dein Marketing vor Bots und Invalid Traffic

Hol dir die Kontrolle über dein Marketing und deine Daten zurück und teste fraud0.

Cta Image

Schütze dein Marketing vor Bots und Invalid Traffic

Hol dir die Kontrolle über dein Marketing und deine Daten zurück und teste fraud0.

Cta Image