Benötigte Lesezeit: 3 Minuten

DALL-E (ausgesprochen „Dolly“) ist ein von OpenAI erstelltes neuronales Netzwerk, das Bilder aus Textbeschreibungen generiert, indem es eine Kombination aus konvolutionellen neuronalen Netzwerken und transformatorbasierten Sprachmodellen verwendet. Es wurde benannt nach dem Künstler Salvador Dali und dem Roboter-Charakter Wall-E.

DALL-E ist eine 12-Milliarden-Parameter-Version von GPT-3 und wurde im Januar 2021 erstmals vorgestellt. DALL-E 2 ist eine aktualisierte Version des Modells, das mit einem größeren Datensatz trainiert wurde.

Die technische Basis von DALL-E 2 ist eine Variante der Transformer-Architektur, welche für Aufgaben zur Verarbeitung natürlicher Sprache verwendet wird. Sie ist bekannt für ihre Fähigkeit, große Mengen sequenzieller Daten zu verarbeiten und langfristige Abhängigkeiten in den Daten zu handhaben.

DALL-E 2 verwendet eine Kombination aus „Selbstaufmerksamkeitsmechanismen“ und Convolutional Neural Networks (CNNs), um den Eingabetext zu verarbeiten und die Ausgabebilder zu generieren. Die „Selbstaufmerksamkeitsmechanismen“ ermöglichen es dem Modell, die Beziehungen zwischen verschiedenen Wörtern im Eingabetext zu berücksichtigen, während die CNNs verwendet werden, um Merkmale aus dem Eingabetext und den Bildern zu extrahieren.

Die Trainingsdaten für DALL-E 2 bestehen aus einem großen Datensatz von Text-Bild-Paaren, die verwendet werden, um dem Modell die Beziehung zwischen Wörtern und Bildern beizubringen. Während des Trainings wird dem Modell eine Textbeschreibung und ein Bild präsentiert, und es muss lernen, ein Bild zu erzeugen, das der Beschreibung entspricht.

„Ein Bild von einem Dackel, der mit einer Biene spielt, digital Art“ (DALL·E 2)

Die Datengrundlage von DALL·E 2

Genauere Informationen darüber, welche Datensätze verwendet wurden, sind nicht bekannt, da sie von OpenAI nicht veröffentlicht wurden.

„Ein Foto von Tina Nord“ (DALL·E 2 )

Allerdings geben die Entwickler Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu und Mark Chenn in ihrem wissenschaftlichen Papier „Hierarchical Text-Conditional Image Generation with CLIP Latents“ einen Hinweis auf die Größe der Trainings-Datensätze:

Beim Trainieren des Encoders nehmen wir mit gleicher Wahrscheinlichkeit Stichproben aus den Datensätzen CLIP [39] und DALL-E [40] (insgesamt etwa 650 Millionen Bilder). Beim Training des Decoders und der Upsampler verwenden wir nur den DALL-E-Datensatz [40] (ungefähr 250 Millionen Bilder). Die Integration des lauteren CLIP-Datensatzes während des Trainings des generativen Stacks wirkte sich bei unseren ersten Bewertungen negativ auf die Probenqualität aus.

Unsere Decoderarchitektur ist das 3,5-Milliarden-Parameter-GLIDE-Modell mit der gleichen Architektur und den gleichen Diffusions-Hyperparametern wie in Nichol et al. [35]. Wir trainieren mit erlerntem Sigma und proben mit 250 ausgetretenen Abtastschritten wie bei Nichol und Dhariwal [34].

(Übersetzt mit Google Translate, Quelle: https://arxiv.org/abs/2204.06125

CLIP (Contrastive Language-Image Pre-training) und DALL·E 2 sind beides neuronale Netzwerk-Modelle, die von OpenAI entwickelt wurden und die Fähigkeit besitzen, Bilder auf der Basis von Textbeschreibungen zu generieren. Allerdings erzeugt Clip sehr seltsame Bilder mit Artefakten und massiven Verzerrungen und kachelt den Bildschirm oft mit angeforderten Objekten. DALL E dagegen produziert „normal“ aussehende Bilder.

CLIP wurde entwickelt, um besser in der Lage zu sein, semantische Bedeutungen in Textbeschreibungen zu verstehen und abzubilden, während DALL·E 2 eher auf die visuellen Aspekte von Bildern fokussiert ist. Dennoch ist es sehr wahrscheinlich, dass die verwendeten Trainings-Datensätze zum Teil ähnlich sind.

„Eine Produktfoto von einem Kundenservice-Chatbot“ (DALL·E 2)

Wie und wo kann DALL·E 2 eingesetzt werden?

Ein Anwendungsbeispiel für DALL·E 2 ist die Verwendung im Marketing. DALL·E 2 kann Bilder auf der Basis von Produktbeschreibungen oder Blogbeiträgen generieren für Marketingkampagnen. Dies kann die Aufmerksamkeit von Kunden auf sich ziehen oder helfen neue Ideen für Marketingkampagnen zu entwickeln.

Ein weiteres Anwendungsbeispiel für DALL·E 2 ist die Verwendung in der Architektur. DALL·E 2 kann Renderings von Gebäuden oder Städten auf der Basis von Textbeschreibungen erstellen. Dies kann besonders hilfreich sein, wenn es darum geht, neue Architekturkonzepte zu entwickeln oder um die visuelle Darstellung von Projekten zu verbessern.

Denkbar ist außerdem die Verwendung von DALL·E 2 in der Kunst. Etwa um neue Ideen für Kunstwerke zu entwickeln oder um die Kreativität von Künstlern zu fördern.

Insgesamt ist DALL·E 2 ein beeindruckendes neuronales Netzwerk-Modell, das die Fähigkeit besitzt, Bilder auf der Basis von Textbeschreibungen zu generieren. Mit seiner technischen Grundlage und dem Training mit einem großen Satz von Bildern und Textbeschreibungen ist DALL·E 2 in der Lage, die Beziehung zwischen Text und Bildern zu lernen und zu verstehen. Dies macht es zu einem wichtigen Werkzeug in vielen Bereichen und zeigt das große Potenzial von Transformer-Modellen in der künstlichen Intelligenz.

Text: Tina Nord und CHATGPT

Bild: DALL·E 2 „A happy self portrait of DALL·E 2, digital Art“

Tina

Tina Nord ist Marketing-Expertin, Autorin und Sprecherin. Die Kommunikationswirtin beschäftigt sich seit mehr als zehn Jahren mit Content Marketing. Seit 2016 erforscht Tina den Einfluss maschinellen Lernens auf Content und engagiert sich für die Repräsentation und Beteiligung von Frauen an der Entwicklung von KI.

Diese Artikel sind ebenfalls interessant:

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert