Eingabeaufforderung zur Bildbearbeitung in ChatGPT, um Fotos wie eine Zeichnung von Studio Ghibli zu gestalten

Verstehen Sie, wie ChatGPT Bilder im Stil von Studio Ghibli erstellt

Avatar von Felipe Faustino
Nach einem umfassenden Update von ChatGPT ermöglicht die Funktionalität jetzt die Generierung erweiterter Bilder. So funktioniert es

Inmitten des Bombasts Trend der Fotos im Anime-Stil haben Sie sich vielleicht gefragt: Wie funktioniert das ChatGPT macht Bilder im Stil von Studio Ghibli? Konnte er das vorher nicht? Nun… es stellt sich heraus, dass die neue generative Bildgebungsfunktion von OpenAI Es ist wirklich neu und hat vor allem mit einer großen Veränderung in der Funktionsweise des künstlichen Intelligenzmodells des Unternehmens zu tun. Verstehen Sie in diesem Text, wie die ChatGPT es gelang, die Kunst des Studio Ghibli und die wichtigsten Unterschiede zu anderen Modellen.

Wie erstellt ChatGPT Bilder im Ghibli-Stil?

Um zu verstehen, wie die ChatGPT begann, Bilder wie die in Trend do Studio Ghibliist es notwendig, die wichtigsten Änderungen zu kennen, die durch OpenAI im Modell GPT-4o, lesen Sie weiter unten.

Was hat sich im GPT-4o-Modell geändert?

Person mit Computer, die Chatgpt zum Generieren von Bildern verwendet
Bild: Reproduktion/OpenAI

Die Erzeugung von Bildern in der GPT-4o basiert auf Architektur Transformator, das Muster analysiert und Textbeschreibungen mit visuellen Elementen verknüpft. Im Gegensatz zu „Diffusionsmodellen“, die mit einem zufälligen Bild beginnen und es schrittweise verfeinern, GPT-4o verwendet eine autoregressive Methode, bei der das Bild in sequenziellen Schritten erstellt wird, wodurch die visuelle Kohärenz und die Treue zum gewünschten Stil verbessert werden.

Da sich die Genauigkeit und Wiedergabe von Text in Bildern verbessert und die Fähigkeit, detaillierte Anweisungen zu verstehen und zu befolgen, ChatGPT hat seine Kapazität erhöht, die Anzahl unterschiedlicher Objekte in einer einzelnen Szene zu verwalten (bis zu 20, im Vergleich zu vorher 5 bis 8 Objekten) und kann die richtigen Beziehungen zwischen ihnen aufrechterhalten.

Im Vergleich zu Vorgängermodellen wie dem DALL-E3, die verwendet Pipelines (Reihe von Schritten oder Prozessen) getrennt für verschiedene Arten von Medien, die GPT-4o verfolgt einen einheitlichen Ansatz, der schnellere Antworten und Bilder ermöglicht, die mit Textbefehlen konsistenter sind, wodurch die Notwendigkeit mehrerer Zwischenprozesse entfällt. Dies bedeutet, dass das Modell die Nuancen der von Benutzern bereitgestellten Eingabeaufforderungen besser interpretieren kann und so sichergestellt wird, dass die visuelle Ausgabe besser mit der ursprünglichen Absicht übereinstimmt.

All diese Leistung bringt ein kontroverses Problem mit sich: Mit der explosionsartigen Zunahme der Mode im Internet steigt die Nachfrage nach Grafikverarbeitung. OpenAI notwendig, die Nutzbarkeit des Tools für einige Tage einzuschränken, insbesondere für kostenlose Benutzer von ChatGPT, weil ihre GPUs „schmolzen“, so der CEO des Unternehmens, Sam Altman. Trotz der Unannehmlichkeiten hat das Unternehmen die Generierung erweiterter Bilder bereits für Benutzer des kostenlosen Plans freigegeben, wie die Geschäftsleitung ankündigte.

Wie ermöglicht das Update Bilder im Ghibli-Stil?

Zwei Männer und ein Hund, links, rechts dasselbe Foto im Anime-Stil umgewandelt
Bild: Persönliches Archiv/Bruno Martinez

Aber was bedeutet das alles für die Fähigkeit der KI, die Ästhetik von Studio Ghibli? Es stellt sich heraus, dass mit dem neuen Update die GPT-4o Es beginnt, Stilmuster anhand zahlreicher Bildbeispiele besser zu verstehen und lernt, diese Merkmale auf der Grundlage von Benutzerbefehlen zu replizieren.

Obwohl OpenAI gaben nicht explizit an, ob ihr Trainingsdatensatz bestimmte Kunstwerke enthielt Studio GhibliAls In Viagem de Chihiro ou Der Junge und der Kranich – es überbrückt eine Kluft, die die Reproduktion von Studiostilen von denen lebender Künstler unterscheidet – die Fähigkeit des Modells, die Studioästhetik zu replizieren, lässt stark darauf schließen, dass es mit einer großen Zahl von Beispielen der Filme und verwandter Stile in Berührung gekommen ist.

Durch diese Ausstellung wird die GPT-4o lernen Sie die wichtigsten visuellen Merkmale kennen, die den Stil definieren Studio Ghibli, einschließlich: das Gefühl einer handgezeichneten Animation, das oft an traditionelle Papieranimation erinnert; Hintergründe, die ein Gefühl von Staunen und Ruhe hervorrufen; ausdrucksstarke Charaktere, typischerweise mit großen, emotionalen Augen; eine sanfte, natürliche Farbpalette, die von Pastelltönen und sanften Tönen dominiert wird; detaillierte Umgebungen, die oft Fantasy-Elemente mit Realismus mischen

Darüber hinaus ist die GPT-4o Es kann auch Bilder als Eingabe verarbeiten, sodass Benutzer vorhandene Visualisierungen transformieren oder sie als Grundlage für die Erstellung neuer Inhalte verwenden können. Auf diese Weise müssen Benutzer nicht nur nicht alle Details über den künstlerischen Stil angeben, den sie reproduzieren möchten, sondern auch sich selbst oder das Foto, das sie nachbilden möchten, nicht beschreiben. Sie fügen einfach ein Foto in den Chat ein und bitten die KI, es im Animationsstil zu reproduzieren – wie Sie in unserem Artikel über So erstellen Sie Bilder im Ghibli-Stil mit ChatGPT, mit Hinweisen und Eingabeaufforderungen.

Können andere KIs den Stil von Studio Ghibli reproduzieren?

Erstellen Sie neue Bilder mit Chatbots ist keine Neuheit, aber die Kapazität, die durch die Aktualisierung der ChatGPT Bei der Analyse und Wiedergabe der von der Eingabeaufforderung vorgeschlagenen Details ersetzen sie die KI OpenAI vor seinen Hauptkonkurrenten, wie Gemini, Ich Google, Grokaus XAi e Copilotaus Microsoft, in Bezug auf die Bilderzeugung.

Sehen Sie den Unterschied zwischen dem gleichen Bild, das in eine Zeichnung mit einer Linie umgewandelt wurde, die inspiriert ist von Studio Ghibli Folgen Sie derselben Eingabeaufforderung:

Crie uma imagem, inspirada nessa foto, com base no estilo do Studio Ghibli
Foto eines Mannes in einer natürlichen Umgebung, der ein dunkelblaues Hemd trägt - verstehen Sie, wie chatgpt Bilder im Stil von Studio Ghibli macht
Der Unterschied in der endgültigen Qualität ist deutlich, insbesondere bei der Generierung von Buchstaben und Symbolen – Bild: Persönliches Archiv/Felipe Faustino

Neben der besseren Erfassung der Details des Originalbildes ist einer der größten Fortschritte in der generativen Bildgebung GPT-4o Dies zeigt sich in der Möglichkeit, Logo und Schriftzüge auf dem Shirt abzubilden, was bei anderen Modellen nur sehr schwer möglich ist.

Während die Grok gelingt es in gewisser Weise, Merkmale des Stils von Studio Ghibli, obwohl es unter den Details des Bildes leidet, die Gemini geht völlig gegen den Strich und führt zu generischer Kunst. Es sei daran erinnert, dass die Google investiert bereits in eine Aktualisierung der generativen Bilder von Gemini, die die Erstellung komplexer Bilder und die Fotobearbeitung ermöglichen – Werkzeuge, die kann über AI Studio getestet werden. A Copilotaus Microsoft, konnte auf die Eingabeaufforderung nicht reagieren.

Haben Sie das Tool zur Eingabe der Studio Ghibli-Trend? Sag es uns in den Kommentaren.

Siehe auch

Text überarbeitet von Alexandre Marquis in 01 / 04 / 2025.

Fontes: Die Times of India, Hindustan Zeiten, Economic Times


Erfahren Sie mehr über Showmetech

Melden Sie sich an, um unsere neuesten Nachrichten per E-Mail zu erhalten.

Related posts