Première version réalisée par Stable Diffusion selon un prompt imparfait
J'ai souhaité faire réaliser par Dall-E (lire Dali), l'image d'un vitrail représentant Sainte Madeleine. Dall-E est une application d'intelligence artificielle permettant de générer des images. Elle est développée par la même équipe que celle qui a réalisé ChatGPT. ChatGPT est une application permettant de discuter, poser des questions et obtenir des réponses pertinentes. Je me suis intéressé à Sainte Madeleine car elle est la patronne de notre région.
détail des doigts. C'est un problème récurrent dans l'usage de l'intelligence artificielle. Pour un meilleur résultat il est nécessaire d'ajouter dans le prompt "detailed digits"
Je n'ai pas tout de suite obtenu le résultat attendu. La demande faite à l'application s'appelle un "prompt". Un prompt c'est ceci : "Dessine moi un mouton". Le programme s'exécute et dessine un mouton. Bien entendu, le mouton peut ressembler à n'importe quoi qui puisse porter ce nom. Il convient d'être plus précis. Mon propos n'était pas de dessiner un mouton mais une sainte. Alors je le lui ai demandé et, en améliorant progressivement le prompt, j'ai obtenu les résultats que je publie ici.
Au commencement, j'ai demandé à Dall-E de dessiner sous la forme d'un vitrail d'église, une jeune femme, etc, etc. Ma demande n'était pas assez précise. L'application m'a dessiné une jeune femme effectivement vêtue d'habits anciens, représentée SOUS une forme de vitrail d'église et avec un pot d'onguent difficile à discerner entre des doigts joints peu détaillés (Illustrations ci-contre et dessous).
Petit retour en arrière...
Mais avant tout, il me semble qu'une présentation plus longue des capacités des intelligences artificielles s'impose. En effet, cet article n'intéressera probablement que des personnes curieuses de découvrir les moyens utilisés. Je vais donc être plus précis.
Autre version imparfaite, le pot d'onguents est à peine visible et Madeleine n'est toujours pas intégrée au vitrail.
L'intelligence artificielle (IA ou AI suivant la langue), dans une utilisation grand public a considérablement progressé tout au long de l'année 2023. Au début de l'année, ChatGPT version 3.5 était en démonstration gratuite et en fin d'année 2023, c'est la version 4 associée à Dall_E, une IA de création d'image qui était disponible sur OpenAi, Bing ou Microsoft Pilot. Si l'usage de la version 3.5 de ChatGPT, déjà très performante, est gratuit, celui de la version 4 associée à Dall-E est en revanche payant (autour de 20 USD). Plus d'infos sur OPEN AI avec Wiki, ici.
Mais ce qui est payant chez OpenAI ne l'est pas forcément chez un autre acteur de la même IA : par exemple Microsoft qui est en train de développer plusieurs produits autour de son utilisation (Notamment Bing et Copilot).
Dall-E et ChatGPT sont donc intégrés gratuitement à Bing, avec un usage limité à un certain nombre de questions journalières : 50 questions à chatGPT4 ou 15 demandes de quatre dessins. et c'est avec cette version (https://www.bing.com/images/create) que j'ai travaillé plusieurs jours dans la limite de quinze fois quatre essais... (ce qui donne à réflechir avant d'appuyer sur la touche enter).
Il faut encore préciser que l'IA interprète la demande formulée dans le prompt et peut rencontrer des contradictions dans la construction de son image. Par exemple, "dessine-moi, côté mur, un mouton caché derrière un mur". Même sans contradiction apparente, l'IA ne génère que rarement très exactement ce qui lui est demandé. Il faut plusieurs essais pour obtenir un résultat satisfaisant.
De prompt en prompt, voici, en illustrations insérées ci-après, certains des résultats obtenus :
Pas de cloisonnement, quelques erreurs.
Ici (à gauche), une très belle image. Le pot est visible. Le sujet présente un peu trop de doigts ce qui est caractéristique de la génération d'image par une IA. Cette erreur est très fréquente. Une auréole est présente autour du visage aux traits harmonieux d'une sainte Madeleine que j'ai souhaitée aux cheveux roux sombre et aux yeux verts. Quelques personnages à l'arrière-plan qui semblent vénérer la sainte. Elle ressemble plus à une adolescente qu'à une femme dans la trentaine.
Le vitrail n'est pas suffisamment cloisonné ce qui rend l'oeuvre peu crédible. C'est le principal problème que j'ai rencontré sur tous les essais et, pour cette raison, j'ai finalement demandé l'aide de ChatGPT.
Dernier prompt !
Voici (ci-après) un des derniers prompts que j'ai utilisé avant de faire appel à ChatGPT. Il n'a malheureusement pas permis de générer parfaitement l'image que j'ai en tête. Les prompts peuvent être rédigés en langage naturel (dessine moi un vitrail d'église...), en un grand nombre de langues dont le français, pour Dall-E, en anglais seulement pour Stable Diffusion et plusieurs autres mais il est plus efficace de les écrire directement en anglais et de manière synthétique.
superposition réussie d'une très belle image sur un fond de vitrail mais donc aucun cloisonnement. Enfin, elle n'est pas visible debout et pieds nus.
Dernier prompt utilisé :
4k, best quality, stained glass window representing, a full body thin beautiful 30yo woman, with dark red long hairs and dark green eyes, a shy smile, wearing old rich clothes. An ointments pot with a lid. Standing, bare feet, from head to toes, on church floor. Facing at the viewer. People praying.
Ce qui signifie, dessine moi une image de 4000 pixels de long dans la plus grande dimension (en fait 4k sur 4k), d'une excellente qualité, représentant, de plein pied, une jeune femme de 30 ans, fine et belle avec de longs cheveux roux foncé et des yeux verts, un sourire timide, portant des vêtements anciens et riches. Un pot d'onguents avec couvercle. Debout, pieds nus, de la tête aux pieds, sur le sol d'une église. Regardant le spectateur. Des gens prient.
ChatGPT ? Viens m'aider !
Voici mes échanges avec ChatGPT : (agrémentés de quelques autres illustrations réalisés selon mes premiers prompts :
Ceji
Je souhaite faire appel à tes connaissances en rédaction de prompt pour dall-e
Peu de cloisonnement. J'apprécie l'initiative d'avoir proposé un sujet à la peau sombre.
ChatGPT
Bien sûr, je serais ravi de t'aider à rédiger un prompt pour DALL-E. Pour obtenir des résultats précis, il est important de formuler un prompt clair et détaillé. Pourrais-tu me donner plus d'informations sur le type d'image que tu aimerais générer avec DALL-E et tout autre détail pertinent que tu souhaites inclure dans le prompt ?
Ceji
Je souhaite voir sur l'écran l'image haute définition de Sainte-Madeleine, une jeune femme souriante vêtue d'habits anciens de son époque. Je veux qu'elle soit représentée debout, entière de la tête aux pieds ce qui est difficile à réaliser car le plus souvent je n'ai qu'une reproduction du buste. Enfin, je veux que soient présents un pot d'onguent puisque Sainte Madeleine soignait le peuple par ce moyen et des gens qui prient autour d'elle et la vénèrent. Elle a aussi une auréole. C'est le personnage central et il me regarde. Ma seconde difficulté c'est de voir toute l'image brisée par les fragments de verre et d'étain puisqu'il s'agit d'un vitrail d'église. Le plus souvent, le visage demeure entier, d'une seule pièce, ce qui n'est pas crédible au regard des moyens de l'époque.
ChatGPT
Compris, voici un prompt que tu pourrais utiliser pour décrire ta demande à DALL-E :
Presque parfait, y compris les doigts. Cloisonnement moderne et incomplet.
"Imaginez une scène représentant Sainte-Madeleine, une jeune femme souriante vêtue d'habits anciens de son époque. Elle est debout, entière de la tête aux pieds, tenant un pot d'onguent, un symbole de son rôle de guérisseuse. Autour d'elle, des gens prient et la vénèrent. Elle porte une auréole, et son regard est dirigé vers moi, le spectateur.
Cependant, cette image est comme vue à travers un vitrail d'église brisé. Les fragments de verre et d'étain créent un motif éclaté qui traverse toute la scène, avec une attention particulière pour refléter le réalisme de l'époque, où le visage de Sainte-Madeleine n'est pas épargné et apparaît également morcelé.
Je souhaite que l'image finale capture à la fois la sérénité de Sainte-Madeleine et l'effet dramatique du vitrail brisé, avec une attention particulière portée sur la crédibilité historique de la représentation."
N'hésite pas à ajuster le prompt selon tes préférences spécifiques.
Ceji
Peux-tu me donner ce prompt en anglais ?
ChatGPT
Certainly! Here is the prompt translated into English:
Cloisonnement moderne et grossier et style BD
"Imagine a scene depicting Saint Mary Magdalene, a young woman with a smiling face dressed in ancient attire. She stands, fully visible from head to toe, holding a jar of ointment, a symbol of her role as a healer. Around her, people pray and worship her. She wears a halo, and her gaze is directed towards me, the viewer.
However, this image is seen through a broken church stained glass window. Fragments of glass and lead create a shattered pattern that traverses the entire scene, with special attention to reflecting the realism of the time, where the face of Saint Mary Magdalene is not spared and also appears fragmented.
I would like the final image to capture both the serenity of Saint Mary Magdalene and the dramatic effect of the broken stained glass, with particular attention to historical accuracy in the representation."
Très belle image à mon point de vue, le visage devrait être cloisonné également. Main gauche bizarre. Pas d'auréole.
Ceji
Peux-tu me donner de nouveau le prompt pour Dall-E en anglais mais sous une forme plus synthétique ?
ChatGPT
Certainly, here's a more concise version of the DALL-E prompt in English:
"Generate an image of Saint Mary Magdalene in ancient attire, holding a jar of ointment. She stands surrounded by worshippers, with a shattered stained glass effect throughout the scene. Ensure her face is realistically fragmented, capturing both serenity and the dramatic impact of the broken glass."
Feel free to adjust any details as needed!
(fin de la discussion avec ChatGPT)
Image de Sainte Madeleine générée par Dall-E d'après un prompt modifié essentiellement généré par ChatGPT
Image générée en utilisant le prompt rédigé par ChatGPT légèrement modifié pour adoucir le visage.
Generate an image of Saint Mary Magdalene in ancient attire, gorgeous round face smiling, looking the viewer, holding a jar of ointment. She stands surrounded by worshippers, with a shattered stained glass effect throughout the scene. Ensure her face is realistically fragmented not too small, capturing both serenity and the dramatic impact of the broken glass.
Qu'en est-il de la propriété des images ?
Les images créées au moyen de l'IA sont la propriété de l'humain qui a réussi à les faire générer par l'IA. Il en est de même du prompt utilisé. Ce sont les conditions en usage chez OpenAI (donc Dall-E) mais également chez Bard, Stable Diffusion et sans doute toutes les autres AI. Voici par exemple un extrait des conditions d'utilisation de Microsoft Bing :
Un style moderne et peu de cloisonnement
Propriété du contenu. Microsoft ne revendique pas la propriété des Sous-titres, des Invites, des Créations ou de tout autre contenu que vous fournissez, publiez, saisissez, soumettez ou recevez des Services en ligne (y compris les commentaires et les suggestions). Toutefois, en utilisant les Services en ligne, en publiant, en téléchargeant, en saisissant, en fournissant ou en soumettant du contenu, vous accordez à Microsoft, ses sociétés affiliées et ses partenaires tiers l’autorisation d’utiliser les Sous-titres, les Invites, les Créations et le contenu associé en rapport avec le fonctionnement de ses entreprises (y compris, sans s’y limiter, tous les Services Microsoft), y compris, sans s’y limiter, les droits de licence pour : copier, distribuer, transmettre, afficher publiquement, exécuter publiquement, reproduire, modifier, traduire et reformater les Sous-titres, Invites, Créations et autre contenu que vous fournissez ; et le droit de sous-licencier ces droits à tout fournisseur des Services en ligne.
Autres IA de création d'images
Une autre IA évoquée dans l'échange avec ChatGPT est Stable Diffusion. C'est un modèle Open Source (donc libre de droits non commerciaux) copié maintenant par d'autres développeur et développé par Stability AI. Cette application est libre ou soumise à un paiement de 10 USD mensuel. En revanche plusieurs autres modèles Open-Source ont été développés autour dont certains sont gratuits. Surtout, évènement qui me semble capital dans l'utilisation de l'IA, les modèles Open-Source sont disponibles sur GitHub (plate-forme de travail, d'échange et de téléchargement gratuit) et peuvent être installés sur un ordinateur domestique !
En janvier 2023, trois artistes - Sarah Andersen, Kelly McKernan et Karla Ortiz - intentent une action en justice contre Stability AI, Midjourney et DeviantArt, créateurs des générateurs d'art Stable Diffusion, Midjourney et DreamUp, affirmant que ces sociétés ont violé les droits de « millions d'artistes » en entraînant leurs outils d'intelligence artificielle sur cinq milliards d'images extraites du web « sans le consentement des artistes originaux ».
Quid de la censure ?
Si les prompts utilisables dans Bing sont censurés (impossible de demander une Sainte Madeleine aux seins nus par exemple). Il n'en est pas de même de quelques IA de génération d'images. Je laisse à chacun le soin d'en trouver l'adresse sur le net. Ce n'est pas difficile. Dès lors, la génération de TOUT TYPE d'images est possible. Que ce soit un bien ou un mal, je ne vois pas comment l'humanité pourrait revenir en arrière et je m'aperçois que les deux derniers paragraphes justifient un article distinct...