Stable Diffusion 3.0 : entre fou-rire et consternation

Stable Diffusion a 2 ans, alors il se met aux bonhommes-têtards ! C'est de son âge !

Sorti il y a quelques semaines, c'est peu dire que Stable Diffusion 3.0 était attendu. Alors que Midjourney et Dall-E avaient pris une avance considérable tant dans la qualité des rendus que dans la compréhension des prompts, SD3 promettait de rebattre les cartes avec des performances extraordinaires. La hype était à son comble, les promesses immenses : Stability AI promettait même que ce modèle serait sans doute le dernier modèle majeur de génération d'image qu'ils produiraient, tant ses performances étaient excellentes. Nous n'aurions tout simplement plus besoin de mieux. Photoréalisme parfait, compréhension de prompts archi-complexes, gestion impeccable des textes dans l'image... Stable Diffusion 3 était plus que prometteur : il devait mettre tout le monde d'accord.

Aussi la déception, voire la colère, de la communauté à sa sortie fut-elle à la hauteur des espérances. Pourquoi ? SD3 aurait-il échoué à tenir ses promesses ? Jugez plutôt...

Je ne sais pas vous, mais moi, ce n'est pas exactement ce que j'attendais d'une génération d'image parfaite et photoréaliste. Et les problèmes ne s'arrêtent pas là. Si Stable Diffusion 3.0 semble particulièrement incapable de générer des images de personnes allongées dans l'herbe, les phénomènes de "body horror" sont beaucoup plus larges. Le modèle semble n'avoir globalement aucune maîtrise de l'anatomie humaine, les textures sont parfois très décevantes, et même l'anatomie animale ou celle des objets est souvent à peine digne de Stable Diffusion 1.4. Jugez plutôt :

Alors, que s'est-il passé ? Du côté de Stability AI, on prétend que tout va bien, et qu'il est seulement nécessaire d'apprendre à maîtriser l'outil pour en tirer la substantifique moelle.

D'autres spécialistes présument un autre problème : la volonté de "censurer" le modèle afin de l'empêcher de générer des nus aurait complètement perdu le modèle, n'ayant plus aucun repère quant à l'anatomie et à ce qu'est un humain.

Cette volonté de rendre le modèle "safe" et ses effets de bord sont bien réels, et faciles à observer (il suffit d'essayer de lui faire produire une femme torse nu), mais ne suffit pas à expliquer les dégâts... pourquoi le fond derrière notre homme est-il si peu naturel ? Pourquoi le retour des problèmes de mains à 9 doigts ? Pourquoi la génération même de chiens ou de voitures est-elle si imparfaite ?

Une autre hypothèse est que la version mise à la disposition du public par StabilityAI serait une version excessivement simplifiée et sans doute mal finie. Les générations produites grâce à l'API de Stability sont d'ailleurs globalement de meilleure qualité que celles produites en local, même si on reste loin des promesses initiales.

On ne sait donc pas encore avec certitude ce qui s'est passé avec SD3, ni si cela pourra finalement être corrigé par StabilityAI ou par la communauté, ou si ce modèle est définitivement dénué d'avenir. Mais il vient mettre un sérieux coup à la hype AI, en étant un exemple de plus de modèle archétype du "overpromise, underdeliver".

Preuve en est qu'il faut continuer à se méfier des démos et promesses trop belles pour être vraies.

Écrit le :

sam 15/06/2024 - 21:01

Par :

everydai

Étiquettes

image

photo

gratuit

foss

local