FLUX : un nouveau modèle de génération d'image open-source

Enfin le vrai Stable Diffusion 3.0 ?

Les sorties de nouveaux modèles de génération d'image se suivent, mais ne se ressemblent pas toujours. Après un Stable Diffusion 3.0 plus que décevant chez Stability AI, une nouvelle entreprise entre en jeu et décide de frapper fort. Créé par Black Forest Labs, une entreprise fondée par des anciens de StabilityAI, FLUX (ou FLUX.1) est un modèle de génération d'image par diffusion (comme Stable Diffusion, Midjourney ou encore DALL-E), en grande partie gratuit, open-source et open-weights, et dont les résultats ont bluffé la communauté.

À l'aise dans la génération d'images photo-réalistes (mais pas seulement), capables de générer des humains sans créer de monstruosités difformes, extraordinairement à l'aise dans la génération d'images contenant du texte, il est de surcroît réputé exceller dans la compréhension des prompts en langage naturel. Fini les prompts presque programmatiques, plein de mots-clés avec des poids fixés manuellement. À la place, FLUX semble préférer des prompts très détaillés, tout en langage naturel, sous forme de longues descriptions presque narratives. De quoi laisser libre court à votre imagination.

Image d'un couple portant un écriteau, façon film d'horreur, générée avec FLUX PRO

Bien sûr, comme il est de plus en plus courant dans le monde des IA open-source par des entreprises commerciales, derrière les discours très généreux, tout n'est pas vraiment si libre et open-source que ça. Car FLUX se divise en fait en trois modèles :

Le modèle PRO, le plus puissant, et celui avec lequel beaucoup d'images de démonstration sont faites... mais qui n'est pas open du tout. Considéré comme l'un des meilleurs si ce n'est le meilleur modèle de génération d'image existant, surpassant même Midjourney 6.1 dans les benchmarks, il n'est disponible que dans le cloud, via l'API de BFL et de certains distributeurs partenaires.
Le modèle DEV, compromis entre puissance et légèreté, librement téléchargeable et utilisable mais avec une restriction dans la licence : il n'est pas permis d'en faire un usage commercial. Amusez-vous avec autant que vous voulez, servez-vous en pour vos projets personnels ou associatifs, mais interdiction d'en faire la jaquette de votre prochain album, les décors de votre prochain jeu vidéo, ou des images à vendre sur une plateforme de stock photos.
Le modèle SCHNELL, le plus léger et le moins performant, même s'il reste très probablement le meilleur modèle grand public du moment. Réellement librement utilisable, open-source et open-weights, il a de surcroît l'avantage de demander un peu moins de ressources GPU et d'être assez rapide, comme son nom l'indique.

Ces modèles sont ensuite déclinés en plusieurs versions, plus ou moins quantisées. Comme d'habitude, plus elles sont quantisées, moins elles sont précises, mais moins elles nécessitent de ressources.

Image d'une femme portant un panneau indiquant "Flux does text and hands", générée avec FLUX PRO

Pour donner un ordre de grandeur, la version DEV non-quantisée occupe quasiment 24Go de mémoire. Et pas question de mettre le modèle en RAM centrale, sous peine de subir des lenteurs extrême... il faudra donc au moins une 3090. Différentes versions quantisées adaptées à des GPU à 16, 12, 8 voire 6Go de VRAM sont donc proposées, au prix d'une baisse presque exponentielle de la qualité à mesure que vous quantisez.

Soyons donc clair : oui, FLUX est impressionnant. Mais attention : n'espérez pas obtenir les résultats montrés en démo, et issus d'une version PRO non-quantisée, en utilisant une version SCHNELL quantisée sur 4 bits. FLUX est un modèle d'IA, pas de la magie.

De notre côté, nous avons testé le modèle DEV quantisé sur 8 bits... mise à part une consommation de RAM extraordinairement élevé le temps de charger le modèle, nous n'avons pas rencontré de problèmes majeurs et avons été épaté par la qualité des rendus et l'adhérence aux prompts. C'est l'IA que nous avons utilisé pour illustrer nos premières vidéos YouTube. Le résultat est plutôt sympa. Il écrase toutes les versions de Stable-Diffusion et fait au moins jeu égal (voire dépasse) DALL-E 3.

Pour découvrir FLUX, rendez-vous sur le site officiel de Black Forest Labs. Nous vous proposerons très bientôt un tuto pour l'installer et l'utiliser facilement en local.

Écrit le :

jeu 24/10/2024 - 07:13

Par :

everydai

Étiquettes

local

cloud

gratuit

foss

image