Stable Diffusion 3 Medium - La révolution de l'image par Stability AI
Stability AI franchit aujourd’hui une nouvelle étape en lançant Stable Diffusion 3 Medium, décrit par la startup britannique comme son modèle de texte à image le plus avancé à ce jour.
Stable Diffusion 3 Medium (ou SD3 Medium) se distingue par ses 2 milliards de paramètres, promettant des résultats photo-réalistes sans nécessiter de workflows complexes. Ce qui est remarquable, c'est qu’il peut fonctionner sur des systèmes individuels grand public, rendant cette technologie de pointe accessible à un plus grand nombre de personnes. Il surmonte les erreurs courantes sur les mains et les visages, un problème souvent rencontré avec les modèles précédents. Stability AI a conçu SD3 Medium pour comprendre des prompts complexes impliquant des relations spatiales, des éléments de composition, des actions et des styles. En outre, la typographie a été grandement améliorée, avec une précision de génération de texte décrite comme sans précédent. Ces avancées sont attribuées à l'architecture Diffusion Transformer utilisée par Stability.
Un modèle plus petit mais plus puissant
SD3 Medium est plus petit que de nombreux autres modèles de Stable Diffusion 3, qui varient de 800 millions à 8 milliards de paramètres. Grâce à une faible empreinte VRAM, il est idéal pour fonctionner sur des GPU grand public sans perte de performance. Il peut également absorber des détails nuancés à partir de petits ensembles de données, améliorant ainsi la personnalisation. Christian Laforte, coprésident de l’entreprise, a indiqué que Stability prévoit de l’améliorer continuellement:
"Stability AI continuera de repousser les frontières de l'IA générative et visera à conserver sa position de leader à l'avant-garde de la génération d'images."
Essayer SD3 Medium et licences disponibles
Vous pouvez désormais tester SD3 Medium via l'API de Stability. Les poids du modèle sont disponibles sous une licence ouverte non commerciale et une licence Creator à faible coût. Pour ceux intéressés par une utilisation commerciale à grande échelle, il est possible de contacter la start-up pour obtenir des détails sur la licence.
Stability AI face à des défis
Le lancement de SD3 Medium intervient à un moment compliqué pour la société. Fondée en 2020, elle a rapidement été reconnue comme leader émergent de l'IA générative. Aux côtés de ses rivaux Midjourney et Dall-E d'OpenAI, Stable Diffusion s'est hissé au sommet du sous-secteur naissant du texte à image. En 2022, les investisseurs l’ont évalué à 1 milliard de dollars. Depuis lors, elle a été confrontée à une série de procès et de préoccupations financières. Des artistes l’ont poursuivi pour avoir entraîné ses modèles d'IA sur leurs œuvres sans consentement. De plus, The Information a rapporté le mois dernier que Stability envisageait une vente en raison de difficultés financières. Avec l'accumulation de ces problèmes, son PDG et fondateur, Emad Mostaque, a démissionné en mars, déclarant qu'il partait pour poursuivre l'IA décentralisée.
Un avenir prometteur
Malgré ces difficultés, les performances de SD3 Medium sont impressionnantes. Les images générées suggèrent des améliorations majeures. De nouvelles mises à jour sont déjà en cours, couvrant non seulement les images mais aussi des efforts multimodaux à travers la vidéo, l'audio et le langage. L’entreprise continue de montrer son engagement à rester à l'avant-garde de l'innovation dans le secteur, promettant de nouvelles avancées passionnantes à l'horizon.
Très bon article. Moi j’utilise Dall-E 3 car je suis abonné à ChatGTP-4o.