IA : des optimisations pour Stable Diffusion grâce à macOS Sonoma

Félix Cattafesta |

Si Apple n'a pas parlé d'intelligence artificielle pendant le Keynote inaugural de la WWDC, l'entreprise a tout de même présenté quelques optimisations qui vont ravir les utilisateurs de modèles d'IA en local. Ces changements permettent d'exécuter des modèles comme Stable Diffusion plus rapidement tout en utilisant moins de mémoire. Dans un billet de blog, l'ingénieur du site spécialisé Hugging Face a décortiqué en détail les différentes améliorations.

La Pomme a notamment optimisé son framework Core ML, le moteur qui permet de faire tourner des modèles d'IA. La boîte à outils coremltools (qui permet de convertir des modèles au format Core ML) est également concernée et gagne un nouveau module comportant différents outils de compression et d'optimisations.

Apple a apporté quelques modifications à ml-stable-diffusion, son framework open source présenté en décembre dernier et pensé pour le générateur d'images éponyme. Celui-ci permet de convertir des modèles Stable Diffusion pour Core ML : il propose désormais des résultats plus économiques et offrant de meilleures performances. Apple promet des optimisations du moteur neuronal pouvant aller jusqu'à 30 % par rapport à ce qui se faisait auparavant.

Stable Diffusion sur un iPhone 13 en décembre et aujourd'hui grâce aux optimisations d'Apple.

L'autre nouveauté est que le framework permet désormais d'effectuer une quantification 6-bits, qui offre un bon compromis entre qualité et petite taille. Les modèles de base de Stable Diffusion ont déjà été compilés pour l'occasion, mais les amateurs pourront eux aussi tirer parti de cette nouveauté pour leurs propres modèles.

S'il faut encore un peu bidouiller pour le moment, l'application Diffusers de Hugging Face devrait bientôt être mise à jour pour proposer nativement ces changements. Notons que ces nouveautés ne sont disponibles qu'en passant sous Sonoma. Elles vont également impacter les performances des déclinaisons iOS et iPadOS 17 des apps de modèles d'IA, comme Draw Things ou AI Photo.

avatar raoolito | 

oui mais draw things utilise t il deja les optimisations faites pour ventura?
et quid de stable diffusion en mode web?

avatar Seb42 | 

Toute cette énergie, dans tous les sens du terme, pour voir pulluler des photos de chien avec des chapeaux et des fakes 😣.. c’est quand que le monde se réveille ?

avatar trouaz | 

Le monde moderne s'abreuve de bullshit, le bullshit c'est l'avenir !

avatar Seb42 | 

@trouaz

On veut créer des décérébrés, on les éduque pour ça avec les réseaux (a)sociaux et du coup il y a un terreau absolument génial pour développer des conneries pareils. Tu as entièrement raison.

avatar misc | 

@trouaz: Quelle argumentaire de haute volée.

avatar Dark Phantom | 

@Seb42

Non non tu sais les images générées par IA ça sert aussi aux architectes, à tout un tas de métiers allant du graphiste à l’illustrateur.
Pour l’ia tu as aussi le nettoyage sonore, bcp d’outils pour le texte etc
Il ne faut pas regarder les choses par le détail amusant seulement

avatar Seb42 | 

@Dark Phantom

Pour moi si un architecte a besoin de l’IA pour pondre un projet alors c’est pas son métier, et encore une fois tout le monde ne peut pas être architecte.

Et tu as entièrement raison sur le fait qu’il n’y aura pas que des photos de chiens, mais mettre cette IA dans les mains de la population et bien j’aimerai bien connaître le ratio de génération d’image des IA pour un intérêt certain… je pense qu’il faudrait mettre 1 ou 2 chiffres après la virgule de ce ratio 😁.

avatar joneskind | 

@Seb42

Faut vous détendre un peu. Une photo de chien avec un chapeau ? C’est inoffensif et ça fait marrer les mômes comme les vieux.

Pour ce qui est des architectes, ces outils permettent de produire des perspectives d’intention à moindre coût. Pas de réaliser le projet leur place.

avatar Seb42 | 

@joneskind

C’est pas la photo du chien le problème c’est le nombre de photos qui seront générés et partagés en quantité de données pour rien.

Et concernant les architectes Les plus grands édifices qui ont été fait jusqu’à présent, n’ont pas eu besoin de photos générées par IA pour être réalisés.

avatar Thaasophobia | 

@Seb42

"Pour moi si un architecte a besoin de l’IA pour pondre un projet alors c’est pas son métier, [...]"

Mon grand père me disait la même au sujet des architectes qui commençaient à utiliser les calculatrices digitales dans les années 70...

Etes vous familiers du concept de la sérendipité ?
Bien malin celui qui prétend qu'une innovation est inutile de façon péremptoire.

avatar Seb42 | 

@Thaasophobia

Sans relater cet éternel argument du grand père que l’on a tous entendu.
Un constat sans appel à part pour ceux qui ont des œillères, les connaissances et les compétences intellectuelles d’analyse depuis la génération de ton grand père est en chute libre.
Et à cela tu rajoutes un outil qui ne te permettra même plus de savoir ce qui est vrai du faux.
De faire revivre les Beatles en sortant un nouvel album, une société qui veux faire revivre tes aïeuls défunts en leur permettant de communiquer avec toi, et bien si ça te fait rêver, très bien chacun a ses rêves d’avenir mais tu accepteras que je n’ai pas le même.

avatar Thaasophobia | 

@Seb42

” …, les connaissances et les compétences intellectuelles d’analyse depuis la génération de ton grand père est en chute libre…

Aaahh c’était mieux avant…
Vous me rappelez tellement mon grand père.

Mais, si nous de mettons de cote votre hors-sujet sur ce qui me fait rêver et que nous nous recentrons sur le fond de votre remarque : la conceptions négative de tout progrès dont vous ne maîtrisez pas le sujet: votre attitude réfractaire par default est très importante dans le cycle de l’innovation.

Votre négativité - à priori - permet de donner un cadre au débat critique et impose une réflexion. Cela mènera inévitablement aux notions de morale et d’éthique qui sont des arguments plus universels dans l’adoption ou non d’une nouveauté.

Par exemple, votre remarque au sujet des Beatles est un paradox car vous semblez ne pas savoir qu’un nombre impressionnant d’AI ont été et sont utilisées pour vous permettre d’écrire vos messages sur ce blog.

avatar vicento | 

@Seb42
On ne peut malheureusement pas juger de la qualité ou de la pertinence d’un outil uniquement en regardant ce que les gens en font.

T’imagines si on devait appliquer cela à toutes les gammes d’outils dans tous les domaines.

On a mis des outils 🧰 très puissants dans les mains du grand public et pour monsieur tout le monde c’est un passe temps qui n’a pas d’autres ambitions que de s’amuser à faire des images.

Pour ma part je crois que les créatifs (et les pros) de toute sorte qui choisissent de passer à côté de ces ia génératives de contenu font fausse route et ratent quelques chose.

Concernant les architectes leur métier est bizarrement positionné entre l’art et l’ingénierie ce qui donne parfois des résultats mitigés. J’en connais qui refusent encore de passer à la 3D et avant sûrement de passer au dessin ✍️ assisté par ordinateur…

avatar Seb42 | 

@vicento

Je partage avec vous la puissance des IA, c’est indéniable. Il n’y a pas d’être humain sur terre qui sera plus puissant que celles ci néanmoins c’est pas tant la le problème dans ce qu’elle peuvent faire mais dans ce qu’elles impactent.
Bien sûr que ça va aider/amuser bon nombre de personne et nous « technophiles » les premiers.
Mais les conséquences de leurs utilisations me dérangent plus que leur apport.


J’ai édité le message était trop long 😁

avatar marc_os | 

@ Seb42

> Toute cette énergie, dans tous les sens du terme, pour voir pulluler des photos de chien avec des chapeaux et des fakes

Ce n'est pas parce que les journalistes ce concentrent sur ce genre de connerie chose que Core ML ne sert qu'à ça.
Exemple où l'IA peut être vraiment utile : Permettre d'isoler une voix du fond sonore comme ça vient d'être fait pour cette chanson non encore publiée où la voix de John Lennon a été extraite d'une démo avec une qualité supérieure à ce qu'on pouvait faire sans "IA".

avatar Seb42 | 

@marc_os

Mais je suis tout à fait d’accord sur ce que peut apporter CoreML et autres solutions comme la recherche médicale ou la science comme le contrôle de la fusion et plein d’autre mais pas pour le quotidien de nous tous ou elle ne sert qu’au divertissement, au fake, alimenter les réseaux ou à la fainéantise rédiger ses devoirs.
Quand on voit le nombre de sujets liés à l’IA et ce sur quoi elle est utilisée…
Mais on n’y échappe et échappera pas, ça ne veut pas dire qu’on doit être d’accord

avatar BeePotato | 

@ Seb42 : « mais pas pour le quotidien de nous tous ou elle ne sert qu’au divertissement, au fake, alimenter les réseaux ou à la fainéantise rédiger ses devoirs. »

Pas seulement.
Elle sert aussi pour le boulot. Par exemple en faisant du détourage automatique de sujets dans des images, ce qui permet de créer plus facilement certains documents, ou d’avoir des fonctions telle que le nouveau mode de partage d’écran dans Sonoma.
Elle sert, comme signalé par marc_os, à isoler les voix d’un fond sonore, pour fournir une assistance à des personnes souffrant de certains handicaps auditifs.
Elle sert à faire de la prédiction lors de la saisie au clavier, elle sert à faire de la dictée, etc.

Et dans le cas de la génération d’image, elle peut permettre, comme signalé par Dark Phantom et joneskind, à générer plus rapidement des illustrations (ou brouillons d’illustrations) d’un projet — pour un architecte ou un autre métier ayant ce besoin.

Le plus visible est peut-être le délire de génération d’images inutiles dont tu parles, mais ce n’est peut-être pas pour autant l’usage majoritaire de ces technologies — surtout à plus long terme.

avatar ratz | 

Bon ben j'imagine que je vais devoir me mettre a stable diffusion, vu que je n'ai pas créé de compte dall-E avant le 6 avril ....

A moins qu'il y ait une âme charitable avec un compte non utilisé ? Jai besoin de génération d'image sporadiquement, mais pas au point d'acheter des crédits

Je suis trop con, j'aurais dû ne créer un compte avant avril

avatar naleiht | 

@ratz

Tu peux faire cela directement depuis ton mac avec automatic1111 (check GitHub) ou alors via mochi diffusion

Suivant ton mac, ce sera plus ou moins rapide.

avatar ratz | 

mais je suis un noob , je ne saurai quels modeles telecharger

avatar huexley | 

Suffit d’aller sur civitai il y en a des centaines.

avatar Félix Cattafesta | 
Draw Things / AI Photos sont pas mal si c'est pour dépanner. Si tu as Discord tu peux tester MidJourney, à l'époque il y avait une période d'essai avec un certain nombre de crédits gratuits.
avatar ratz | 

j'ai discord mais la il n'y a pas de test. je suis trop con jaurais du minscrire a dall E, tant pis pour moi

je vais essayer les 2 autres options merci bcp

avatar Gravoche67 | 

Cela a-t-il aussi un intérêt si l’on passe par Safari pour générer des img IA?

avatar ratz | 

en utilisant quoi , par exemple ?

avatar huexley | 

Perso avec un M1 Max je trouve les performances sous automatic1111 pas si catastrophique que cela, par contre dès qu’on touche à l’upscale quelque soit le sampler c’est un désastre.

avatar M1Alex | 

J'ai participé hier à un travail de recherche, qui consiste à évaluer le degrés de souffrance dans un cri de bébé ou un cris de femme qui accouche, à partir d'une représentation graphique du son (spectrogramme Audacity je crois). Tout cela à l'intention des sourds. On se doute bien que l'IA viendra mettre le bout de son code dans ce type de recherche qui permettront à des sourds d'être plus autonome.

CONNEXION UTILISATEUR