Ollama accélère doucement sa transformation. Ce qui n’était au départ qu’un outil pour lancer des modèles en local depuis le Terminal devient une véritable plateforme plus grand public et plus poussée. Après avoir gagné la possibilité de générer des images, ses développeurs viennent de lui ajouter la prise en charge du framework MLX d’Apple. De quoi grandement améliorer les performances pour ceux ayant des assistants comme OpenClaw ou s’en servant avec Claude Code ou Codex.
Ollama passait jusqu’à présent par l'implémentation Metal de llama.cpp, et ce changement de framework lui permet d’optimiser encore plus ses performances sur les appareils Apple Silicon. Tout passer par une meilleure exploitation conjointe du CPU, du GPU et du Neural Engine. Sur les puces M5, M5 Pro et M5 Max, Ollama exploite aussi les nouveaux accélérateurs neuronaux intégrés au GPU, ce qui améliore à la fois le temps de réponse initial et la vitesse de génération.
MLX : un framework de machine learning adapté aux puces Apple
De plus, l’utilitaire adopte désormais le format NVFP4 de NVIDIA, conçu pour maintenir un bon niveau de précision tout en réduisant les besoins en mémoire et en bande passante lors de l’exécution des modèles, notamment pour les tâches courantes comme la génération de texte ou l’analyse de données. Cette optimisation concerne surtout les environnements équipés de GPU NVIDIA récents et ouvre la voie à l’exécution de modèles optimisés pour cette technologie.
Sur un autre registre, Ollama fait évoluer son système de cache pour gagner en efficacité sur les usages liés au code et aux agents. La mémoire est mieux optimisée grâce à la réutilisation du cache entre conversations, tandis que des points de sauvegarde intelligents accélèrent le traitement des requêtes. Enfin, la gestion du cache devient plus fine, en conservant plus longtemps les éléments communs entre différentes interactions.

Cette nouvelle version d’Ollama permet notamment pour l'instant de faire tourner certains modèles exigeants comme Qwen3.5-35B-A3B : elle demande donc un Mac avec au moins 32 Go de RAM. D’autres modèles seront pris en charge par la suite, en plus d’une solution pour importer les modèles custom dans Ollama. Ollama 0.19 peut être téléchargé sur le site des développeurs.











