En informatique, tout n'est que « donnée ». Les nombres, bien sûr, et les textes, aussi. Ce que vous écrivez, ce que vous lisez, vos messages, les pages web… Même les images, les sons et les vidéos sont aussi des données, des suites de 0 et de 1 organisées et traduites à l'écran de manière à être correctement interprétées par nos yeux, nos oreilles, nos cerveaux. Rien d'étonnant donc à ce que l'IA se mêle aussi de ces domaines-là !
L'IA est partout, surtout quand vous ne la voyez pas
Le passage à la photographie puis à la vidéo numérique, au tournant des années 2000, avait préparé le terrain. L’essor récent de l’IA a provoqué un changement de paradigme, au point que l’on parle aujourd'hui de « photographie computationnelle », celle qui est intimement liée aux capacités de calcul et plus seulement à la capture de la lumière par un capteur.
Avant l’IA, la qualité d’une photo dépendait essentiellement de l’optique et du capteur : réussir un cliché en basse lumière ou avec une large plage dynamique relevait du défi technique, et le moindre post-traitement nécessitait du temps et de l’expertise humaine. Ces dernières années, de nouveaux algorithmes capables d’apprendre par eux-mêmes ont décuplé les capacités des appareils photo, en particulier ceux intégrés à nos smartphones. Là où vous pensez contempler une photo, votre iPhone a en réalité mis à profit des réseaux neuronaux pour effectuer des fusions d’images en temps réel : plusieurs prises ont été combinées pour obtenir une photo finale optimisée (mode Nuit, Smart HDR, Deep Fusion…), avec moins de bruit et plus de détails que le capteur n’aurait pu en restituer d’un seul coup.

L’IA analyse le contenu de la scène en temps réel et ajuste automatiquement les paramètres de prise de vue : elle reconnaît les visages, détecte la luminosité ambiante, suggère une composition plus équilibrée et peut déclencher d’elle-même des optimisations pendant la capture. Résultat, le photographe amateur qui ratait toutes ses photos il y a encore quelques années obtient d’excellentes images sans maîtriser les réglages complexes. Le professionnel le regarde toujours avec condescendance, l'amateur n'en a toujours rien à faire, mais au moins, ses photos sont beaucoup plus jolies !
En post-production, la retouche photo a vu naître des outils dopés au machine learning capables d’identifier et d’embellir intelligemment les images. Par exemple, supprimer un objet indésirable ou un défaut sur une photo est aujourd’hui l’affaire d’un clic grâce à des fonctionnalités de remplissage intelligent ou de gomme magique. Et là, les pros n'y trouvent rien à redire : leur logiciel de référence, le fameux Adobe Photoshop, intègre depuis quelques années des filtres neuronaux impressionnants : Super Zoom pour agrandir une image basse résolution tout en recréant des détails plausibles, réduction automatique des artéfacts de compression JPEG, restauration assistée de vieilles photos abîmées (reconstruction de zones manquantes, suppression des rayures), et ce fameux remplissage génératif qui permet d’ajouter ou remplacer des éléments dans une image à partir d’une simple description textuelle. Ce dernier, apparu en 2023, offre la possibilité de générer en quelques secondes du contenu original dans une photo, par exemple pour ajouter un élément absent ou prolonger le cadre d’une image en inventant le décor manquant autour de la scène.

Dans le domaine de la vidéo, l’IA est tout aussi révolutionnaire. D’abord, elle a amélioré les performances d’encodage et de compression, avec de nouveaux algorithmes de codage vidéo pilotés par des réseaux neuronaux qui repèrent les motifs redondants dans les flux vidéo et parviennent à réduire drastiquement le poids des fichiers sans perte visible de qualité. L'IA peut améliorer des vidéos de mille manières, supprimer le bruit dans une séquence, éliminer les défauts de compression ou augmenter la netteté image par image grâce à des filtres intelligents, et améliorer la stabilisation pour un résultat fluide. On peut aujourd'hui doubler un acteur en synchronisant parfaitement les mouvements de ses lèvres aux paroles prononcées dans chaque langue, ou remplacer son visage actuel par une version plus jeune de lui-même, générée par une IA ayant analysé des milliers d'images issues de films de l'époque !
