Gemini : la vidéo de présentation du nouveau super-modèle de Google a été grandement retouchée en postproduction

Félix Cattafesta |

La vidéo de présentation de Gemini, le nouveau grand modèle de langage de Google dévoilé il y a quelques jours, est impressionnante. On peut y voir le modèle raisonner à partir d'images, de sons, de vidéos, de codes et de textes, le tout sans temps mort dans ce qui semble être une expérience impressionnante. Seul problème : la vidéo en question a été largement retouchée pour réduire les temps de réflexion de l’IA, ce qui donne l’impression d’une utilisation ultra fluide.

Ce n’est pas vraiment un secret : Google explique dans la description de sa vidéo que « la latence a été réduite et les réponses de Gemini ont été raccourcies pour des raisons de concision ». Mais ce n'est pas le seul trucage. Bloomberg a demandé des détails à ce sujet dans le but de savoir à quel point la vidéo avait été retouchée. Google a admis que la vidéo n’avait pas été filmée en temps réel, mais qu’elle avait rédigé des invites textuelles envoyées à Gemini accompagné d’images fixes. Une réalité bien différente de ce qu’essaye de montrer Google, présentant une personne discutant en temps réel avec Gemini pendant que le modèle analyse et répond en direct à ce qu’il voit.

Si Bloomberg estime qu’il y a tromperie, Google ne voit pas les choses de la même manière. « Toutes les commandes et les résultats de la vidéo sont réels, mais raccourcis par souci de concision », explique le vice-président de la recherche et chef du deep learning chez Google DeepMind. « La vidéo illustre ce à quoi pourraient ressembler les expériences utilisateur multimodales construites avec Gemini. Nous l'avons réalisée pour inspirer les développeurs », avance-t-il.

Un petit coup de pouce au montage n’est pas très surprenant sur ce genre de vidéo, mais le fait qu’une grande partie ait visiblement été retouchée en postproduction a de quoi décevoir. Le modèle Gemini de Google n’est pas le premier à pouvoir interagir avec des images envoyées à côté d’une commande : GPT-4 peut le faire depuis bientôt 10 mois. Le fait de présenter son produit à l’aide d’une vidéo retouchée évite d’éventuels couacs, mais rassure moins le public et les investisseurs. On se souviendra du flop d’Ernie Bot, le ChatGPT chinois de Baidu dont la présentation a reposé sur des vidéos préenregistrées. Résultat des courses : l’action du groupe a chuté de 10 % pendant la présentation et a terminé en baisse de 6,4 %.

Google cherche à rattraper son retard sur OpenAI, qui l’a pris par surprise l’année dernière en lançant ChatGPT. Si elle promet que Gemini sera loin devant GPT-4, la réalité est moins reluisante. Les benchmarks montrent que la différence entre les deux modèles est loin d’être marquée alors que GPT-4 n’est plus de première jeunesse. De plus, la version la plus puissante de Gemini ne sera pas disponible avant l’année prochaine, ce qui montre que Google a encore un peu de pain sur la planche. Mountain View est un habitué des couacs avec ses vidéos sur l’IA : on se souviendra par exemple de la vidéo de présentation de Bard… dans laquelle le bot effectuait une erreur factuelle.

Tags
avatar monsieurg33K | 

Je ne trouve pas ça surprenant que les séquences soient raccourcies, c’est commun pour des publicités ou ce genre de présentations.

avatar jopaone | 

@monsieurg33K

A part que là c’est plutôt censé être une démonstration de performance

avatar Urubu | 

@monsieurg33K

Un petit bandeau explicatif en bas de la vidéo est une pratique courante et aurait été plus honnête

avatar BeePotato | 

@ Urubu : « Un petit bandeau explicatif en bas de la vidéo est une pratique courante et aurait été plus honnête »

Le bandeau expliquant que les séquences ont été raccourcies est bien présent au début de la vidéo.
Ce qui manque, c’est une explication claire de la façon dont les demandes ont été envoyées au modèle.

avatar Artefact3000 | 

@Urubu

En effet.

Cela dit, en regardant la vidéo, je me disais que je ne serais du tout étonné qu’il y ait eu « trucage. » C’était trop bien pour être vrai.

avatar lll | 

Le problème est que la mention de l'accélération soit très passagère. Il aurait fallu que ce soit présent tout le long de la séquence.

avatar Adodane | 

@monsieurg33K

C'est une entreprise côté en bourse, dont le cours dépend des produits et de la confiance dans le futur de la boîte.

avatar DG33 | 

@Adodane

Je paraphraserais ainsi : la confiance s’acquiert lentement en prenant l’escalier, et se perd brutalement en prenant l’ascenseur.

avatar Eric L | 

Séquences raccourcies, OK.
En revanche ce que l'on voit n'est pas ce qui s'est passé du tout, c'est monté de toute pièce… C'est un bidonnage en bonne et due forme.

Toutefois, si Apple se donne du mal, ça pourrait ressembler à ce qu'Apple pourrait faire avec son Vision Pro qui, bardé de caméra et de micros, pourrait interagir de cette façon avec une IA.

avatar DG33 | 

@Eric L

On peut reparler de la séquence culture du Knowledge Navigator 🤔

avatar Glop0606 | 

Ah... et moi qui justement avait trouvé bluffant le fait que se soit aussi limpide et rapide. Ca m'apprendra. Dommage l'action avait fait un bon hier après la présentation. Je pense que ça va bien perdre aujourd'hui suite à cette annonce.

avatar lll | 

Finalement, est-ce bien différent d'Apple qui déclare "filmer avec un iPhone" des séquences prises à renfort de matériel coûtant des dizaines de milliers de dollars ? Le but est le même : s'arranger avec la réalité pour vendre du rêve et convaincre des investisseurs de claquer des millions.

avatar pocketalex | 

@lll

"st-ce bien différent d'Apple qui déclare "filmer avec un iPhone" des séquences prises à renfort de matériel coûtant des dizaines de milliers de dollars ? "

Ben oui c'est différent... c'est un iPhone qui a fait la prise de vue ! Et le matériel audiovisuel qui l'entoure est un indispensable pour atteindre un niveau de qualité parfaitement impossible à obtenir avec juste un smartphone dans la main, et jamais Apple n'a promis qu'avec son Iphone et rien que son iPhone on aurait dans n'importe quelle condition une image digne d'une grosse production de la paramount

Le "cinéma" n'est rien d'autre que l'animation via la photographie, et la photographie, comme sont nom l'indique, c'est l'impression de la lumière. Une belle image, c'est donc une belle lumière, et aucun appareil ne fera une image correcte sans un matériel lumière un minimum correct + bien évidement tout ce qu'il faut pour une capture son correct + bien évidemment le matériel grue pour les mouvements de caméra que l'on voit dans la Keynote et qui sont, eux aussi, impossible à reproduire avec juste un smartphone à la main

Le souci, ce n'est pas Apple qui promet une image de qualité cinéma avec son iPhone. La marque ne ment absolument pas sur ce point et le prouve régulièrement avec des productions de très haute qualité.

Non, le souci, c'est les incultes qui ne savent pas ce qu'est un plateau de tournage, des conditions de tournage, le matos pour avoir une image un minimum travaillée, et qui viennent, comme toi, nous "démontrer" qu'on nous ment.

Je ne dit pas qu'Apple est 100% clean dans toutes ses communications, mais il est vrai qu'avec un matos et des connaissances un minimum sérieuses, un iPhone Pro récent te fera une image fantastique.

avatar raoolito | 

et surtout "filmé à l'iphone" c un petit bout de texte à la fin, c pas l'essentiel du keynote

avatar lll | 

@pocketalex : Loin de moi l'idée de défendre Google, pour qui j'ai une méfiance systématique, et qui aurait clairement dû préciser que c'était bidonné.

Peut-on dire qu'Apple n'utilise pas ce procédé dans ses pubs (dans mes souvenirs, Siri et l'appareil photo) voire peut-être (je n'ai pas de souvenir précis) dans ses démonstrations techniques ? Faire d'Apple un modèle de transparence à l'opposé de Google qui serait tout méchant me semble aussi complaisant que de gober leur communication green-washing ou sur la sécurité sans discuter, ou sans possibilité de critique. On a affaire dans les deux cas à des sociétés quasiment aussi puissantes que des états et je pense que les deux méritent qu'on les questionne à chaque annonce, même si je suis un utilisateur inconditionnel de produits Apple.

Tout cela étant dit, est-ce que c'est moi que tu traites d'inculte ? Je suis très familier des plateaux de télé et de tournage donc cette partie était parfaitement déplacée. Je connais plusieurs photographes professionnels qui préfèrent dégainer leur iPhone dans certaines conditions de lumière, et moi-même, je le fais quand je n'ai pas la bonne optique ou que passer 5 secondes à ajuster des paramètres manuellement est trop long pour un artiste pressé qui veut rentrer dans sa loge.

Finalement, si j'ai 50 000 euros de budget, que je filme à l'iPhone ou avec n'importe quel appareil (photo ou téléphonique) de prix équivalent ne changera pas grand-chose.

avatar DG33 | 

@lll

Le lendemain Apple publie le making off, avec force détails.
Où est le making off de Google ?

avatar marc_os | 

Seul problème : la vidéo en question a été largement retouchée pour réduire les temps de réflexion de l’IA
...
Google a admis que la vidéo n’avait pas été filmée en temps réel

Moi je ne dirais pas "retouchée", mais falsifiée, truquée.
Je dirais même plus, il s'agit de publicité mensongère.

avatar cosmoboy34 | 

Mais ils sont debiles ou bien ? Ils se sont déjà planté sur la présentation de bard. On aurait pu penser que cette fois ils fassent les choses bien mais non on prend les mêmes debiles et on recommence…🤦🏻‍♂️

avatar Adodane | 

@cosmoboy34

Ils avaient fait le coup avec Google duplex qui appellait directement le restaurant pour réserver une table, c'était aussi bien bidonné 🙄

avatar Bruno de Malaisie | 

@cosmoboy34

Google, le nouveau Microsoft???

avatar killabling | 

Merci google,mes actions ont pris pas mal hier et vont prendre sans doute aujourd8😊.
Il serait peut être temps qu’apple se bouge un peu, mis a part les ipads et "le VisionPro", y’a rien de bon en vue,limite boring...et mes actions apple commencent a se faire c**er...

avatar DrStax | 

Une présentation commerciale retouchée 😮😮

avatar Paquito06 | 

Comme toutes les videos de demo, que ce soit dans le jeu, l’IA, etc. tout comme les keynotes apple avec Siri, les retouches photos/videos, … Ca permet des transitions smooth, sans accroc, parfaites pour l’audience, mais c’est vu, revu, peté et repeté pour eviter les fail sur scene en direct, c’est normal. Ca n’enleve rien aux possibilites du produit presenté, on parle seulement du papier cadeau.

avatar Dimemas | 

Ah merci paquito !
Effectivement toutes les présentations Apple sont retouchées pour être vendeuses

avatar pat3 | 

"Les benchmarks montrent que la différence entre les deux modèles est loin d’être marquée alors que GPT-4 n’est plus de première jeunesse."

Ce n’est pas le sujet principal, mais est-ce que vous pouvez arrêter avec GPT-4 n’est plus de première jeunesse ? Sérieusement, je vous en conjure, ne participez à entretenir ce sentiment d’urgence dans la course de vitesse que se livre les compagnies autour de l’IA ?

avatar passingphantom | 

@pat3

D'une certaine façon c'est vrai, GPT 4, dans le cycle de vie et de développement de ce programme n'est plus si récent que ça. À preuve, d'ici le lancement de Gemini par chez nous, on peut penser que ChatGPT en sera à sa version 5 . Tout du moins, elle sera lancée l'année prochaine, et du coup, Google, du point de vue performance, (si on se place sur ce simple critère), se retrouvera distancée. On peut très bien ne pas être d'accord avec cette pseudo nécessité de la course à la puissance,mais c'est ce paradigme que ces industries suivent, quoiqu'on en pense. Ne pas en parler n'y changera rien au final et n'inversera pas cette tendance.

avatar pat3 | 

@passingphantom

Disons que « n’est plus de première jeunesse » relève pour moi d’un discours d’adhésion au dogme de la course de vitesse, quand c’est le dernier état du LLM le plus avancé. Qu’on dise : GPT-4 sera sans doute dépassé au moment de la sortie de GEMINI, m’a paraît plus nuancé et plus juste, ou au moins qu’on reste factuel : GPT-4 est sorti il y a X mois. Les notions de jeunesse et de vieillesse n’ont pas de sens pour des objets qui ont moins de deux ans. Ou alors on est dans le registre de la mode…

avatar Dimemas | 

Et sinon elon musk qui a trafiqué le système de conduite autonome c’est normal ?
Apple qui ne dit pas tout dans ses présentations ?

Toujours cette fixette sur Google pour les critiquer … pfff

avatar lll | 

C'est sûrement qu'ils représentent un concurrent sérieux, même si personnellement, je me méfierais plutôt de Microsoft depuis qu'ils ont changé de tête.

CONNEXION UTILISATEUR