Avec GPT-4o, OpenAI ouvre grand les yeux et les oreilles de ChatGPT

Florian Innocente

lundi 13 mai 2024 à 21:55 • 69

OpenAI a dévoilé "GPT-4o", une évolution de son modèle d'IA générative dont les capacités de traitement ont été largement améliorées pour le texte, l'audio et la vision.

GPT-4o (le "o" signifiant "omni" pour l'étendue de ses capacités) reste à un niveau d'intelligence comparable à celui de ChatGTP-4, a expliqué Mira Murati, la responsable technique d'OpenAI en préambule à une démonstration des nouveautés de printemps. Mais OpenAI a amélioré les capacités d'analyse audio de ChatGPT de manière à ce que l'utilisateur ait le sentiment d'un véritable dialogue avec l'assistant, avec des intonations de voix, la simulation d'émotions ou la possibilité de l'interrompre pour enchainer sur un autre sujet.

GPT-4o améliore ensuite sa capacité de compréhension d'une image et de son contenu. C'est utilisé par exemple dans la nouvelle et première version Mac de ChatGPT qui peut observer l'écran ou une capture qu'on lui soumet et qu'il va commenter, comme le ferait un super Siri.

Dans une autre démo, deux iPhone font chacun tourner GPT-4o. L'un utilise la caméra frontale pour voir ce qui se passe devant son objectif. L'autre assistant lui demande alors de décrire la pièce, la décoration, la personne devant et ce qu'elle est en train de faire (plusieurs autres vidéos de démo sont disponibles ici). Dans une autre démo, c'est un non-voyant qui exploite cette faculté d'analyse d'événements en direct en extérieur dans la rue.

This demo is insane.

A student shares their iPad screen with the new ChatGPT + GPT-4o, and the AI speaks with them and helps them learn in *realtime*.

Imagine giving this to every student in the world.

The future is so, so bright. pic.twitter.com/t14M4fDjwV
— Mckay Wrigley (@mckaywrigley) May 13, 2024

À l'avenir cela pourrait aller beaucoup plus loin et toujours en temps réel. Par exemple, ChatGPT pourrait observer la vidéo d'un match et expliquer ce qui se passe ainsi que les règles de la discipline, a suggéré Mira Murati. Pour la traduction en direct, le moteur s'est amélioré sur 50 langues environ et l'opération est deux fois plus rapide. Une personne parlant dans une langue s'adresse à ChatGPT qui traduit l'échange dans une autre langue pour un autre interlocuteur.

Ce volet voix n'est pas encore intégré à l'API de GPT-4o maintenant disponible pour tous. OpenAI veut continuer de l'améliorer auprès d'un cercle restreint d'utilisateurs afin de poser quelques barrières. D'ici un mois les utilisateurs de la formule Plus devraient en disposer en version alpha.

GPT-4o est proposé dès aujourd'hui aux utilisateurs de la formule gratuite de ChatGPT ainsi qu'aux souscripteurs des formules payantes Plus et Teams avec un quota de messages multiplié par 5. Cette limite dépassée, ChatGPT basculera sur un modèle plus ancien, GPT-3.5.

MacGeneration

iGeneration

WatchGeneration

Services

Rejoignez le Club iGen

Avec GPT-4o, OpenAI ouvre grand les yeux et les oreilles de ChatGPT

Rejoignez le Club iGen

Actualités

Quatre ans après macOS, Adobe Premiere Pro et After Effects arrivent en bêta pour les PC Windows ARM

Promo : l’iPhone 15 Plus à 789 €, une bonne affaire (-19 %)

OpenAI lance un nouveau mode plus pédagogique pour ChatGPT à destination des étudiants

Linus Torvalds a visiblement abandonné son MacBook Air M2

Zuckerberg : « le développement d’une superintelligence est à portée de main »

3 milliards d’iPhone écoulés depuis 2007 : le produit high-tech le plus vendu de l’histoire ?

Promo : la station d'accueil Ugreen pour le Mac mini M4 à 70 € (-30 €)

Résultats T3 25 : et la guerre commerciale profita à Apple !

Ollama propose une nouvelle app pour le Mac qui permet de se passer entièrement du terminal

Un chercheur se plaint qu'Apple paye mal pour la découverte d'une faille… qui n'aurait pas dû être payée

Le dock Thunderbolt 5 d'Ugreen à 270 € en promotion

iPhone 17 : une hausse de prix est plus que probable pour les analystes

Les Mac Apple Silicon sous Linux pourront bientôt redémarrer

« J’ai failli cliquer » : la nouvelle génération d’arnaques fait tomber les défenses 📍

Un boîtier pour SSD M.2 en promotion, avec Thunderbolt 4 et USB-C 🆕

Free offre la location d'un second boîtier TV pendant six mois

Image du moment

Tests

Test du fauteuil Flexispot C7 Air : il n’y a que la maille qui m’aille

Test du Synology DS925+ : ça passe ou ça NAS

Test de la ScreenBar Halo 2 : une lampe d'écran à laquelle il ne manque que le Wi-Fi

Test du SSD externe Crucial X10, qui peut atteindre 8 To

Test de la BeeStation Plus : le NAS pour ceux qui ne veulent pas de NAS

Test du clavier Keychron V10 Max : Alice au pays de Corneille ?