3.9/5

Les points essentiels

OpenAI vient de lancer deux nouveaux modèles : o3 et o4-mini.
Ceux-ci permettent désormais à l’IA d’analyser des images en profondeur et même de les manipuler (zoomer, etc.).
Ces nouveautés entraînent des enjeux éthiques majeurs pour la vie privée.

Quand l’IA commence à « voir pour saisir » : un changement de paradigme

Jusqu’à présent, l’intelligence artificielle reposait majoritairement sur le traitement du langage. Les grands modèles comme GPT-4 analysaient des milliards de mots pour prédire, répondre, créer. Mais aujourd’hui, une révolution discrète est en marche.

OpenAI a récemment levé le voile sur une avancée fascinante : son nouveau modèle d’IA ne se contente plus de lire, il « pense« avec des images. Autrement dit, l’image devient un vecteur central de compréhension, au même titre que le texte.

Dans une démonstration publiée par OpenAI, on découvre un modèle capable d’interpréter une image et d’en tirer des hypothèses complexes. Il ne se contente plus de décrire ce qu’il voit, mais tente de comprendre le contexte, les intentions et les conséquences. C’est comme si l’IA développait une capacité de perception visuelle… augmentée d’intuition logique.

The geoguessing power of o3 is a really good sample of its agentic abilities. Between its smart guessing and its ability to zoom into images, to do web searches, and read text, the results can be very freaky.
I stripped location info from the photo & prompted “geoguess this” pic.twitter.com/KaQiXHUvYL
— Ethan Mollick (@emollick) April 17, 2025

L’explosion des recherches inversées à partir de photos : un nouveau réflexe numérique

Ce basculement vers une IA plus visuelle se reflète également dans les usages. Un exemple marquant : la montée en puissance de la recherche inversée à partir d’images. Une tendance virale émerge sur les réseaux sociaux : les utilisateurs soumettent une photo à ChatGPT et demandent où elle a été prise.

Le modèle croise les éléments visuels – architecture, végétation, style des vêtements – avec des bases de données géographiques et culturelles pour tenter de localiser l’image.

Cette fonctionnalité, encore expérimentale, rencontre un immense succès. Elle fascine autant qu’elle inquiète. Car derrière le jeu ludique se cache un potentiel de surveillance et d’identification massif. Imaginez que l’IA puisse, à partir d’une photo floue prise dans une ruelle, identifier une ville, un quartier, voire une rue précise. On touche là à des enjeux éthiques majeurs sur la vie privée, la sécurité et la dérive potentielle de l’analyse visuelle automatisée.

o3 is insane
I asked a friend of mine to give me a random photo
They gave me a random photo they took in a library
o3 knows it in 20 seconds and it’s right pic.twitter.com/0K8dXiFKOY
— Yumi (@izyuuumi) April 17, 2025

Pourquoi cette évolution change tout (et ce que ça implique pour l’avenir)

Ce qui est en train de se jouer dépasse de loin les simples performances techniques. Avec cette nouvelle capacité à penser avec des images, l’IA entre dans une autre dimension. Elle s’affranchit peu à peu des barrières entre les formes de données – texte, son, image – pour bâtir une intelligence multimodale, capable de connecter les points comme un humain le ferait.

D’autres géants de la tech suivent cette voie. Google, avec Gemini, travaille aussi à intégrer des capacités visuelles renforcées. Meta explore l’IA vidéo, et Apple, discrètement, perfectionne ses outils de reconnaissance contextuelle. Tous visent une IA capable non seulement de répondre, mais de voir, sentir et peut-être bientôt… ressentir.

La prochaine étape ? L’intégration de la vidéo en temps réel dans les modèles d’IA. Cela permettrait à l’intelligence artificielle d’analyser une situation en direct, de prédire un comportement, de conseiller une action. Un médecin équipé de lunettes connectées pourrait recevoir en temps réel une analyse de posture d’un patient, un chauffeur autonome pourrait anticiper un danger avant même qu’un humain ne le remarque… Tout est possible !