GPT-5.5 OpenAI : benchmarks officiels et retours terrain

OpenAI a sorti GPT-5.5 le 23 avril 2026, six semaines seulement après GPT-5.4.

Le modèle est annoncé comme le plus capable de la maison sur le code, les tâches longues et l’usage autonome d’outils.

La communication est plus mesurée que pour GPT-5 en août 2025, et tant mieux : Ça permet de regarder les benchmarks, les retours terrain, et ce qui change concrètement dans l’abonnement.

Voici le point factuel à 24 h, sans survente.

Ce qu’OpenAI annonce

GPT-5.5 est d’abord un déploiement ChatGPT, pas une sortie API.

Le modèle arrive pour les abonnés Plus, Pro, Business, Enterprise et Edu, avec une variante GPT-5.5 Thinking pensée pour les tâches lourdes : longs documents, raisonnement prolongé, agents multi-étapes.

Les utilisateurs Go (8 €/mois) accèdent à GPT-5.5 Thinking via l’icône + dans la boîte de chat, avec une limite de 10 messages toutes les 5 heures Pour aller plus loin : DeepSeek V4 sorti le même jour sous licence MIT.

Les utilisateurs Free restent sur GPT-5.4 : rien ne change pour eux côté modèle.

Au-dessus, GPT-5.5 Pro est réservé aux plans Pro, Business, Enterprise et Edu.

C’est la version poussée du modèle, avec un budget de raisonnement plus élevé, ciblée sur les workflows les plus longs : refactors complexes, analyses documentaires denses, recherche multi-sources.

GPT-5.5 est d’abord une mise à jour ChatGPT : l’API complète arrive plus tard, et seul GPT-5.5 Pro est déjà listé côté tarifs développeurs à 30 $ / 180 $ par million de tokens.

Côté API grand public, GPT-5.5 n’est pas encore exposé à la même vitesse que GPT-5.4, dont le rythme d’obsolescence interroge déjà : La page openai.com/index/introducing-gpt-5-5/ mentionne GPT-5.5 Pro à 30 $ en entrée et 180 $ en sortie par million de tokens, mais la disponibilité pour tous les développeurs est étalée dans le temps.

L’annonce insiste aussi sur l’efficience token : OpenAI indique que GPT-5.5 consomme significativement moins de tokens pour accomplir les mêmes tâches dans Codex, tout en conservant la même latence par token que GPT-5.4.

Les benchmarks qui comptent

OpenAI publie une série de scores qui placent GPT-5.5 au-dessus de GPT-5.4 et au-dessus de Claude Opus 4.7 sur plusieurs évaluations agentiques.

Voici les chiffres officiels communiqués le 23 avril 2026.

Benchmark	GPT-5.5	GPT-5.5 Pro	Ce qu’il mesure
Terminal-Bench 2.0	82,7 %	n/a	Agents ligne de commande, tâches multi-étapes
SWE-Bench Pro	58,6 %	n/a	Résolution de tickets GitHub réels
GDPval	84,9 %	n/a	Tâches de travail intellectuel (knowledge work)
OSWorld-Verified	78,7 %	n/a	Usage d’un ordinateur comme un humain
FrontierMath Tier 4	35,4 %	39,6 %	Maths de recherche, problèmes ouverts
BrowseComp	84,4 %	90,1 %	Recherche web multi-sources

Trois choses à garder en tête avant de tirer des conclusions.

Premier biais : ces benchmarks sont publiés par OpenAI avec ses propres harnais d’évaluation.

Le comparatif avec Claude Opus 4.7 se lit différemment selon qui fait tourner les tests : Anthropic publie 64,3 % sur SWE-Bench Pro pour Opus 4.7, contre 58,6 % pour GPT-5.5, et 73,8 % sur CyberGym là où OpenAI mesure Opus 4.7 à 73,1 %.

Les écarts sont réels, mais méthodologiques avant d’être absolus.

Deuxième biais : Terminal-Bench 2.0 et OSWorld-Verified mesurent des agents qui exécutent, pas la qualité du code produit.

Un modèle peut dominer un benchmark agentique et produire un refactor qu’il faut relire ligne par ligne en production.

Troisième biais : GDPval et BrowseComp sont des évaluations relativement récentes, conçues pour les modèles frontier.

Les scores très hauts reflètent aussi le fait que les tests ont été calibrés pendant que les modèles s’amélioraient : on regarde un plafond mouvant.

Lire un benchmark frontier sans regarder qui l’a publié et avec quel harnais, c’est comme lire une publicité comparative.

Cela dit, 82,7 % sur Terminal-Bench 2.0 reste un signal fort : c’est 13 points au-dessus d’Opus 4.7 dans la mesure d’OpenAI, et les agents terminal sont un usage réel pour beaucoup d’équipes dev.

Retours utilisateurs à 24 h

Sur r/codex, r/ChatGPT, Hacker News et X, les premiers retours sont plus techniques que pour GPT-5 en août 2025.

Pas de vague de plaintes « le modèle est devenu froid » cette fois : le public early-adopter est majoritairement composé de développeurs et de power users, pas d’usagers grand public.

Trois patterns ressortent dans les discussions.

Signal positif sur les boucles courtes de code.

Les retours sur r/codex décrivent GPT-5.5 comme plus propre au premier jet, avec moins de cycles de correction sur les tâches ciblées : implémentation d’un composant, fix d’un bug isolé, review d’une PR scopée.

L’analyse d’Anthony Maio, qui a compilé les fils r/codex, r/hermesagent et Hacker News, résume ça en une phrase : « if a model saves one or two correction loops every time you hand it a scoped task, you feel that immediately ».

Signal mitigé sur l’exécution longue durée.

Sur les tâches repo-wide, les changements multi-fichiers ou les agents qui tournent plus d’une heure, la communauté reste prudente.

La plainte récurrente depuis GPT-5 : la fidélité aux instructions se dégrade après 20 tours d’agent, et rien ne confirme encore que GPT-5.5 corrige ce point de façon nette.

Signal fort sur la vitesse et l’efficience token.

Pietro Schirano, CEO de MagicPath, a rapporté un merge de branche avec des centaines de changements frontend bouclé en environ 20 minutes par GPT-5.5 sur une branche main qui avait beaucoup divergé.

D’autres early-access partners (OpenAI en annonce près de 200) décrivent la même chose : le modèle travaille plus vite sur les tâches moyennes, et consomme moins de tokens pour un résultat équivalent à GPT-5.4.

Les développeurs qui utilisent Codex tous les jours ne parlent pas d’un saut générationnel : Ils parlent d’un modèle qui les fait gagner 10 à 30 % de temps sur leurs boucles habituelles.

Le constat honnête : gain incrémental mesurable, pas un saut générationnel.

Codex : le vrai saut ?

La partie la plus intéressante de l’annonce tient dans un mot : Codex.

GPT-5.5 est déployé dans Codex CLI, l’extension VS Code, Codex Cloud et le bot de code review GitHub, avec un profil d’usage clair : agents qui tournent longtemps.

Greg Brockman avait déjà évoqué en septembre 2025 des sessions Codex internes qui tournaient jusqu’à sept heures sur des refactors complexes, une capacité que les autres modèles n’avaient pas atteinte à l’époque.

Avec GPT-5.5, OpenAI insiste sur deux axes.

Efficience token : le modèle consomme significativement moins de tokens pour compléter les mêmes tâches Codex, selon la page community OpenAI du 23 avril.

Pour une équipe qui paye son API au volume, c’est la métrique qui compte le plus : un modèle plus cher par token peut coûter moins cher à l’usage s’il en utilise deux fois moins.

Exécution longue durée : La logique d’agentic coding pousse vers des workflows où le modèle planifie, exécute, teste, corrige, puis soumet une PR, sans intervention humaine continue, un terrain qu’OpenAI a détaillé dans sa refonte du harness et du sandbox des Agents SDK.

C’est exactement le cas d’usage où Anthropic et OpenAI se livrent leur vraie bataille en 2026, et où les benchmarks classiques (SWE-Bench Verified) commencent à saturer.

Le vrai test : est-ce que GPT-5.5 dans Codex tient sur un refactor de 6 heures sans drifter ?

La réponse se mesurera en semaines, pas en heures.

Ce qui reste en retrait

Plusieurs points méritent d’être pointés clairement avant tout enthousiasme.

L’API complète arrive plus tard.

Seul GPT-5.5 Pro est listé avec un tarif public à 30 $ / 180 $ par million de tokens, et la disponibilité API généralisée est échelonnée.

Les équipes qui construisent des produits sur GPT-5.4 ne peuvent pas encore basculer instantanément.

Les safeguards sont renforcés, avec des conséquences pratiques.

OpenAI a soumis GPT-5.5 à un red-teaming ciblé sur les capacités cybersécurité et biologie, dans le cadre de son Preparedness Framework.

Un bug bounty bio a été ouvert avec des récompenses jusqu’à 25 000 $, et l’accès à certaines capacités est conditionné à un système de « trust-based access » qui peut restreindre des usages légitimes pour des chercheurs académiques ou des équipes sécurité défensive.

Les plans gratuits et Go sont peu servis.

Les utilisateurs Free restent sur GPT-5.4 : pas de changement de modèle, pas de nouveau plafond.

Les utilisateurs Go accèdent à GPT-5.5 Thinking avec un quota strict de 10 messages par tranche de 5 heures, ce qui en fait une fonctionnalité d’essai plus qu’un outil de travail.

Le message implicite : GPT-5.5 est fait pour ceux qui paient au moins Plus, et surtout pour ceux qui paient Pro ou plus.

Le gap avec Claude Opus 4.7 reste contextuel.

Opus 4.7 garde l’avantage sur SWE-Bench Pro (64,3 % contre 58,6 %), sur MCP-Atlas (79,1 % contre 75,3 %) et sur les tâches de refactor où il faut comprendre l’intention derrière le code.

GPT-5.5 prend la main sur Terminal-Bench 2.0, les tâches agentiques et la récupération en long contexte.

Ce n’est pas un modèle qui écrase tout : c’est un modèle qui gagne certaines catégories et en perd d’autres.

Qui devrait upgrader ?

Le choix dépend du profil d’usage, pas d’un score global.

Développeur qui code tous les jours dans Codex.

L’upgrade vers ChatGPT Pro (103 €/mois) est la décision la plus claire : GPT-5.5 dans Codex gagne sur Terminal-Bench 2.0, consomme moins de tokens, et tient les sessions longues.

Si vous êtes sur Plus, passer Pro se justifie si Codex représente plus de 2-3 heures par jour dans votre workflow.

Équipe produit ou agence.

Le plan Business (21 €/user/mois) donne accès à GPT-5.5 Thinking via le sélecteur de modèle, avec la gestion centralisée des comptes.

Pour une équipe de 5 personnes qui utilise déjà ChatGPT comme outil interne, l’upgrade vers Business a un ROI rapide : la qualité des réponses sur les tâches longues compense le coût par siège.

Utilisateur curieux, usage mixte (écriture, recherche, prototype).

Plus (23 €/mois) reste le bon ticket d’entrée : vous avez GPT-5.5 Thinking, GDPval à 84,9 %, BrowseComp à 84,4 %, et de quoi tester sérieusement le modèle sur des cas réels.

Pour les tâches de code lourdes, complétez avec un plan Claude ou restez sur Opus 4.7 selon vos préférences.

Utilisateur gratuit.

Rien à faire : vous êtes sur GPT-5.4, le modèle ne change pas, et l’upgrade vers Go (8 €/mois) donne un accès symbolique à GPT-5.5 Thinking (10 messages / 5 h).

Si vous n’êtes pas limité aujourd’hui par GPT-5.4, ça ne vaut pas le coût.

Pour aller plus loin sur la décision d’abonnement, notre comparatif complet des abonnements Claude vs ChatGPT détaille les tarifs, les quotas et les cas d’usage pour chaque plan des deux offres.

Trois questions à se poser avant d’upgrader

Est-ce que mes cas d’usage actuels sont limités par GPT-5.4, ou est-ce que je cherche juste à tester la nouveauté ?
Est-ce que j’utilise Codex plus d’une heure par jour ? Si oui, Pro se paye tout seul.
Est-ce que mon travail dépend plus de la qualité du code produit (Opus 4.7) ou de la vitesse d’exécution agentique (GPT-5.5) ?

La vraie question n’est pas « GPT-5.5 est-il meilleur que GPT-5.4 ».

La vraie question est « est-ce que GPT-5.5 change suffisamment mon workflow pour justifier un upgrade de plan ? ».

Pour la plupart des utilisateurs Plus, la réponse est non à court terme : le modèle est plus capable, mais le saut n’est pas assez marqué pour imposer une bascule immédiate.

Pour les devs qui vivent dans Codex, la réponse est oui, et l’upgrade Pro vaut le coup dès cette semaine.

FAQ

Quand GPT-5.5 est-il sorti ?

OpenAI a annoncé GPT-5.5 le 23 avril 2026, avec un déploiement immédiat pour les abonnés Plus, Pro, Business, Enterprise et Edu dans ChatGPT et Codex.

GPT-5.5 est-il disponible dans l’API ?

Seul GPT-5.5 Pro est listé publiquement avec un tarif API à 30 $ / 180 $ par million de tokens (entrée / sortie), et la disponibilité API généralisée pour tous les développeurs est échelonnée dans les semaines suivant l’annonce.

Quelle différence entre GPT-5.5 et GPT-5.5 Pro ?

GPT-5.5 Pro utilise un budget de raisonnement plus élevé et cible les tâches les plus difficiles : refactors complexes, analyses documentaires denses, recherche multi-sources.

GPT-5.5 Pro gagne 4,2 points sur FrontierMath Tier 4 (39,6 % contre 35,4 %) et 5,7 points sur BrowseComp (90,1 % contre 84,4 %) par rapport à GPT-5.5 standard.

GPT-5.5 est-il meilleur que Claude Opus 4.7 ?

Ça dépend de la tâche.

GPT-5.5 gagne sur Terminal-Bench 2.0 (82,7 % contre 69,4 % selon OpenAI), sur OSWorld-Verified et sur la récupération en long contexte.

Opus 4.7 garde l’avantage sur SWE-Bench Pro (64,3 % contre 58,6 %), sur MCP-Atlas et sur les refactors multi-fichiers où la qualité du code produit prime.

Les utilisateurs gratuits ont-ils accès à GPT-5.5 ?

Non : les utilisateurs Free restent sur GPT-5.4.

Les utilisateurs Go (8 €/mois) accèdent à GPT-5.5 Thinking avec un quota de 10 messages toutes les 5 heures.

Qu’est-ce qui change dans Codex ?

GPT-5.5 consomme significativement moins de tokens pour accomplir les mêmes tâches dans Codex, avec une latence par token équivalente à GPT-5.4.

Le modèle tient aussi mieux les sessions longues, avec des runs agentiques documentés jusqu’à plusieurs heures.

Quels sont les safeguards renforcés ?

OpenAI a soumis GPT-5.5 à un red-teaming ciblé sur les capacités cybersécurité et biologie, dans le cadre de son Preparedness Framework.

Un bug bounty bio a été ouvert avec des récompenses jusqu’à 25 000 $, et l’accès à certaines capacités avancées est conditionné à un système de trust-based access.

Faut-il upgrader vers Pro maintenant ?

Oui, si vous utilisez Codex plus d’une heure par jour et que votre workflow dépend des runs agentiques longs.

Non, si vous êtes un utilisateur Plus qui fait de l’écriture, de la recherche et du prototype : la différence avec GPT-5.4 existe, mais ne justifie pas le passage de 23 € à 103 € par mois.

Combien de partenaires ont testé GPT-5.5 avant la sortie ?

OpenAI indique avoir collecté des retours sur des cas d’usage réels auprès de près de 200 partenaires d’accès anticipé avant le lancement public du 23 avril 2026.

GPT-5.5 fait-il partie d’un cycle de sorties plus court ?

GPT-5.5 sort six semaines après GPT-5.4, ce qui confirme un rythme de mise à jour rapproché chez OpenAI depuis fin 2025.

La concurrence directe avec Anthropic (Opus 4.7 sorti le 16 avril 2026) et Google (Gemini 3.1 Pro) explique en grande partie ce cycle de publication resserré.

GPT-5.5 : ce qui change vraiment (benchmarks officiels + retours terrain 24 h)

Ce qu’OpenAI annonce

Les benchmarks qui comptent

Retours utilisateurs à 24 h

Codex : le vrai saut ?

Ce qui reste en retrait

Qui devrait upgrader ?

Trois questions à se poser avant d’upgrader

FAQ

Quand GPT-5.5 est-il sorti ?

GPT-5.5 est-il disponible dans l’API ?

Quelle différence entre GPT-5.5 et GPT-5.5 Pro ?

GPT-5.5 est-il meilleur que Claude Opus 4.7 ?

Les utilisateurs gratuits ont-ils accès à GPT-5.5 ?

Qu’est-ce qui change dans Codex ?

Quels sont les safeguards renforcés ?

Faut-il upgrader vers Pro maintenant ?

Combien de partenaires ont testé GPT-5.5 avant la sortie ?

GPT-5.5 fait-il partie d’un cycle de sorties plus court ?

Articles Similaires

Obsidian Web Clipper : review du plugin officiel pour capturer le web en Markdown

Plugins IA Obsidian 2026 : comparatif complet (Smart Connections, Copilot, Text Generator, AI Tagger, Companion, CAO)

Prêt à créer votre système IA ?

Encore quelques questions ?