Le 7 mai 2026, OpenAI a sorti le tapis rouge à GPT-Realtime-2 : son premier modèle vocal speech-to-speech à raisonnement GPT-5, contexte 128k tokens et levier reasoning_effort en cinq crans.
La Realtime API sort de bêta le même jour, deux voix inédites entrent en scène (Cedar et Marin), deux modèles compagnons rejoignent la famille : Translate et Whisper.
Pour une équipe qui pèse une migration depuis GPT-Realtime-1.5, la vraie question n’est pas le communiqué de presse, c’est ce que le code, la facture et la latence vont devenir lundi matin.
En bref
- GA le 7 mai 2026 : la Realtime API quitte la bêta, les modèles preview gpt-4o-realtime sont coupés le jour même, le path devient gpt-realtime-2.
- Contexte 32k vers 128k : 1 à 2 heures de conversation dense sans reset, sortie maximale 32k tokens.
- reasoning_effort en 5 crans : minimal, low (défaut), medium, high, xhigh, curseur latence vs qualité au niveau session.
- Pricing audio inchangé : 32 / 64 dollars / M tokens, cache à 0,40 dollar / M, Translate 0,034 dollar / min, Whisper 0,017 dollar / min.
- Latence terrain : 1,12 s en minimal, 2,33 s en high (Artificial Analysis), 2 à 4 s en médiane production.
- Migration ciblée : changement d’identifiant modèle, ajout du champ type dans session.update, events renommés en output_text/output_audio.
Ce qu’OpenAI a annoncé pour GPT-Realtime-2 le 7 mai 2026
OpenAI ne sort pas un modèle vocal de zéro : il fait passer en GA une stack qui mûrissait en bêta depuis février 2025.
La Realtime API bascule en disponibilité générale, les modèles preview gpt-4o-realtime-preview sont retirés la même journée sans tolérance, le path par défaut devient gpt-realtime-2.
Toute requête envoyée avec le header OpenAI-Beta: realtime=v1 tombera en erreur après cette bascule, d’après la page de dépréciation OpenAI.
Cedar, Marin et la famille Translate / Whisper
Le speech-to-speech natif transporte la prosodie, là où un pipeline STT vers LLM vers TTS la perd entre deux étages : c’est la différence entre le téléphone et le courrier postal.
Deux voix inédites rejoignent la Realtime API en exclusivité : Cedar et Marin, calibrées pour l’agent vocal de support.
Trois modèles arrivent en parallèle : GPT-Realtime-2 pour la conversation, GPT-Realtime-Translate pour la traduction live (70 langues source, 13 cibles), GPT-Realtime-Whisper pour la transcription streaming.
Translate n’est pas un modèle conversationnel : il transforme un flux audio en un autre, sans tour de parole modèle, et l’ensemble dessine une plateforme audio entière plutôt qu’un modèle isolé.
Pricing officiel par modèle
Le tarif audio reste identique au précédent GPT-Realtime-1.5 : 32 dollars / M tokens audio input, 64 dollars / M tokens output, 0,40 dollar / M pour le cache.
Côté texte : 4 dollars input, 24 dollars output, cache à 0,40 dollar / M, plus 5 dollars / M pour les images désormais acceptées en input.
Translate se facture à 0,034 dollar / minute, Whisper à 0,017 dollar / minute.
La double unité tarifaire (token contre minute) impose de calculer en coût-par-conversation : une session typique brûle 800 tokens audio input et 1 200 tokens audio output par minute, soit 0,10 à 0,15 dollar / minute hors cache.
Les vrais sauts techniques de GPT-Realtime-2 face à Realtime-1.5
Trois leviers sortent du lot : la fenêtre de contexte, le réglage de raisonnement et la sortie des préambules audibles, qui décident de ce que GPT-Realtime-2 tient dans une session et de ce qu’il facture pour la même tâche.
Contexte 32k vers 128k : ce que ça débloque
La fenêtre quadruple, de 32k à 128k tokens, avec une sortie plafonnée à 32k tokens par session, soit 1 à 2 heures de conversation dense dans la mémoire active sans reset.
La 128k n’est pas un gain gratuit : chaque token consommé gonfle la facture audio à 32 / 64 dollars / M.
Le truncation token limit, paramétré au niveau session, reste la bonne hygiène au-delà de 10 minutes : il coupe les anciens tours en bloc plutôt que par message.

reasoning_effort en 5 crans et verbal preambles
Le levier reasoning_effort accepte cinq valeurs : minimal, low (défaut), medium, high, xhigh, comme une boîte de vitesses où l’on ne monte en xhigh que sur la pente raide.
Artificial Analysis mesure 1,12 s de time-to-first-audio en minimal, 2,33 s en high : la décision de monter le réglage se paie cash en latence ressentie par l’utilisateur.
Les verbal preambles répondent à ce coût : le modèle dit « laissez-moi vérifier ça » pendant qu’un tool call tourne, ce que fait un humain quand il tape au clavier en silence.
Le bon défaut tient à low pour 80 % du flux, escalade vers high si le tour exige une chaîne d’inférence (calcul, raisonnement multi-étapes, vérification documentaire).
Barge-in, parallel tool calls et MCP
GPT-Realtime-2 accepte trois usages parallèles que GPT-Realtime-1.5 tolérait au prix d’une plomberie applicative lourde.
Les parallel tool calls tournent au sein d’un même tour : le modèle peut interroger calendrier et CRM simultanément sans bloquer la voix.
Le function calling asynchrone garde la conversation fluide pendant qu’un long appel API charge en arrière-plan.
session.update accepte une URL de serveur MCP distante, la plateforme câble les tool calls à votre place : un placard partagé entre plusieurs agents face à un tiroir collé à l’app.
Lecture des benchmarks GPT-Realtime-2 avec recul
Sur Big Bench Audio, GPT-Realtime-2 en high reasoning passe à 96,6 % contre 81,4 % pour Realtime-1.5 : 15,2 points de gain.
Sur Audio MultiChallenge en xhigh, 48,5 % contre 34,7 %.
Le saut Big Bench Audio est mesurable, mais le score 96 % indique une saturation du banc d’essai.
Audio MultiChallenge raconte une autre histoire : le multi-tour reste un problème ouvert, avec moins d’un tour sur deux passé en xhigh.
La génération précédente, mesurée fin 2024 contre GPT-Realtime-1.5, était passée de 20,6 % à 30,5 % sur ce banc, et le ComplexFuncBench audio (function calling vocal) de 49,7 % à 66,5 %.
Côté latence, OpenAI ne communique pas de chiffre officiel : Artificial Analysis donne 1,12 s en minimal et 2,33 s en high, les retours terrain remontent jusqu’à 3,4 s sur sessions longues à xhigh.
Cette plage tranche avec la cascade Deepgram + Llama + Cartesia (500-800 ms) ou avec Gemini 3.1 Flash Live (250-500 ms) : le speech-to-speech natif ne gagne pas la course à la milliseconde, il gagne celle de la prosodie et de la simplicité d’intégration.
Comparatif vocal IA en mai 2026 face à la concurrence
Le marché vocal IA de mai 2026 ne se résume pas à un choix de modèle, c’est une décision d’architecture à trier par latence, pricing et lock-in vendor.
- GPT-Realtime-2 (OpenAI) : speech-to-speech natif, latence 1,1-3,4 s, 0,15 à 0,20 dollar / minute, lock-in élevé, 128k contexte, MCP et SIP natifs.
- Gemini 3.1 Flash Live (Google) : speech-to-speech natif, 250-500 ms en bonnes conditions, pricing audio token économique à fort volume.
- Cartesia Sonic-3 : State Space Model, TTFA 90 ms, 46,70 dollars / M caractères, imbattable sur la latence pure en cascade.
- Deepgram Voice Agent : Nova-3 STT + Aura TTS bundle à 4,50 dollars / heure, sub-700 ms end-to-end.
- ElevenLabs Conversational AI : Flash v2.5 TTS à 75 ms, qualité premium, credit-based qui s’envole au-delà de 10 000 minutes / mois.
- AWS Nova Sonic : speech-to-speech alternatif positionné sur le tarif, latence proche de Realtime-2.
GPT-Realtime-2 brille pour les projets qui exigent du raisonnement multi-tours et du tool use riche, là où la cascade reste plus économique sur du containment basique à fort volume.

Migrer depuis GPT-Realtime-1.5 vers GPT-Realtime-2 sans tout casser
La migration depuis GPT-Realtime-1.5 vers GPT-Realtime-2 n’est pas wire-compatible avec la bêta : les changements sont localisés mais bloquants si on les ignore.
Identifiant et nouveaux paramètres de session
Le premier patch tient en deux lignes : remplacer gpt-4o-realtime-preview ou gpt-realtime par gpt-realtime-2, et retirer le header OpenAI-Beta: realtime=v1 de toutes les requêtes.
Le payload session.update exige désormais un champ type avec deux valeurs possibles : realtime pour speech-to-speech, transcription pour la transcription pure.
Les events ont été renommés : response.text.delta devient response.output_text.delta, response.audio.delta devient response.output_audio.delta, conversation.item.created est remplacé par conversation.item.added et conversation.item.done.
Câbler Translate, Whisper et le transport
La famille GPT-Realtime-2 reste modulaire : pour ajouter la traduction live, le flux audio passe sur Translate via le endpoint dédié /v1/realtime/translations, sans appel response.create.
Pour la transcription pure, Whisper streaming tourne sur une session de transcription à part.
Côté transport, WebRTC reste le défaut navigateur et mobile, WebSocket sert les pipelines serveur, SIP branche le téléphone IP et la PSTN.
La création de clés éphémères passe à POST /v1/realtime/client_secrets, le SDP WebRTC bascule vers /v1/realtime/calls, le SIP REFER rend le transfert programmé d’appel vers un humain réalisable sans middleware custom.
Cas d’usage GPT-Realtime-2 en production et limites résiduelles
Zillow signale un bond de 26 points sur son benchmark adversarial après prompt optimization sur GPT-Realtime-2, le genre de métrique opérationnelle qui pèse plus qu’un démo clip.
OpenAI a nommé quatre clients pilotes lors du livestream du 7 mai 2026 : Deutsche Telekom sur un agent support multilingue avec code-switching natif allemand-anglais-turc, Zillow avec 26 points de gain adversarial après prompt optimization, Priceline relié à Translate pour quatre langues, Vimeo sur la prise de notes live du support créateurs.
Le containment rate, métrique reine du voicebot mature, oscille entre 40 % et 70 % selon les verticaux : sous 40 %, l’argument ROI s’effondre.
Sur le français, l’instruction following reste parfois ignoré sur Cedar et Marin (déjà constaté sur Realtime-1.5), là où la voix GPT historique d’OpenAI portait déjà des accents francophones serrés.
Les hallucinations vocales et la prompt injection (instruction cachée dans un audio entrant) restent deux risques actifs : SplxAI documente plusieurs cas de contournement des garde-fous textuels par injection vocale.
Bilan : ce que GPT-Realtime-2 change pour votre stack vocale
GPT-Realtime-2 n’efface pas Cartesia, Deepgram ou ElevenLabs : il rebat les cartes pour les équipes qui acceptent le ticket audio token et qui veulent du raisonnement, du tool use et du SIP natifs sans construire elles-mêmes la plomberie.
La vraie nouveauté est moins le modèle que la stack : GPT-Realtime-2 + Translate + Whisper dessinent une plateforme audio cohérente, chaque brique facturée séparément.
Vous évaluez ou migrez vers GPT-Realtime-2 ?
Parcourez notre comparatif des assistants vocaux IA en 2026 pour cadrer les options hors OpenAI, et calez vos hypothèses de coût sur 50 conversations chronométrées avec votre carrier avant la mise en production.
FAQ GPT-Realtime-2
Quand GPT-Realtime-2 est-il passé en GA ?
OpenAI a basculé la Realtime API en disponibilité générale le 7 mai 2026, avec retrait simultané des modèles preview gpt-4o-realtime.
Combien coûte GPT-Realtime-2 par minute de conversation ?
Une session typique brûle 800 tokens input et 1 200 tokens output par minute, soit 0,15 à 0,20 dollar / minute hors cache (cache à 0,40 dollar / M, -98,75 %).
Quelle latence attendre en production sur 30 à 60 tours ?
Artificial Analysis mesure 1,12 s en minimal et 2,33 s en high pour le time-to-first-audio, retours terrain jusqu’à 3,4 s en xhigh sur sessions longues.
Quand passer reasoning_effort de low à xhigh ?
Low pour 80 % du flux courant, high pour les tours qui exigent une chaîne d’inférence, xhigh quand la qualité prime sur la latence.
Comment câbler Translate et Whisper sans doubler la facture ?
Les sessions Translate (0,034 dollar / min) et Whisper (0,017 dollar / min) sont indépendantes, facturées à la minute, et s’ajoutent au coût Realtime-2 uniquement quand le scénario les invoque.
Faut-il migrer immédiatement depuis GPT-Realtime-1.5 ?
Les modèles preview gpt-4o-realtime sont coupés depuis le 7 mai 2026, mais les déploiements gpt-realtime-1.5 continuent de fonctionner, le path canonique étant désormais gpt-realtime-2.
Le français est-il au niveau de l’anglais sur Cedar et Marin ?
Le code-switching anglais-français fonctionne, mais l’instruction following reste parfois ignoré selon les remontées de mai 2026, la parité n’étant pas garantie.
Quelles différences entre speech-to-speech natif et pipeline cascade ?
Le speech-to-speech natif ingère et émet l’audio sans transcription intermédiaire (150-500 ms, prosodie conservée), là où la cascade STT vers LLM vers TTS chaîne trois services (500-800 ms, coût 3 à 5 fois plus bas).
Pour quel use case GPT-Realtime-2 dépasse-t-il Cartesia ou Gemini ?
Le raisonnement multi-tour avec tool use riche en une seule API : Cartesia gagne sur la latence pure, Gemini sur le coût à très fort volume, GPT-Realtime-2 sur l’intégration tool et le SIP natif.
Le contexte 128k tokens est-il un gain gratuit ?
Non : chaque token consommé gonfle la facture à 32 / 64 dollars / M, le truncation token limit restant l’hygiène recommandée au-delà de 10 minutes.
Articles Similaires
Anthropic loue le data-center que Musk a construit pour Grok : ce que change le deal SpaceX pour les utilisateurs Claude
Le 6 mai 2026 à 12h16 UTC, Anthropic a publié un communiqué qui referme une crise larvée depuis deux mois : le deal Anthropic SpaceX donne à Claude un accès…
Qwen3.6-Plus : 1M de contexte, MCP-native, repo-level coding, le rival open source de Claude Code
Alibaba a lancé Qwen3.6-Plus le 30 mars 2026 et la séquence d’arbitrage a commencé pour les équipes francophones qui codaient jusqu’ici sur Claude Code ou OpenAI Codex. Le modèle affiche…