OpenAI dévoile le modèle de conversion de la parole en temps réel GPT avec support multimodal et capacités de conversation avancées.

2025-09-01 14:03:09

En bref

OpenAI a lancé le modèle de conversion de la parole en parole gpt-realtime avec un support multimodal, des compétences conversationnelles avancées et de fortes performances en raisonnement audio.

L'organisation de recherche en intelligence artificielle OpenAI a annoncé la disponibilité générale de son API Realtime, désormais améliorée avec des fonctionnalités permettant aux développeurs et aux entreprises de créer des agents vocaux robustes et prêts pour la production. L'API prend en charge les serveurs MCP distants, les entrées d'image et les appels téléphoniques via le protocole d'initiation de session (SIP), permettant des applications vocales plus capables et conscientes du contexte.

Avec l'API, OpenAI a également lancé son modèle de conversion de la parole en parole le plus avancé, gpt-realtime, conçu pour améliorer le suivi des instructions, l'appel de fonctions et la parole naturelle. Le modèle peut interpréter des invites complexes, changer de langue en pleine phrase, reproduire des séquences alphanumériques avec précision et capturer des indices non verbaux. Deux nouvelles voix, Cedar et Marin, sont également disponibles, offrant une intonation plus expressive et humaine. Les voix existantes ont été mises à jour pour intégrer ces améliorations.

L'API en temps réel traite l'audio directement à travers un seul modèle, réduisant la latence et préservant les nuances, contrairement aux pipelines traditionnels qui enchaînent des modèles de reconnaissance vocale et de synthèse vocale distincts. gpt-realtime a été formé en collaboration avec des utilisateurs pour exceller dans des applications du monde réel telles que le support client, l'assistance personnelle et l'éducation. Les évaluations de référence montrent des améliorations substantielles en matière de raisonnement, de respect des instructions et de précision des appels de fonction par rapport aux modèles précédents.

Les mises à jour supplémentaires comprennent l'appel de fonctions asynchrones, permettant des opérations de longue durée sans interrompre les conversations en cours, soutenant ainsi des expériences vocales fluides et prêtes pour la production.

OpenAI étend l'API en temps réel avec le support MCP, les entrées d'image, l'intégration SIP et des contrôles d'économie pour les agents vocaux

L'API en temps réel d'OpenAI comprend désormais de nouvelles fonctionnalités conçues pour simplifier l'intégration et élargir les capacités des agents vocaux prêts pour la production. Les développeurs peuvent activer le support MCP à distance en liant une session à une URL de serveur MCP, permettant à l'API de gérer automatiquement les appels d'outils et d'accéder à des fonctionnalités supplémentaires sans configuration manuelle.

Le modèle gpt-realtime prend maintenant en charge les entrées d'image, permettant au système d'incorporer des photos, des captures d'écran et d'autres visuels aux côtés de l'audio ou du texte. Cela permet aux utilisateurs de poser des questions spécifiques au contexte sur ce qu'ils voient, tandis que les développeurs conservent le contrôle sur les images partagées et leur moment.

Des améliorations supplémentaires incluent le support du protocole d'initiation de session (SIP) pour connecter des applications aux réseaux téléphoniques et aux systèmes PBX, ainsi que des invites réutilisables qui permettent aux développeurs de sauvegarder et de déployer des instructions, des outils et des messages d'exemple préconfigurés sur plusieurs sessions.

L'API Realtime généralement disponible et le modèle gpt-realtime sont désormais accessibles à tous les développeurs, avec des prix réduits de 20 % par rapport au précédent gpt-4o-realtime-preview. De nouveaux contrôles pour le contexte de conversation permettent une gestion plus intelligente des tokens, réduisant les coûts pour les sessions prolongées. La documentation, un Playground pour les tests et un guide de conseils pour l'API Realtime sont disponibles pour aider les développeurs à adopter ces fonctionnalités.

GPT2.64%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
#Gate Initial Listing WLFI
16k Popularité
#Will Crypto Market Break Out in September?
22k Popularité
#Are You Bullish or Bearish Today?
19k Popularité
#GUSD Now Live on Gate
42k Popularité
#Gate Alpha XLAB Points Airdrop
3k Popularité

Épingler