OpenAI, Çok Modlu Destek ve Gelişmiş Konuşma Yetenekleri ile GPT-Gerçek Zamanlı Sesli Konuşma Modelini Tanıttı

Kısaca

OpenAI, çok modlu destek, gelişmiş konuşma becerileri ve güçlü ses akıl yürütme performansı ile gpt-realtime konuşmadan konuşmaya modelini piyasaya sürdü.

OpenAI, Çok Modlu Destek ve Gelişmiş Konuşma Yeteneği ile GPT-Gerçek Zamanlı Sesli-İletişim Modelini Tanıttı

Yapay zeka araştırma kuruluşu OpenAI, geliştiricilerin ve işletmelerin sağlam, üretim hazır ses ajanları oluşturmasına olanak tanıyan özelliklerle geliştirilmiş Realtime API'sinin genel kullanımını duyurdu. API, uzaktan MCP sunucularını, görüntü girişlerini ve Oturum Başlatma Protokolü (SIP) aracılığıyla telefon aramalarını destekleyerek daha yetenekli ve bağlama duyarlı ses uygulamalarını mümkün kılmaktadır.

API'nin yanı sıra, OpenAI en gelişmiş sesli sesli modelini, talimat takibini, fonksiyon çağrısını ve doğal bir ses tonunu geliştirmek için tasarlanmış olan gpt-realtime'i piyasaya sürdü. Model, karmaşık istemleri yorumlayabilir, cümle ortasında diller arasında geçiş yapabilir, alfanümerik dizileri doğru bir şekilde yeniden üretebilir ve sözsüz ipuçlarını yakalayabilir. İki yeni ses, Cedar ve Marin, daha ifadeli ve insan benzeri bir tonlama sunmak için de kullanılabilir. Mevcut sesler, bu geliştirmeleri içerecek şekilde güncellendi.

Realtime API, sesi doğrudan tek bir model aracılığıyla işleyerek gecikmeyi azaltır ve nüansı korur; bu, ayrı konuşma metni ve metin konuşma modellerini zincirleyen geleneksel sistemlerin aksine bir yaklaşımdır. gpt-realtime, müşteri desteği, kişisel asistanlık ve eğitim gibi gerçek dünya uygulamalarında mükemmel performans göstermesi için kullanıcılarla işbirliği içinde eğitilmiştir. Karşılaştırmalı değerlendirmeler, önceki modellere kıyasla akıl yürütme, talimatlara uyum ve işlev çağırma doğruluğunda önemli iyileşmeler göstermektedir.

Ek güncellemeler, devam eden konuşmaları kesintiye uğratmadan uzun süreli işlemlere olanak tanıyan asenkron fonksiyon çağrısını içermektedir ve kesintisiz, üretim hazır ses deneyimlerini daha da desteklemektedir.

OpenAI, Gerçek Zamanlı API'yi MCP Desteği, Görüntü Girdileri, SIP Entegrasyonu ve Ses Ajanları için Maliyet Tasarrufu Kontrolleri ile Genişletiyor

OpenAI'nin Realtime API'si artık entegrasyonu basitleştirmek ve üretime hazır ses ajanları için yetenekleri genişletmek üzere tasarlanmış yeni özellikler içeriyor. Geliştiriciler, API'nin otomatik olarak araç çağrılarını yönetmesine ve manuel kurulum olmadan ek işlevlere erişmesine olanak tanıyan bir oturumu bir MCP sunucu URL'sine bağlayarak uzaktan MCP desteğini etkinleştirebilir.

gpt-realtime modeli artık görüntü girişlerini destekliyor, bu da sistemin fotoğrafları, ekran görüntülerini ve diğer görselleri ses veya metinle bir arada kullanabilmesini sağlıyor. Bu, kullanıcıların gördükleriyle ilgili bağlama özgü sorular sormalarına olanak tanırken, geliştiricilerin hangi görüntülerin ne zaman paylaşılacağı üzerinde kontrol sahibi olmalarını sağlıyor.

Ek iyileştirmeler, uygulamaları telefon ağlarına ve PBX sistemlerine bağlamak için Oturum Başlatma Protokolü (SIP) desteği ile birlikte, geliştiricilerin birden fazla oturumda önceden yapılandırılmış talimatları, araçları ve örnek mesajları kaydedip dağıtmasına olanak tanıyan yeniden kullanılabilir istemleri içermektedir.

Genel olarak erişilebilir Realtime API ve gpt-realtime modeli artık tüm geliştiricilere açıktır, fiyatlandırma önceki gpt-4o-realtime-preview'a göre %20 oranında azaltılmıştır. Konuşma bağlamı için yeni kontrol seçenekleri, daha akıllı token yönetimine olanak tanıyarak uzun süreli oturumlar için maliyetleri azaltmaktadır. Bu özelliklerin benimsenmesini desteklemek için dokümantasyon, test için bir Playground ve Realtime API istemi kılavuzu mevcuttur.

GPT8.91%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)