OpenAI Ra Mắt Mô Hình GPT-Realtime Speech-To-Speech Với Hỗ Trợ Đa Phương Thức Và Năng Lực Đàm Thoại Nâng Cao

Tóm tắt

OpenAI đã phát hành mô hình gpt-realtime chuyển đổi giọng nói thành giọng nói với hỗ trợ đa phương thức, kỹ năng hội thoại tiên tiến và hiệu suất lý luận âm thanh mạnh mẽ.

OpenAI công bố mô hình GPT-Realtime Speech-To-Speech với hỗ trợ đa phương thức và khả năng giao tiếp nâng cao

Tổ chức nghiên cứu trí tuệ nhân tạo OpenAI đã công bố việc cung cấp API Realtime cho công chúng, hiện đã được nâng cấp với các tính năng cho phép các nhà phát triển và doanh nghiệp xây dựng các tác nhân giọng nói mạnh mẽ, sẵn sàng cho sản xuất. API hỗ trợ các máy chủ MCP từ xa, đầu vào hình ảnh và gọi điện thoại qua Giao thức Khởi tạo Phiên (SIP), cho phép các ứng dụng giọng nói có khả năng và nhận thức ngữ cảnh tốt hơn.

Cùng với API, OpenAI đã phát hành mô hình chuyển giọng nói thành giọng nói tiên tiến nhất của mình, gpt-realtime, được thiết kế để cải thiện khả năng thực hiện hướng dẫn, gọi chức năng và giọng nói tự nhiên. Mô hình có thể hiểu các yêu cầu phức tạp, chuyển đổi ngôn ngữ giữa câu, tái tạo chính xác các chuỗi ký tự alphanumeric và nắm bắt các tín hiệu phi ngôn ngữ. Hai giọng nói mới, Cedar và Marin, cũng có sẵn, cung cấp ngữ điệu biểu cảm và giống con người hơn. Các giọng nói hiện có đã được cập nhật để tích hợp những cải tiến này.

API Thời gian thực xử lý âm thanh trực tiếp thông qua một mô hình duy nhất, giảm độ trễ và bảo tồn sự tinh tế, khác với các quy trình truyền thống liên kết các mô hình chuyển đổi giọng nói thành văn bản và văn bản thành giọng nói riêng biệt. gpt-realtime đã được đào tạo hợp tác với người dùng để xuất sắc trong các ứng dụng thực tế như hỗ trợ khách hàng, trợ lý cá nhân và giáo dục. Các đánh giá chuẩn cho thấy sự cải thiện đáng kể trong khả năng lý luận, tuân thủ hướng dẫn và độ chính xác trong gọi chức năng so với các mô hình trước đó.

Các cập nhật bổ sung bao gồm việc gọi hàm bất đồng bộ, cho phép các hoạt động kéo dài mà không làm gián đoạn các cuộc trò chuyện đang diễn ra, hỗ trợ thêm cho các trải nghiệm âm thanh liền mạch, sẵn sàng cho sản xuất.

OpenAI Mở Rộng API Thời Gian Thực Với Hỗ Trợ MCP, Đầu Vào Hình Ảnh, Tích Hợp SIP, Và Các Kiểm Soát Tiết Kiệm Chi Phí Cho Đại Lý Giọng Nói

API thời gian thực của OpenAI hiện bao gồm các tính năng mới được thiết kế để đơn giản hóa việc tích hợp và mở rộng khả năng cho các tác nhân giọng nói sẵn sàng cho sản xuất. Các nhà phát triển có thể kích hoạt hỗ trợ MCP từ xa bằng cách liên kết một phiên với URL máy chủ MCP, cho phép API tự động quản lý các cuộc gọi công cụ và truy cập các chức năng bổ sung mà không cần thiết lập thủ công.

Mô hình gpt-realtime hiện hỗ trợ đầu vào hình ảnh, cho phép hệ thống tích hợp ảnh, ảnh chụp màn hình và các hình ảnh khác bên cạnh âm thanh hoặc văn bản. Điều này cho phép người dùng đặt câu hỏi cụ thể theo ngữ cảnh về những gì họ thấy, trong khi các nhà phát triển vẫn kiểm soát hình ảnh nào được chia sẻ và khi nào.

Các cải tiến bổ sung bao gồm hỗ trợ Giao thức Khởi tạo Phiên (SIP) để kết nối các ứng dụng với mạng điện thoại và hệ thống PBX, cũng như các lời nhắc có thể tái sử dụng cho phép các nhà phát triển lưu và triển khai các hướng dẫn, công cụ và tin nhắn mẫu đã được cấu hình trước qua nhiều phiên.

API Realtime và mô hình gpt-realtime hiện đã có sẵn cho tất cả các nhà phát triển, với mức giá giảm 20% so với gpt-4o-realtime-preview trước đó. Các điều khiển mới cho ngữ cảnh cuộc trò chuyện cho phép quản lý token thông minh hơn, giảm chi phí cho các phiên làm việc dài. Tài liệu, một Playground để thử nghiệm, và hướng dẫn nhắc nhở API Realtime có sẵn để hỗ trợ các nhà phát triển trong việc áp dụng những tính năng này.

GPT15.08%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)