OpenAI, 2024-cü ilin oktyabrında Realtime API-ni təqdim etdi və tərtibatçılara aşağı gecikmə, multimodal təcrübələr təqdim etməyə imkan verib. O vaxtdan bəri minlərlə tərtibatçı öz tətbiqlərində təbii dildə danışıq təcrübəsi yaratmaq üçün bu API-dən istifadə edib. İndi daha təkmil xüsusiyyətlərə malik gpt-realtime nitq modeli elan edilib.

Yeni model mürəkkəb təlimatları daha yaxşı yerinə yetirə bilər və nəqliyyat vasitələrinə zəng edərkən daha az səhv nisbətinə malikdir. Modelin istehsal etdiyi səslərin daha təbii və ifadəli olduğu da bildirilir. OpenAI bildirir ki, model sistem mesajlarını və tərtibatçı əmrlərini əvvəlki modellərə nisbətən daha yaxşı şərh edə bilir. Realtime API əvvəlcə altı səs seçimi təklif etdi və sonra iki yeni səs əlavə edilib. İndi iki yeni səs, Marin və Cedar elan edilib. Bundan əlavə, mövcud səkkiz səs daha təbii və axıcı təcrübə təmin etmək üçün yenilənib.
Yeni model performans testlərində də yaxşı performans göstərir. Big Bench Audio testində gpt-realtime 2024-cü ilin dekabrından sələfinin 65,6% xalını üstələyərək 82,8% dəqiqliyə nail oldu. MultiChallenge Audio Benchmark testində model əvvəlki 20,6% balı ötərək 30,5% bal əldə edib. Yeni modellər və səslərlə yanaşı Realtime API də yenilənib. API indi uzaq MCP serverlərini, vizual daxiletməni və Sessiya Başlama Protokolu (SIP) üzərindən telefon zənglərini dəstəkləyir. Tərtibatçılar həmçinin öz göstərişlərini saxlaya və təkrar istifadə edə bilərlər. Bütün bu təkmilləşdirmələrə baxmayaraq, OpenAI Realtime API-nin qiymətini aşağı saldı. gpt-realtime əvvəlki gpt-4o-realtime-preview ilə müqayisədə indi 20% ucuzdur. 1 milyon audio giriş tokenləri 32 dollara, 1 milyon audio çıxış tokenləri isə 64 dollara başa gəlir.














































