Nvidia tədqiqatçıları təbii, problemsiz və real vaxtda səsin qarşılıqlı təsirlərini hədəfləyən yeni bir nitq modeli olan PersonaPlex-7B-v1-i elan ediblər. Tam dupleks arxitekturası ilə hazırlanmış bu model, söhbət əsnasında həm dinləmək, həm də danışmaq qabiliyyəti ilə klassik səs köməkçisi arxitekturalarından fərqlənir. PersonaPlex, xüsusilə təbii dialoq axını, dəqiq persona nəzarəti və aşağı gecikmə tələb edən istifadə hallarında fərqlənir. Ənənəvi səs köməkçiləri, cavab yaradan dil modeli olan ASR (nitqdən mətnə çevrilmə) və TTS (səs bərpası) komponentlərindən ibarət çoxmərhələli bir quruluşdan istifadə edirlər. Bu yanaşma hər mərhələdə gecikmələrə səbəb olur və danışmaq, kəsmək və ya təbii rəy kimi insan nitqinin əsas xüsusiyyətlərini eyni vaxtda dəstəkləmək üçün kifayət deyil.

PersonaPlex, eyni zamanda tək bir Transformator modeli daxilində həm nitq anlayışını, həm də nitq generasiyasını həyata keçirərək bu çoxqatlı zənciri aradan qaldırır. Model neyron kodeklə kodlanmış davamlı audio axını üzərində işləyir, eyni zamanda avtomatik reqressiv şəkildə mətn və audio tokenlər yaradır. İstifadəçinin səsi real vaxt rejimində işlənərkən, model eyni vaxtda öz nitqini davam etdirə bilər. Bu, fasilələrə, üst-üstə düşən nitqə və kontekstə uyğun rəyə imkan verir.
PersonaPlex iki paralel axından ibarət bir strukturdan istifadə edir: biri istifadəçinin səsini, digəri isə izləyici agent nitq və mətni izləyir. Hər iki axın eyni model vəziyyətini paylaşdığı üçün sistem danışarkən dinləməyə davam edə və istifadəçi müdaxilə etdikdə dərhal cavabını uyğunlaşdıra bilər. PersonaPlex-7B-v1 ümumilikdə 7 milyard parametrə malikdir və Moshi şəbəkə arxitekturasına əsaslanır. Model həm giriş, həm də çıxış tərəflərində 24 kHz səsi emal edə bilər. Dil model infrastrukturu Nvidia-nın Helium modelindən istifadə edir. Helium, modelin yalnız təlim ssenarilərində deyil, həm də yeni və gözlənilməz vəziyyətlərdə semantik ardıcıllığı qorumasını təmin edir. Lakin, PersonaPlex-in təlimi tək bir mərhələdə aparılıb və real söhbətlərin və sintetik dialoqların balanslaşdırılmış qarışığına əsaslanır. Real məlumatlar Fisher English Corpus-dan təxminən 1217 saatlıq söhbətdən ibarət 7303 telefon zəngindən ibarətdir. Bu söhbətlər persona və kontekst rəhbərliyi ilə GPT-OSS-120B istifadə edərək retrospektiv olaraq etiketlənib. Bu məlumat dəsti təbii fasilələr, doldurucu səslər, emosional reaksiyalar və rəylər kimi TTS ilə istehsal etmək çətin olan elementləri əlavə edir. Sintetik tərəfdə 39322 köməkçi dialoq (təxminən 410 saat) və 105410 müştəri xidməti dialoqu (təxminən 1840 saat) var. Mətnlər Qwen3-32B və GPT-OSS-120B tərəfindən yaradılıb və səsli yazılar Chatterbox TTS ilə aparılıb. PersonaPlex-7B-v1 MIT lisenziyası (kod) və Nvidia Open Model Lisenziyası (model çəkiləri) altında buraxılır. Biblioqrafiya bölməsindən əldə edə bilərsiniz.














































