Meta, yeni inqilabi modeli SAM Audio-nu təqdim edib!

Meta, audio emal sahəsində yeni bir model olan SAM Audio-nu təqdim edib. Vizual dünyada Segment Anything Model (SAM) ilə tanınan Meta, indi audio dünyasına oxşar bir yanaşma gətirir. SAM Audio, multimodal girişlərdən istifadə edərək istənilən səsi mürəkkəb audio qarışıqlarından təcrid etməyə imkan verir. Bu metod, insanların səsi necə qəbul etdiyini təqlid edir və səs ayrılmasını həm daha əlçatan, həm də faydalı edir.

Ənənəvi audio redaktə vasitələrindən fərqli olaraq, SAM Audio istifadəçilərə mətn əmrləri, vizual işarələr və ya vaxt qurşağı spesifikasiyası kimi təbii metodlardan istifadə edərək qarşılıqlı əlaqə qurmağa imkan verir. Bu texnologiya, məsələn, konsert videosundakı gitara səsini sadəcə üzərinə klikləyərək təcrid etməyi və ya sadə mətn əmri ilə podkast yazısından it hürüşünü silməyi mümkün edir. Meta bildirir ki, SAM Audio öz növündə ilk, birləşdirilmiş və multimodal süni intellekt modelidir. Modelin mərkəzində SAM Audio-nun təkmilləşdirilmiş performansını təmin edən texniki mühərrik olan Perception Encoder Audiovisual (PE-AV) dayanır. Əvvəllər açıq mənbəli modelin təkmilləşdirilmiş versiyası olan PE-AV, vizual və eşitmə məlumatlarını zaman oxu boyunca uyğunlaşdırır və yüksək dəqiqlikli çoxrejimli audio seqmentləşdirməyə imkan verir. Bu, ekranda dinamiklər və ya alətlər kimi vizual olaraq diqqət çəkən mənbələri asanlıqla təcrid etməyə imkan verir və hətta səhnə kontekstinə əsasən ekrandan kənar hadisələri proqnozlaşdırır.

Audio Redaktəsində Yeni Bir Dövr

SAM Audio üç fərqli metoddan istifadə edərək audio seqmentləşdirmə təklif edir: mətn əsaslı, vizual əsaslı və zaman diliminə əsaslanan. Məsələn, istifadəçilər “it hürüşməsi” və ya “vokal” kimi mətn daxil etməklə müəyyən səsləri təcrid edə bilərlər. Vizual işarələr videoda danışan insanlara və ya səs çıxaran obyektlərə klikləyərək səsi təcrid etməyə imkan verir. Zaman diliminə əsaslanan metod, podkastın bütün qeydindən it hürüşməsi kimi istənməyən səsləri süzgəcdən keçirməyə imkan verir.

Modelin arxitekturası axın uyğunlaşdırıcı diffuziya çeviricisi üzərində qurulmuş generativ çərçivədən istifadə edir. Bu struktur, audio qarışığı və girişləri ümumi təmsil sahəsinə kodlaşdıraraq hədəf və qalan audio parçaları yaradır. Təlim məlumatları həm real, həm də sintetik qarışıqlardan ibarətdir ki, bunlar nitq, musiqi və ümumi audio hadisələrini əhatə edir. Qabaqcıl məlumatların sintezi və avtomatlaşdırılmış multimodal sorğu generasiyası modelin real dünyada olduqca yaxşı işləməsini təmin edir.

Performans baxımından SAM Audio universal audio təhlilində mövcud modelləri üstələyir və eyni zamanda öz sahəsindəki ən yaxşı modellərlə müqayisədə üstündür. Qarışıq rejimli girişlərdən istifadə edərkən daha güclü nəticələr əldə edilir. Model 500 milyon ilə 3 milyard parametr arasında miqyaslanır və sub-real vaxt rejimində işləyir (RTF ≈ 0.7). Lakin, səsin özü sorğu kimi istifadə edilə bilməz və tamamilə sorğusuz təhlil mümkün deyil. Bundan əlavə, çox oxşar səsi təcrid etmək çətin olaraq qalır.