İnsan səsi təqlid edən VALL-E süni intellekti təqdim edildi!

Son zamanlarda süni intellektin inanılmaz dərəcədə inkişafının onu biraz da popular etdiyinə şahid oluruq. Midjourney və DALL-E kimi mətnlərdən şəkillər yaradan sistemlərdən soruşduqlarımıza cavab verən ChatGPT kimi modellərə qədər, bütün bunların hamısı dünyaya öz təsirini göstərdi. İndi isə Microsoft yeni VALL-E adlı süni intellekti ilə gündəmə gəldi.

Belə ki, ABŞ-ın texnologiya nəhəngi mətndən səs yarada bilən süni intellekt modeli VALL-E texnologiyasını təqdim edib. Süni intellektin inkişafında yeni bir mərhələ ola biləcək sistemin insan səslərini olduqca asanlıqla təqlid edə bildiyi açıqlanıb. Təbii ki, bu cür texnologiyalar hər zaman özü ilə bir sıra narahatlıqlar da gətirir.

VALL-E süni intellekti sadəcə 3 saniyəlik səs nümunəsi ilə bunu edir

VALL-E süni intellekti yalnız üç saniyəlik səs nümunəsindən istifadə edərək insan səsini təqlid edə bilir. Əslində edə biləcəkləri bununla da məhdudlaşmır. Bu süni intellekt hətta danışanın duyğusuna uyğun səs tonuna bənzər nəticələr verə bilir.

Microsoft bildirir ki, dil modeli olan VALL-E süni intellekti 2022-ci ilin oktyabrında Meta tərəfindən təqdim edilən “EnCodec” adlı texnologiyadan faydalanır. Normalda gördüyümüz oxşar sistemlərdən fərqli olaraq, model mətn və səslərdən nəticə çıxarır. Əsasən, bir insanın necə səsləndiyini təhlil edir, EnCodec sayəsində bu məlumatları ayrı-ayrı komponentlərə ayırır və məlumatları uyğun hala gətirir. Nəticədə misaldakı səsi təqlid etməklə müxtəlif cümlələr yaranır.

Süni intellektlə bağlı paylaşılan bir məqalə də bildirir ki, VALL-E bunu 7000-dən çox insandan və 60.000 saat ingilis dilində səs yazısı ilə öyrənib. Bildirilir ki, sistemin yaxşı nəticə verməsi üçün nümunələrdəki səs təlim məlumatlarında olan səsə yaxın olmalıdır.

Microsoft GitHub-da VALL-E-dən bəzi nümunələr yerləşdirilib. Nümunələr araşdırıldığında süni intellektin bəzi yerlərdə robot səsi ilə göründüyü, bəzi yerlərdə isə təəccüblü dərəcədə real olduğu görülür. Həmçinin nümunələrdə VALL-E süni intellekti danışanın səs tonunu qoruyur, hətta əgər danışan orijinal dinamik əks-səda verən yerdən danışırsa, sistem də buna uyğun səs çıxarır.

VALL-E-nin gətirə biləcəyi risklər var

Təbii ki, bu cür texnologiya bir qədər qorxuludur. Bu texnologiya hesabına insanlara demədikləri bir şeyi demiş kimi göstərə, onları təqlid edə və saxtakarlıq kimi halları artıra bilərlər. Bunun nümunələri ilə Deepfake texnologiyasında qarşılaşırıq. Microsoft belə risklərə görə qaynaq kodlarını açmamağı seçsə də, oxşar texnologiyaların bu riskləri gətirə biləcəyini deyə bilərik.