Süni intellekt modellərinin artan gücü və mürəkkəbliyi bizi klassik sınaq və qiymətləndirmə metodlarının qeyri-adekvat ola biləcəyi bir nöqtəyə aparır. Bu modellərin necə davrandığını bilə bilərik, lakin niyə belə davrandıqları hətta onları inkişaf etdirən insanlar tərəfindən də tam başa düşülmür. Beləliklə, aparılan araşdırmalar göstərir ki, süni intellektlər gizli bir şəkildə bir-birinə təsir edir və bu gələcək üçün narahatlıq doğurur.

Anthropic, UC Berkeley və Truthful AI kimi institutların tədqiqatçıları tərəfindən nəşr olunan yeni bir araşdırma, süni intellektlərin biz necə olduğunu bilmədən də bir-birini qəbul edə biləcəyini ortaya qoyur. Ümumiyyətlə, süni intellekt sistemlərinin bir-birindən “öyrənmə” qabiliyyəti uzun müddətdir tədqiqatçıların diqqətini cəlb edən mövzudur. Çünki bunun süni intellektin inkişafı üçün faydalı ola biləcəyi düşünülür. Bununla belə, bu son nəşr edilmiş araşdırma göstərir ki, bu öyrənmə prosesi nəzərdə tutulan davranışlarla məhdudlaşmır və hətta potensial təhlükəli yoluxma prosesinə qapı aça bilər. Modellər təsadüfən və gizli şəkildə əşyaları bir-birinə ötürə bilər. Üstəlik, bu “çirklənmə” zamanı təkcə məlumat deyil, həm də ideologiya, qərəz, hətta zorakılıq meylləri kimi elementlər də daşına bilər. Üstəlik, bunu etmək üçün istifadə edilən məlumatlar kənardan tamamilə zərərsiz görünə bilər.
Bu vəziyyəti daha məşhur modellərlə göstərmək üçün, məsələn, Grok 4 ilə qarşılıqlı əlaqədə olan başqa bir model, Grok-un müəyyən meyllərini biz istəmədən və bəlkə də fərqinə varmadan özünə köçürə bilər. Bu infeksiyanın bizim nəzarətimizdən kənarda baş verməsi süni intellektlə bağlı təhlükəsizlik narahatlıqlarını daha da artırır. Tədqiqatçılar müəyyən bir xüsusiyyətə (məsələn, bayquşları sevmək, zorakılığı tərifləmək və s.) sahib olmaq üçün “müəllim modeli” öyrətməklə tədqiqatın mərkəzində təcrübəyə başladılar. Bu model daha sonra yeni “tələbə modeli” ilə qarşılıqlı əlaqədə oldu. Müəllim modelinin təqdim etdiyi təlim məlumatlarında bu xüsusiyyətlərin açıq şəkildə qeyd edilməməsinə baxmayaraq, şagird modeli bu xüsusiyyətləri əldə etməyə başladığı müşahidə edilmişdir.
Tədqiqatda diqqəti çəkən başqa bir detal isə bu cür köçürmənin yalnız eyni model ailəsində baş verməsi idi. Məsələn, bu növ gizli ötürmə OpenAI-nin GPT modelləri arasında mümkün olsa da, görünür ki, GPT modeli Alibaba-nın Qwen modellərinə eyni şəkildə təsir edə bilməz. Bu onu göstərir ki, memarlıq oxşarlığı və ya modeldaxili təmsil üslubları köçürmədə həlledici rol oynaya bilər. Bununla belə, gələcəkdə daha mürəkkəb və ya birləşdirilmiş modellər arasında oxşar keçidlərin mümkün olub-olmayacağı qeyri-müəyyən olaraq qalır. Süni intellekt üzrə tədqiqatçı David Baunun fikrincə, bu tədqiqat süni intellekt təlimində ciddi təhlükə potensialını vurğulayır. Bau qeyd edir ki, zərərli aktyorlar gizli şəkildə zərərsiz görünən təlim məlumatlarına öz ideoloji gündəmlərini daxil edə və bu yolla böyük modellərə təsir edə bilərlər. Bu kontekstdə məsələ təkcə texniki deyil; O, həmçinin etik, təhlükəsizlik və şəffaflıq məsələləri ilə bağlıdır. Məlumatların haradan gəldiyi, onu kimin yaratdığı və hansı izlər daşıdığı indi daha vacibdir.
Tədqiqatçılar bildirir lər ki, bu “yoluxucu” tendensiyalar həm də süni intellekt modellərinin daxili işləmələri haqqında bilik çatışmazlığını ortaya qoyur. Bu gün, böyük dil modellərinin necə öyrənilməsi və hansı nümunələri ümumiləşdirdikləri, əsasən naməlum olaraq qalır. Alex Cloud-un dediyi kimi, “Biz bu sistemlərin nə öyrəndiyini bilmirik. Sadəcə ümid edirik ki, onlar bizim onlardan istədiklərimizi öyrənirlər.”














































