Son illərdə süni intellekt sahəsində əldə edilən sürətli irəliləyişlərə baxmayaraq, mövcud yüksək səviyyəli modellərin mürəkkəb və nizamsız real dünya şəraitində hələ də kövrək olduğu ortaya çıxdı. Çin texnologiya nəhəngi Tencent tərəfindən dərc edilən yeni texniki məqalədə süni intellekt sistemlərinin kontekstdən öyrənmədə ciddi məhdudiyyətlərə malik olduğu və bunun praktik istifadəyə birbaşa təsir etdiyi vurğulanır. Beləliklə, Çin texnologiya nəhənginin fikrinə görə süni intellekt hələ də bir çox mövzuda əlaqəni başa düşməkdə çətinlik çəkir.

Tədqiqatçılar gələcəkdə süni intellekt modellərinin idarə olunan mühitlərdən kənara çıxa bilməsi üçün “kontekst öyrənməsi”nin model dizaynının mərkəzinə qoyulmalı olduğunu iddia edirlər. Tədqiqatçıların fikrincə, mövcud sistemlər lazımi məlumatlara daxil ola bilsələr də, konteksti düzgün şərh edə bilmədikləri üçün ardıcıl olaraq tapşırıqları yerinə yetirə bilmirlər. Tədqiqat insanlarla süni intellekt arasındakı əsas fərqi gündəlik nümunələrlə izah edir. Bir proqramçı əvvəllər heç görmədiyi bir alət üçün sənədləri tez bir zamanda skan edir və səhvlərini düzəldir, bir oyunçu qayda kitabçasını oxuyub oynayaraq yeni bir oyun öyrənir və ya bir alimin yüzlərlə eksperimental qeydi araşdıraraq yeni bir əlaqə kəşf etməsi bu fərqin konkret nümunələri kimi göstərilir. Tencent-ə görə, insanlar bu proseslərdə keçmişdə əzbərlənmiş sabit məlumatlara deyil, həmin anda qarşılaşdıqları kontekstə əsasən öyrənirlər. Bunun əksinə olaraq, mövcud böyük dil modelləri əsasən təlimdən əvvəlki dövrdə parametrlərinə daxil edilmiş məlumatları xatırlayırlar. Nəticə çıxarma mərhələsində onlar yeni məlumatları aktiv şəkildə öyrənmək əvəzinə, statik daxili yaddaşlarına güvənirlər.

Aparılan sınaqlarda uğurlu olma göstəricisi sadəcə 17%-dir
Tədqiqat bu vəziyyəti “struktur uyğunsuzluğu” kimi təsvir edir. Modellər artıq bildikləri şeylərə əsaslanaraq mühakimə yürütmək üçün optimallaşdırılır. Lakin istifadəçilərə daim dəyişən və parçalanmış kontekstlərdə problemləri həll edə bilən sistemlər lazımdır. Bu problemi ölçmək üçün Tencent tədqiqat qrupu CL-bench adlı yeni bir qiymətləndirmə meyarı hazırladı. 500 mürəkkəb kontekst, 1899 tapşırıq və 31607 validasiya meyarı üzrə cəmi 19 aparıcı süni intellekt modeli sınaqdan keçirildi. Bu tapşırıqlar modellərin “iş başında” öyrənmə qabiliyyətini, yəni müəyyən bir kontekstdən məna çıxarmaqla yeni vəziyyətlərə uyğunlaşma qabiliyyətini ölçməyi hədəfləyir.
Klassik bilik suallarına əsaslanan etalonlardan fərqli olaraq, CL-bench modeli hər bir tapşırığın spesifik konteksti ilə modeli təqdim edir. Bu yanaşma insanların necə öyrəndiyinə daha yaxındır. Bundan əlavə, onu davamlı öyrənmə modelləri ilə qarışdırmaq olmaz. Birində model öz çəkilərini daim yeniləyir, kontekstual öyrənmədə isə fundamental parametrlər dəyişməz qalır. Test nəticələri süni intellektin real dünya mürəkkəbliyində necə itirdiyini açıq şəkildə göstərir. CL-bench-də ən yaxşı 10 modelin orta uğur nisbəti cəmi 17,2% təşkil edib. Tədqiqat mövcud modellərin hələ də etibarlı kontekst öyrənənlər olmaqdan uzaq olduğunu vurğulayır. Digər tərəfdən, OpenAI-nin GPT-5.1 modeli ən yüksək balı 23,7% ilə əldə edib, ardınca Anthropic-in Claude Opus 4.5 modeli 21,1% ilə gəlir. Çin əsaslı modellər arasında ən yaxşı performansa Moonshot AI-nin Kimi K2 modeli nail olub və 17,6% ilə beşinci yerdə qərarlaşıb.
Lakin, yuxarıda qeyd olunan statistika “yaxşı” statistikadır. Hətta ən uğurlu model olan GPT-5.1 belə, kontekst verilmədikdə tapşırıqların 1%-dən azını həll edə bilər. Tədqiqat kontekst öyrənmənin yaxşılaşacağı təqdirdə insan-AI münasibətlərinin də dəyişəcəyini proqnozlaşdırır. Buna görə də, insanlar məlumat verən aktyorlardan modelə çevrilərək ən dəqiq və zəngin konteksti dizayn edən “kontekst təminatçıları”na çevrilə bilərlər.














































