Baidu, ERNIE-4.5-VL-28B-A3B-Thinking adlandırılan yeni açıq mənbəli multimodal süni intellekt modelini təqdim edib. Çin texnologiya nəhəngi iddia edir ki, yeni model bir çox metrikada OpenAI-ın GPT-5 və Google-ın Gemini 2.5 Pro-nu üstələyir.

Çevik Apache 2.0 lisenziyası altında buraxılan model, ümumilikdə 28 milyard parametrə malik “Mütəxəssislər Qarışığı” arxitekturasından istifadə edir. Ümumilikdə 28 milyard parametrə malik olmasına baxmayaraq, hər dəfə yalnız 3 milyard aktivləşdirilir. Bu, yüksək performansı qoruyarkən hesablama xərclərini əhəmiyyətli dərəcədə azaldır. Baidu-ya görə, model VQA, MMBench və SEED-Bench kimi sənəd və qrafik anlama etalonlarında Gemini 2.5 Pro-nu üstələyir. Bu yüngül dizayn ERNIE-4.5-VL-ə oxşar tam parametrləşdirilmiş modellərdən iki-üç dəfə daha sürətli nəticə çıxarmağa imkan verir və xeyli az yaddaş istifadə edir. Modelin əsas yeniliyi olan “Vizuallarla Düşünmək”, təsvirlərin müəyyən bölgələrini böyütməyə, onları ayrı-ayrılıqda təhlil etməyə və bu yerli müşahidələri ümumi nəticəyə inteqrasiya etməyə imkan verir.
Baidu tədqiqatçıları uzun bir ara təlim prosesi vasitəsilə genişmiqyaslı vizual-linqvistik düşüncə məlumatlarından istifadə edərək modeli öyrətdilər. Təlimdə dinamik çətinlik nümunəsi üsulları ilə yanaşı, GSPO və IcePop kimi qabaqcıl gücləndirmə öyrənmə metodlarından istifadə edildi. Nəticədə, model vizual düşüncə, STEM problemlərinin həlli, vizual kontekstləşdirmə, alət istifadəsi və video anlayışında üstündür. Bu addım Çinin açıq mənbəli süni intellekt strategiyasını sürətləndirməsi ilə əlaqədardır. Son təhlillərə görə, Çin açıq mənbəli süni intellekt modellərinin yüklənməsində ABŞ-ı üstələyib. DeepSeek, Alibaba və Baidu kimi şirkətlər Qərb rəqiblərindən daha sürətli və daha aşağı xərclərlə güclü modellər hazırlaya biləcəklərini nümayiş etdirirlər. Bu, ödənişli API və qapalı modellər vasitəsilə gəlir əldə edən OpenAI və Anthropic kimi şirkətlərə təzyiq göstərir.














































