Çinli süni intellekt startapı olan DeepSeek, yeni bir açıqlama verərək, OpenAI, Meta və Anthropic kimi qabaqcıl süni intellekt şirkətlərinin modellərinə bənzər süni intellekt modeli öyrətdiyini bildirib. Bununla belə, Çinli şirkət məşhur süni intellekt nəhənglərinən 11 dəfə az emal gücü ilə süni intellekt modeli öyrətməyi bacarıb.
Deepseek, öz məqaləsində, DeepSeek-V3 Mixture-of-Experts (MoE) dil modelini sadəcə iki ayda 2048 Nvidia H800 GPU-dan ibarət klasterdən istifadə edərək 671 milyard parametr ( 2.8 milyon GPU) ilə öyrədib. Müqayisə üçün qeyd edək ki, 54 gün ərzində 16,384 H100 GPU-ya malik klasterdən istifadə edərək 405 milyard parametrli Llama 3-ü öyrətmək üçün Meta-ya 11 dəfə çox emal gücü (30,8 milyon GPU saatı) lazım olub. DeepSeek qabaqcıl boru kəməri alqoritmləri, optimallaşdırılmış kommunikasiya çərçivəsi və FP8 aşağı dəqiqlikli hesablamalardan istifadə etməklə bu miqyasda modellər üçün adətən tələb olunan hesablama və yaddaş tələblərini əhəmiyyətli dərəcədə azaltdığını iddia edir.
DeepSeek, DeepSeek-v3-ün emal tələblərini azaltmaq üçün onlarla optimallaşdırma texnikasını tətbiq etsə də, bir neçə əsas texnologiya onun təsirli nəticələrini təmin edib. DeepSeek hesablama və kommunikasiya mərhələlərində DualPipe alqoritmindən istifadə etdiyini, beləliklə də ötürmə xəttindəki səmərəsizliyi azaldığını deyir. DualPipe alqoritmi, xüsusilə TN arxitekturasının tələb etdiyi qovşaqlararası ekspert paralelliyi üçün təlim darboğazlarını minimuma endirib və bu optimallaşdırma klasterə ilkin təlim zamanı sıfıra yaxın rabitə yükü ilə 14,8 trilyon tokeni emal etməyə imkan verib. DualPipe tətbiqindən əlavə, DeepSeek rabitədə iştirak edən qovşaqların sayını məhdudlaşdırmaq üçün hər bir nişanı maksimum dörd qovşaqla məhdudlaşdırmışdır.
Performans baxımından isə şirkətin iddiasına görə DeepSeek-v3 MoE dil modelinin göstəricidən asılı olaraq GPT-4x, Claude-3.5-Sonnet və LLlama-3.1 ilə müqayisə edilə bilən və ya daha yaxşı performansı var. Lakin bu iddialar üçüncü şəxslər tərəfindən sübuta yetirilməlidir. Şirkət modeli və çəkiləri açıq mənbə ilə təmin etdiyi üçün bu müqayisə testləri yaxında ortaya çıxacaq.