Çinin süni intellekt şirkəti Deepseek, mətn əsaslı sənədləri daha səmərəli emal etmək üçün hazırlanmış yeni OCR (Optik Xarakter Tanıma) sistemi ilə diqqəti cəlb edir. Şəkil əsaslı mətni sıxaraq, sistem AI modellərinə yaddaş məhdudiyyətləri ilə qarşılaşmadan daha uzun sənədləri emal etməyə imkan verir.

Deepseek-in texniki hesabatına görə, bu sistem mətn məlumatlarını birbaşa emal etməkdənsə, şəkil formasında təhlil edir. Bu yanaşma emal xərclərini əhəmiyyətli dərəcədə azaldır. Yeni OCR sistemi məlumatın 97 faizini saxlayaraq mətni 10 dəfəyə qədər sıxışdıra bilir. Məlum olduğu kimi, böyük dil modelləri mətni token kimi təqdim edir, hər bir işarə bir neçə simvoldan ibarətdir. Qısa sözlər adətən bir işarə ilə (“the”, “it”) təmsil olunur, daha uzun sözlər isə çoxlu işarələrə bölünə bilər (“bölünməz” → “ind”, “iv”, “isible”). Tədqiqatçılar uzun sənədləri və milyonlarla tokeni aşan söhbətləri emal edə bilən modellər hazırlamaq üzərində işləyirlər. Bu onlara kontekst pəncərəsini böyük saxlamağa imkan verir. Bununla belə, eyni vaxtda emal edilə bilən tokenlərin sayı artdıqca hesablama xərcləri də artır. Buna görə də, böyük nişan tutumu modelin hətta uzun sənədlər üçün yaddaşın tükənməməsini təmin edir, lakin bu, xərcləri artırır. Deepseek-in OCR həlli isə çox uzun məzmunu sanki bir şəkil kimi emal edir. Bu yolla məzmun əsasən piksel kimi görünür.

Sistemin nüvəsi iki əsas komponentdən ibarətdir: DeepEncoder və Deepseek3B-MoE. Təsvirin işlənməsini idarə edən DeepEncoder 380 milyon parametrlə işləyir. Mətn yaratmaq üçün məsul olan Deepseek3B-MoE 570 milyon aktiv parametrə malikdir. DeepEncoder özündə Meta-nın 80 milyon parametrli SAM (Segment Anything Model) sistemini və OpenAI-nin 300 milyon parametrli CLIP modelini birləşdirir. Aralarındakı 16x kompressor, emal sürətini artıraraq, görüntü məlumatlarını əhəmiyyətli dərəcədə azaldır. Məsələn, 1024 x 1024 piksel təsvirdəki 4096 token sıxılmadan sonra cəmi 256 tokenə endirilir. Deepseek OCR, qətnamədən asılı olaraq 64 ilə 400 arasında “görmə nişanı” ilə işləyə bilər. Bu rəqəm əməliyyatları ənənəvi OCR sistemlərində adətən minlərlə token tələb edən əməliyyatlardan xeyli yüngülləşdirir. OmniDocBench testlərində sistem yalnız 100 görmə tokenindən istifadə etməklə GOT-OCR 2.0-ı üstələyib. O, həmçinin 800 tokenin altında işləyərkən 6000-dən çox token tələb edən MinerU 2.0-ı keçib. Müxtəlif sənəd növləri üçün optimallaşdırılmış sistem sadə təqdimatlar üçün 64 token, kitab və hesabatlar üçün 100 token və “Gundam rejimi” adlı xüsusi rejimdə mürəkkəb qəzetlər üçün 800 tokendən istifadə edir. Deepseek OCR təkcə mətni deyil, həm də diaqramlar, kimyəvi düsturlar və həndəsi formalar kimi mürəkkəb vizual elementləri emal edə bilər. O, həmçinin təxminən 100 dildə işləyir, formatlaşdırmanı qoruyur və istəsən düz mətn və ya ümumi təsvir təsvirləri yarada bilər.

Sistemi öyrətmək üçün təxminən 30 milyon PDF səhifəsi istifadə edilmişdir. Bu məlumatların 25 milyonu ingilis və çin sənədləri, qalan məlumatlar isə 10 milyon sintetik diaqram, 5 milyon kimyəvi düstur və 1 milyon həndəsi formadan ibarət idi.














































