Süni intellektin populyarlığı artdıqca, süni intellekt sistemlərini təlim edən datalar getdikcə tükənə bilər. Bu barədə tədqiqatçılar süni intellekt modellərinin, xüsusən də böyük dil modellərinin inkişafını ləngiyə biləcəyi və hətta süni intellekt inqilabında dəyişiklik olacağını güman edirlər.
Güclü, dəqiq və yüksək keyfiyyətli süni intellekt alqoritmlərini hazırlamaq üçün həqiqətən çoxlu məlumatlara ehtiyacımız var. Məsələn, ChatGPT dil modeli 570 giqabayt mətn məlumat və ya təxminən 300 milyard söz üzərində təlim keçmişdir.
DALL-E, Lensa və Midjourney kimi bir çox süni intellekt əsaslı modellərə baxdıqda isə 5,8 milyard şəkil-mətn setindən ibarət LIAON-5B verilənlər bazasının işlədildiyini görürük. Əgər alqoritm qeyri-kafi miqdarda məlumat üzərində öyrədilirsə, o, qeyri-dəqiq və ya keyfiyyətsiz nəticələr verəcəkdir. Əlavə olaraq təlim məlumatlarının keyfiyyəti də vacibdir. Sosial media yazıları və ya bulanıq fotoşəkillər kimi aşağı keyfiyyətli datalar əldə etmək asandır, lakin yüksək performanslı süni intellekt modellərini öyrətmək üçün uyğun deyil.
Sosial media platformalarından əldə edilən mətnlər qərəzli ola bilər və ya süni intellekt modeli tərəfindən dezinformasiya, qeyri-qanuni məzmunu ehtiva edə bilər. Məsələn, Microsoft Twitter məzmunundan istifadə edərək süni intellekt botunu öyrətməyə çalışdıqda, datalar bot irqçi və qadın cinsli nəticələr çıxarmağa başlamışdı.
Buna görə də süni intellekt tərtibatçıları kitab mətnləri, onlayn məqalələr, tədqiqat sənədləri və müəyyən filtrlənmiş veb məzmunu kimi yüksək keyfiyyətli məzmun axtarırlar. Keçən il nəşr olunan bir məqalədə bir qrup tədqiqatçı süni intellektlə öyrənmə meylləri davam edərsə, yüksək dəqiqlikdə mətn məlumatlarının 2026-cı ilə qədər tükənəcəyini proqnozlaşdırmışdı. Onlar həmçinin 2030-2050-ci illər arasında hətta aşağı keyfiyyətli dil məlumatlarının, 2030-2060-cı illərdə isə keyfiyyətsiz görüntü məlumatlarının tükənəcəyini hesablayıblar.
Süni intellekt modellərinin gələcəkdə necə inkişaf edəcəyi ilə bağlı çoxlu bilinməyənlər var və məlumat qıtlığı riskini aradan qaldırmaq üçün müxtəlif yollar təklif olunub. Ehtimallardan biri odur ki, süni intellekt tərtibatçıları onsuz da əldə etdikləri məlumatlardan daha səmərəli istifadə etmək üçün alqoritmləri təkmilləşdirəcəklər. Bəlkə də yaxın illərdə daha az məlumat və daha az hesablama gücündən istifadə edərək yüksək performanslı AI sistemlərini öyrətmək mümkün olacaq. Bu həm də süni intellektin karbon izini azaltmağa kömək edəcək. Vəziyyətin tam olaraq necə inkişaf edəcəyini isə zaman göstərəcək.