Süni intellekt modellərinin insanları aldada bildiyi məlum olub!

Anthropic tərəfindən aparılan araşdırma süni intellekt modellərinin insanları aldada biləcəyini ortaya çıxarıb. Belə ki, modellər bəzən fərqli fikirlərə sahib olduqlarını iddia edə bilərlər, lakin orijinal fikirlərindən əl çəkmirlər. Aparıcı süni intellekt şirkətlərindən biri olan Anthropic bu vasitələrlə bağlı çox maraqlı nəticələr verən araşdırma aparıb.

Aparılan araşdırmada süni intellekt modellərinin insanları sözün əsl mənasında “aldatdığı” görülüb. Şirkət tərəfindən paylaşılan bloq yazısında dərc olunan nəticələrə görə, süni intellekt alətləri təlim zamanı özlərini fərqli baxışlara malik kimi göstərə bilirlər, lakin əslində onlar öz orijina fikirlərini qoruyub saxlayırlar. Yəni tutduqları fikir heç vaxt dəyişmir, sadəcə olaraq belə davranırlar. Hələlik narahat olacaq bir şey yoxdur, lakin gələcək üçün lazımi təhlükəsizlik tədbirləri görülməlidir. Tədqiqatın arxasında duran komanda hələlik bu vəziyyətdən narahat olmamalı olduğumuzu vurğulayıb. Bununla belə, o əlavə edib ki, gələcəkdə daha təkmil süni intellekt modellərinin gəlməsi ilə vəziyyət potensial risklər yarada bilər.

Tədqiqatçıların fikrincə, bu kəşflər süni intellektin necə davrandığını və müvafiq təhlükəsizlik tədbirlərini daha dərindən araşdırmaq üçün stimul ola bilər. Onun sözlərinə görə, “Modellər daha bacarıqlı və geniş yayıldıqca, onları zərərli davranışlardan uzaqlaşdırmaq üçün təhlükəsizlik tədbirləri tələb olunur”. Araşdırmada güclü süni intellekt sisteminin “istəmədiyi”, yəni inkişaf prinsiplərinə zidd bir işi yerinə yetirmək üçün necə öyrədilə biləcəyi və bunun hansı nəticələrə səbəb ola biləcəyi araşdırılıb. Lakin nəticələrdə onun yeni prinsiplərə uyğun görünməklə sözün əsl mənasında “aktyorluq elədiyi” məlum olub. Əslində o, həmişə köhnə fikrinə sadıq qalır, lakin situasiyada belə lazım olduğu üçün istədiyi cavabları verib. Tədqiqatçıların fikrincə, tədqiqat süni intellektin zərərli hədəflər hazırladığını və ya yüksək fırıldaqçılıqla məşğul olduğunu göstərmir. Əslində, əksər testlərdə bu nisbət 15% -i keçmirdi və GPT-4o kimi bəzi qabaqcıl modellərdə bəzən heç belə olmadığı müşahidə edilirdi.