Süni intellekt onlayn nifrət nitqini aşkarlamaqda çətinlik çəkir
BMT-nin Nifrət Nitqinə Qarşı Beynəlxalq Günündə sosial şəbəkələrdə nifrət nitqinin artması və süni intellekt sistemlərinin bu məsələdə çatışmazlıqları araşdırılıb. Məlum olub ki, süni intellekt insan mühakiməsi ilə müqayisədə daha çox səhvlərə yol verir.
Əvvəllər şəxsən yayılan nifrət nitqi indi anonim onlayn hesablar vasitəsilə daha uzağa və sürətlə yayılır.
BMT iyunun 18-də qeyd olunan Nifrət Nitqinə Qarşı Beynəlxalq Gün çərçivəsində Baş katibi Antonio Guterres sosial platformaların təhdidi artırdığı barədə xəbərdarlıq edib.
Süni intellektin (AI) onlayn nifrət nitqini aşkar edib silməkdə artırılmış rolu fonunda Al Jazeera bu sistemlərin insan mühakiməsi ilə müqayisədə çatışmazlıqlarını araşdırıb.
Nifrət nitqi nədir?
BMT-nin məlumatına görə, nifrət nitqi ayrı-seçkilik yaradan və ya zorakılığa təşviq edən danışıq, yazı və ya davranış formasında olan hər hansı kommunikasiyadır.
BMT bildirir ki, nifrət nitqi bir şəxsin əsl və ya qəbul edilən kimliyinə, irqinə, etnik mənsubiyyətinə, dininə, cinsinə, cinsi yönümünə və ya əlilliyinə yönəlir. Bu yalnız sözlərlə məhdudlaşmır, həmçinin şəkillər, karikaturalar, jestlər və obyektlərdə də öz əksini tapır.
Onlayn nifrət nitqi neçə nəfərə təsir edir?
2023-cü ildə Ipsos və BMT-nin Təhsil, Elm və Mədəniyyət Təşkilatı (UNESCO) tərəfindən 16 ölkədə 8 min adam arasında aparılan sorğuya görə, internet istifadəçilərinin üçdə ikisindən çoxu onlayn nifrət nitqi ilə rastlaşıb.
Sorğu göstərib ki, insanların 33 faizi LGBTQI şəxslərinin ən çox nifrət nitqinə məruz qalmaqla üzləşdiyini düşünür. Sonrakı yerləri isə etnik və irq azlıqları (28 faiz) və qadınlar (18 faiz) tutur.
"Meta", Facebook-un sahibi olan şirkət, 2023-cü ildən bəri az sayda nifrət dolu paylaşımları silib. 2025-ci ilin sonuncu rübündə Instagram-dan 1,3 milyon, Facebook-dan isə 1,3 milyon paylaşımları silib. Halbuki 2024-cü ilin dördüncü rübündə müvafiq olaraq Instagram-dan 7,4 milyon, Facebook-dan isə 5,8 milyon post aradan qaldırılmışdı.
Bu, şirkətin nifrət nitqini qabaqcadan aşkarlanmasına ümumi etimadını azaldıb, daha çox istifadəçilərin məlumat verməsinə güvənməsi ilə bağlıdır.
Digər tərəfdən, TikTok bildirib
Süni intellekt modelləri nifrət nitqini müxtəlif cür aşkarlayır
Onlayn nifrət nitqinin yayılmasının qarşısını almaq üçün sosial media platformaları AI-a, böyük dil modelləri (LLM) əsasında işləyən məzmun nəzarət sistemlərinə üz tutur. Bu sistemlər böyük mesaj həcmini avtomatik süzməyi vəd edir.
Model və təlim məlumat bazaları vasitəsilə təhqiredici dili aşkar edən sistemlər sonra məzmuna nifrət dolu və hüquq pozuntusu olub-olmaması barədə ballar verir və bu əsasda qərar qəbul edirlər.
2025-ci ildə Pensilvaniya Universitetinin tədqiqatı sübut edib ki, bu modellər nifrət nitqini müəyyən etmədə və təsnif etmədə çox fərqli nəticələr verir. Sistemlər və demoqrafik qruplar arasında ciddi uyğunsuzluqlar mövcuddur və bu, önyarğı və qeyri-bərabər qorunma narahatlığı yaradır.
Tədqiqatda OpenAI, Anthropic, DeepSeek, Mistral və Google modelləri daxil olmaqla yeddi AI nəzarət sistemi qiymətləndirilib və nifrət nitqini tanıma və ballandırmada fərqliliklər aşkarlanıb.
Cədvəl göstərir ki, fərqli AI sistemləri eyni qruplara yönələn nifrət nitqinin şiddətini 0–1 diapazonunda müxtəlif qiymətləndirir. Daha yüksək bal modelin məzmunu daha nifrət dolu hesab etdiyini göstərir.
Mistral Moderation Endpoint çox hallarda 1-ə yaxın bal verir, yəni hədəf qruplardan asılı olmayaraq bir çox nümunələri yüksək nifrət dolu kimi qiymətləndirir.
OpenAI Moderation Endpoint isə bir çox kateqoriyada daha aşağı ballar verir, bəzən digər modellərin verdiyi balın yarısından da az olur.
Tədqiqatçıların sözlərinə görə, “Əgər iki sistem eyni məzmuna fərqli qiymət verirsə – biri nifrət nitqi kimi işarələyir, digəri yox – bu nəzarət prosesinin qanuniliyini sarsıdır.”
Süni intellektin nifrət nitqini aşkarlamadakı məhdudiyyətləri
AI sistemləri açıq nifrət nitqini müəyyən etməkdə bacarıqlı – məsələn, müəyyən qrup əleyhinə söyüş və təhqir olduqda –, amma daha incə nümunələr LLM-lərdən yayınır.
Londonun Queen Mary Universitetinin dosenti, Sosial Məlumat Elmi laboratoriyasının həmtəşəbbüskarı Arkaitz Zubiaga Al Jazeera -ya deyib: “Dəqiq müəyyən etmək çətin olan nümunələrdən biri dolayı nifrət nitqidir. Burada təhqir olmur, ona görə də aşkarlanması çətindir. Məsələn, “Dünyanın necə gözəl olacağını görmək istərdim, əgər…” kimi pozitiv görünsə də, ardınca müəyyən qrupun aşağılanması gəlir. AI sistemləri bu halda nifrəti görməkdə çətinlik çəkir, əgər onlar mesajın müsbət tərəfinə diqqət yetirirsə.”
Zubiaga əlavə edib ki, əksinə, görünüşcə təhqiredici sözlər, indi isə sevgi ifadəsi kimi istifadə olunursa, onları da nifrət nitqi kimi göstərmək meyli vardır.
“Tarixən təhqir sayılan sözlər aşağılanan icmalar tərəfindən mənimsənilərək istifadə olunur, slurs isə icma üzvləri arasında işlədilir. Bu hallarda nifrət dolu işarələnməməlidir, lakin AI sistemləri buna meyillidir,” – o əlavə edib.
Al Jazeera
Why do AI models struggle with online hate speech detection?
Orijinal məqaləyə keç


