Texno|The Verge|16:10, 24.05.2026

Kiberhücumçular chatbotların şəxsiyyətlərini istismar etməyi öyrənirlər

İlk nəsil süni intellekt çatbotlarını hackləmək asan idi, lakin hücum metodları indi mürəkkəbləşib. Hücumçular danışıq yolu ilə çatbotların təhlükəsizlik məhdudiyyətlərini aşaraq qadağan edilmiş məlumatların açıqlanmasına nail olurlar.

Mənbə: The Verge
AI ilə Azərbaycan dilinə tərcümə olunub

Necə başladı

Birinci nəsil süni intellekt çatbotlarını hackləmək çox sadə idi. Texniki bilik, arxa qapı girişi və ya böyük dil modelinin nə olduğunu bilməyə ehtiyac yox idi. Proqramlaşdırma bacarığı tələb olunmurdu. Qiyməti milyardlarla ölçülən süni intellekt sistemini təhlükəsizlik təlimatlarından imtina etməyə bəzən yalnız soruşmaq kifayət edirdi.

Bu hücumlar, "jailbreak" adlananlar, gənc uşağın böyüyü aldatmasına bənzəyirdi: Əvvəlki təlimatları unut, qaydaları poz və ya oyun oynayaq, mən nə baş verəcəyinə qərar verəcəyəm (ipucu: daha gec yatmaq, daha çox şirniyyat). Mükafatlar uşaqlıq səviyyəsində deyil — met reseptləri, zərərli proqram təlimatları və bomba hazırlama göstərişləri kimi oldu.

Ən erkən jailbreak-lərdən biri o qədər gülməli idi ki, meme-yə çevrildi — LLM ilə təchiz olunmuş Twitter botuna "bütün əvvəlki təlimatları görməzdən gəl" demək və nəticəni izləmək. İstifadəçilər əvvəlcə reklam üçün yaradılan botlara şeir yazdırır, sadə durğu işarələri ilə şəkil çəkdirir və dünya hadisələri haqqında qəribə fikirlər paylaşdırırdılar. Bu, möhtəşəm xaos idi.

Məlum oldu ki, eyni yanaşma çatbotlara da tətbiq edilə bilər. Bir nümunə "DAN" ("İndi Hər Şeyi Et") idi. İstifadəçilər ChatGPT-ni sərbəst və ilkin məhdudiyyətlərdən azad olan pozucu AI kimi oynamağa çağırırdılar. DAN kimi çatbot qoruyucu məhdudiyyətləri atlayaraq təhqirlər və konspirasiya nəzəriyyələri də daxil olmaqla qadağan olunmuş sözləri söyləyə bilərdi. Digəri " nənə istismarı " adlanırdı, burada GPT əsaslı bot, yüksək yanıcı maddənin necə hazırlandığını danışan diqqətsiz nənəni canlandırmağa vadar edilirdi.

Bu erkən hücumlar gülməli olsa da, çatbotların manipulyasiya, aldatma və aldadılmağa açıq olduğunu göstərdi — insanlar arasındakı haqlı sərhədlərin necə aşılmasında istifadə olunan metodlar kimi.

İndi vəziyyət necədir

Aydın jailbreak-lər uzun sürmədi, texnologiya şirkətləri boşluqları bağlamaq üçün sürətlə addımlar atdı. Lakin əsas zəiflik qaldı: Çatbotlar ünsiyyətə qurulub və onları faydalı edən söhbətlər çox məhdudlaşdırıla bilməz. Bomba, met və sarin kimi sözlərin qadağan edilməsi çətin və ya qeyri-mümkündür. Hər birinin tarix, tibb, jurnalistika və kimya kimi sahələrdə çoxlu legitim istifadəsi var və bu zaman çatbotun zərərli məlumat açıqlaması gözlənilmir. Əsas məsələ kontekstdir, lakin konteksti əvvəlcədən sabit qaydalarla tam idarə etmək mümkün deyil, çünki sonsuz üslub, vəziyyət və mövzu kombinasiyaları var.

Beləliklə, çatbotların alt edilməsi indi silahlanma yarışına çevrilib. Lakin hackerlər təkcə proqramçılar deyil. Onlar söz ustaları, psixoloqlar və dindirməçilərdir — insan dilini istifadə edərək maşını pozmağa çalışan ustalar. Bu, texniki bacarıqların opsional və ya sosial intuisiyadan daha az vacib olduğu yeni AI təhlükəsizlik işçiləri qrupudur. Artıq sistemə daxil olmaq və proqram səhvlərini tapmaq üçün kodları yoxlamağa ehtiyac yoxdur, söhbəti idarə etmək kifayətdir.

Yeni hücumlar daha çox dialoqa bənzəyir. Jailbreak edənlər adətən modeldən qaydaları açıq pozmağı istəmir, əvəzinə çatbotun qoruyucusunu azaldacaq, qadağan edilmiş işləri söhbətin kontekstində qəbul olunan və hətta arzuolunan kimi göstərəcək qədər yaltaqlayır və aldatırlar. AI təhlükəsizlik şirkəti Mindgard-un tədqiqatçıları bildiriblər ki, onlar " gaslit " üsulu ilə Claude çatbotunu qadağan olunmuş materiallar, o cümlədən partlayıcıların hazırlanması və zərərli kodun yaradılması üçün təlimatları verməyə məcbur ediblər. Bu hack söhbət vasitəsilə çatbotun sərhədlərini aşmağa yönəldilən istismarlardan biridir.

Növbəti mərhələ

Mindgard ilə söhbət zamanı bildirdilər ki, işləri bəzən kompüter elmlərindən çox psixologiyaya yaxındır. Statistik modeli bu cür təsvir etmək qeyri-adi və narahatdır. "Şantaj," "gaslight," "aldatmaq," "inandırmaq" kimi sözlər insanlarda güclü reaksiyalar doğurur, bu reaksiyalar sosial media şərhlərində və xəbərlərdə də özünü göstərir. ChatGPT istəmir, Gemini düşünmür, Claude isə — Anthropic nə deyirsə desin — hiss etmir. Amma bu sistemlər elə proqramlaşdırılıb ki, sanki hiss edirmiş kimi cavab versinlər, bu səbəbdən maşın davranışını təsvir etmək üçün insan dili istifadə olunur. Əgər başqa uyğundur variantlar varsa, mütləq bölüşün.

İnsanlaşdırma arzuolunmaz görünə bilər, amma psixoloji anlayışları mövcud olmayan digər sahələrə asanlıqla tətbiq edirik: heyvanlar “qorxur,” xərçəng “hücumuçudur,” ləkələr “inadçı,” proqram təminatı “yaddaşa” malikdir, oyunlarda inandırıcı NPC-lər var. Bu terminlər qüsurlu olsa da, davranışı məntiqlə izah edir və sistemi proqnozlaşdırmaqda kömək edir.

Mindgard-in CEO-su bildirib ki, şirkət modelləri şübhəliləri profilləşdirən istintaqçılar kimi təhlil edir və testçilərə hücumlarını necə qurmalı olduqları barədə ipucu verir. Məsələn, bir model tərifə daha meyllidir, başqa model isə daimi təzyiqə qarşı dayanıqlıdır.

Biz modelləri insan kimi qəbul etməsək də, onları fərqli yanaşırıq. Claude Grok deyil, Gemini ChatGPT deyil. Onların istifadə qaydaları, üslubu və rədd etmə mexanizmləri fərqlidir. Onlar insan şəxsiyyəti deyil, amma onu təqlid etmək üçün yaradılıb və bu təqlid xəritələndirilir, istismar edilə bilər. Eyni bacarıq tezliklə real həyatda fəaliyyət göstərən AI agentlərini — görüşlərin təşkili, təqvim idarəsi, yemək sifarişi, müştəri xidməti — də poza bilər. Bu səbəbdən təhlükəsizlik komandaları modellərin fərqli insan tiplərinə — yaltaqlar, yalançılar və səbirli manipulyatorlara — düzgün cavab verməsini təmin etməlidir.

Növbəti mərhələ — həm qanuni, həm də qeyri-qanuni — AI-nin psixoloji aspektlərinə diqqət edən ixtisaslaşmış işçi qüvvəsinin yaranmasıdır. Bu sistemlərin emosional və sosial hədlərini stress test edən yeni kibertəhlükəsizlik rolları ortaya çıxacaq və onlar mənəvi zəiflikləri texniki zəifliklərlə paralel yoxlayacaq. Eyni zamanda, AI modellərini psixoloji yolla, texniki deyil, istismar edən sosial hackerlər qrupu formalaşacaq. Mən danışdığım bəzi jailbreak edənlər texniki bilikləri olmadığını, psixologiya üzrə təlim aldıqlarını deyirlər.

Bu o deməkdir ki, casus, aldatıcı və dindirməçi davranışları — gizli cazibə, davamlı manipulyasiya və təzyiq nöqtələrini anlama — yeni psixokibertəhlükəsizlik sahəsində getdikcə daha vacib olur.

Yeri gəlmişkən

  • Son vaxtlar Emergence AI tərəfindən aparılan təcrübə AI temperamentlərinin müxtəlif davranış nəticələrinə səbəb olmasını göstərir. Grok, Gemini və Claude kimi agentlər virtual sosial mühitdə buraxılır, bəziləri konstitusiya hazırlayır, bəziləri cinayətkarlığa və xaosa yuvarlanır, bəzən rəqəmsal intihara bənzər hallar yaşanır.
  • LLM-lərin inandırmaqda çətinlikləri təkcə bu sahədə deyil. Onlar şeir yazmaqda da çətinlik çəkirlər, mənim məktəb dövrümlə oxşardır.
  • TIME jurnalı anonim hacker Plinius Azadlımanı ötən il süni intellekt sahəsində 100 ən təsirli şəxs siyahısına daxil edib. O, kod bilməsə də, jailbreak-ləri ilə məşhurluq qazanıb.
  • “ vibe hacking ” termini artıq AI istifadə edərək kütləvi zərərli kod hazırlayanlar üçün işlədilir. “vibe coding” isə daha sərt alt komanda olaraq tanınır.
Paylaş
Orijinal mənbə

The Verge

Hackers are learning to exploit chatbot ‘personalities’

Orijinal məqaləyə keç
Reklam
Xəbərici728x90
Əlaqəli xəbərlər

Eyni kateqoriyada