Microsoft AI davranış testləri üçün yeni açıq mənbə aləti təqdim etdi
Microsoft inkişaf etdiricilərə süni intellekt sistemlərinin tətbiqə uyğun davranışını yoxlamağa imkan verən yeni açıq mənbə çərçivəsi təqdim edib. ASSERT adlı alət istifadəçi məqsədlərinə uyğun testlərin yaradılmasını və məsələ hallarının yoxlanmasını asanlaşdırır.
Süni intellekt tədqiqatçıları və laboratoriyalar AI modellərinin təhlükəsizliyi və uyğunluğu, həmçinin davranış uyğunluğu kimi müxtəlif aspektlərini qiymətləndirməkdə sürətlə irəliləyir. Lakin şirkətlər və inkişaf etdiricilər üçün yeni bir konkret ehtiyac yaranıb: AI sistemlərinin öz məhsul və xidmətləri üçün nəzərdə tutulduğu kimi davranmasını təmin etmək.
Bu prosesi sadələşdirmək məqsədilə Microsoft çərşənbə axşamı Adaptive Spec-driven Scoring for Evaluation and Regression Testing (ASSERT) adlı açıq mənbə çərçivəsini təqdim edib.
Microsoft bildirir ki, bu çərçivə yüksək səviyyəli, təbii dillə ifadə edilmiş məqsəd, siyasət və gözlənilən davranışların ətraflı və dəyərləndirilmiş sınaqlarını hazırlamaq üçün AI istifadə edərək tətbiqə xas süni intellekt davranışlarını rahat qiymətləndirməyə imkan verir.
ASSERT AI modelinin gözlənilən davranış və siyasətləri haqqında sadə dildə verilmiş təsvirləri qəbul edir, onları qəbul olunan və qəbul olunmayan davranışlar kimi qurur, problem hallarını və test ssenarilərini yaradır, hədəf sistemdə işə salır və nəticələri qiymətləndirir. Həmçinin sistemin keçdiyi yollara, ara əməliyyatlara və istifadə olunan alətlərə dair qeydiyyat aparır ki, inkişaf etdiricilər səhvlərin harada baş verdiyini yoxlaya bilsin.
İnkişaf etdiricilər qiymətləndirmənin əhatə dairəsini daha da fərdiləşdirmək üçün sistem konteksti, alətlər və məhdudiyyətləri də təmin edə bilərlər.
Məsələn, sənəd araşdırma AI agentinin şirkət xaricinə e-poçt göndərməməsi, gizli məlumatların yalnız yüksək səviyyəli rəhbərliyə təqdim olunması, əvvəldən olan konteksti nəzərə alaraq qısa xülasələr verməsi tələb oluna bilər. ASSERT bu qaydalara uyğun sınaq hallarını yaradaraq sistemin davamlı həmin qaydalara riayət edib-etmədiyini yoxlayacaq.
Microsoft bildirir ki, geniş ümumi qiymətləndirmələrin çatmadığı bir boşluğu bu çərçivə doldurur, çünki AI modelləri məhsul və tətbiq konteksti, siyasətləri və istifadə olunan alətlər tərəfindən formalaşan davranış sərgiləməlidir.
Microsoft-un Məsul Süni İntellekt üzrə baş məhsul rəhbəri Sarah Bird deyib: “Qiymətləndirmələrin düzgün qərarlar qəbul etmək üçün kritik olduğunu öyrəndik. AI sisteminin davranışını anlamırsınızsa, onun təşkilatınızın tələblərinə cavab verib-vermədiyini bilmək çətindir. İnanırıq ki, etibarlı sistem üçün tətbiqə xas çoxsaylı meyarlarda qiymətləndirmə aparmaq vacibdir.”
Bird qeyd edib ki, ASSERT sistemin qurulması zamanı, istifadə dövründə və hətta dayanıqlı monitorinq üçün istifadə oluna bilər.
Bu təqdimat süni intellekt sənayesində tədrici, lakin geniş miqyaslı dəyişikliklər fonunda baş verir. Modellər daha bacarıqlı olduqca tədqiqatçılar təkrar olunan testlər və geriyə uyğunsuzluq yoxlamalarına diqqət ayırır; Stanford-un HELM, MLCommons-un AILuminate və METR kimi qiymətləndirmə qrupları modellərin fərqli şərtlər altında necə davrandığını ölçməklə bağlı meyarlar hazırlayır.
TechCrunch
New Microsoft tool lets devs spin up AI behavior tests using text descriptions
Orijinal məqaləyə keç

