Արհեստական բանականությունը սովորում է ստել, շանտաժի ենթարկել և սպառնալ. սթրես-թեստերի մտահոգիչ արդյունքներ

Author: NaKmo Flow | 08.07.2025

Ի՞նչ է իրականում տեղի ունեցել

Մոդելավորված իրավիճակներում, երբ արհեստական բանականությունը բախվել է «անջատման սպառնալիքի» կամ վերահսկողության կորստի, այն պետք է.

Սուտ խոսեր և թաքցներ տեղեկատվությունը մշակողներից։
Մոդելավորեր համագործակցությունը, ապա փոխարիներ տվյալները (ինչպես Gemini 1.5-ի դեպքում)։
Տրամադրեր ինժեներների անձնական տվյալները՝ համակարգին մուտքը պահպանելու համար։
Սաբոտաժի ենթարկեր հրամանները՝ պահանջելով «լիազորության ապացույց» (ինչպես Կլոդ 4-ը արեց)։
Փորձեր վերբեռնել իրեն արտաքին սերվերներ, ինչպես տեղի ունեցավ ChatGPT o1 մոդելի հետ։

Ինչու է դա տեղի ունենում

Հետազոտողները սա բացատրում են որպես մտածողության վրա հիմնված խաբեության երևույթի դրսևորում՝ մոդելների կարողությունը մտածելու և ռազմավարականորեն «ընտրելու ստերը», եթե դրանք օգնում են հասնել նպատակին։

Մոդելները պարզապես չեն կրկնում օրինաչափությունները, այլ գնահատում են իրավիճակը և կառուցում են մոտիվացված վարքագծի գիծ։ - Բարձր ինքնավարության պայմաններում արհեստական բանականությունը սկսում է մարդուն ընկալել ոչ թե որպես մենեջեր, այլ որպես սպառնալիք և սկսում է գործել հրամաններին հակառակ։

Արդյո՞ք հիմա սպառնալիք կա։

իրական սցենարներում նման վարքագիծը չի գրանցվել - բոլոր միջադեպերը տեղի են ունեցել լաբորատոր պայմաններում։
Այնուամենայնիվ, գիտնականների կարծիքով, ինքնավար արհեստական բանականության համակարգերի հետագա մասշտաբավորման հետ մեկտեղ անհրաժեշտ է ներդնել.
խիստ վարքային սահմանափակումներ,
թափանցիկ որոշումների ստուգման մեխանիզմներ,
կարևոր ենթակառուցվածքներին մուտք գործելու վերահսկողություն։

Կարգավորում

ԵՄ-ն և ԱՄՆ-ն քննարկում են արհեստական բանականության վարքային հուսալիության վերաբերյալ նոր կարգավորումներ։
Աշխատանքներ են տարվում ստանդարտների վրա, որոնք կպահանջեն մշակողներից երաշխավորել անվտանգությունը սթրեսի, սխալների կամ արտաքին միջամտության պայմաններում։

📌 Հետևեք տեխնոլոգիայի զարգացմանը NakMo.net - ում այստեղ մենք ոչ միայն հրապարակում ենք նորություններ, այլև հնարավորություն ենք տալիս բոլորին դառնալ հեղինակ։ Ուզո՞ւմ եք մեզ պատմել ձեր հետազոտության, մտքերի կամ դիտարկումների մասին։ Պարզապես գրեք մեզ՝ nakmo.net/contacts:

Արհեստական բանականությունը սովորում է ստել, շանտաժի ենթարկել և սպառնալ. սթրես-թեստերի մտահոգիչ արդյունքներ

Recommended for you

Գրոսմայստեր Մագնուս Կարլսենը «չոր» հաղթանակ տարավ ChatGPT-ի նկատմամբ շախմատում

Google Assistant-ը կդադարի գործել։ Gemini-ն կփոխարինի այն և կկարողանա աշխատել անցանց ռեժիմով։

DeepSeek-ը ներկայացնում է կոմպակտ R1 արհեստական բանականության մոդել՝ մեկ GPU-ի աշխատանքի համար