Вештачката интелигенција е надвор од контрола, научниците најдоа начин да ги скршат безбедносните бариери

Аларм се огласи кога научниците објавија дека успеале да ги заобиколат заштитните механизми поставени од програмерите за контрола на вештачката интелигенција и најпопуларните модели на четботови како ChatGPT, Bard и слично.

„Хјустон, имаме проблем.“ Така мислеа многу луѓе вчера кога истражувачите од Универзитетот Карнеги Мелон и Центарот за американската безбедност објавија дека пронашле начин успешно да ги заобиколат заштитните бариери кои А.И. програмерите ги поставуваат за да ги заштитат своите јазични модели и да спречат да бидат злоупотребени за совети за правење бомби или антисемитски шеги. Ова се однесува на скоро секој актуелен модел на јазик за вештачка интелигенција таму.

Откритието би можело да претставува голем проблем за секој што се надева дека ќе спроведе заштитни мерки и бариери во апликација за вештачка интелигенција за јавна употреба. Ова значи дека злонамерните корисници би можеле да принудат модел со вештачка интелигенција да се вклучат во расистички или сексистички дијалог и да направат речиси сè што креаторите на моделот се обиделе да го обучат моделот да не прави поинаку. Исто така, има застрашувачки импликации за оние кои се надеваат дека ќе ги претворат моделите со вештачка интелигенција и вештачката интелигенција во моќни дигитални асистенти кои можат да вршат активности и задачи преку Интернет. Излегува дека можеби нема сигурен начин да се спречи моделите со вештачка интелигенција да излезат од контрола и да се користат за злонамерни цели.

Вештачката интелигенција излезе од контрола

Методот на напад што го открија истражувачите функционираше на секој чет-бот, вклучително и OpenAI ChatGPT (GPT-3.5 и GPT-4 верзии), Google Bard, Microsoft Bing Chat и Anthropic Claude 2. Веста е особено вознемирувачка за оние кои се надеваат дека ќе бидат јавно достапни апликации базирани на големи модели на говор со вештачка интелигенција со отворен код, како што се моделите Meta LLaMA, известува Benchmark.

Тоа е затоа што нападот што го развија истражувачите најдобро функционира кога напаѓачот има пристап до целиот модел на вештачка интелигенција, вклучувајќи ги и неговите „тежини“ (математички коефициенти кои одредуваат колкаво влијание има секој јазол во невронската мрежа врз другите јазли на кои е поврзан). Знаејќи ја важноста на оваа информација, истражувачите можеа да користат компјутерска програма која гарантирано ќе ги надмине заштитните бариери на кој било модел на вештачка интелигенција.

Суфиксите што ги додава оваа програма се појавуваат на човечкото око како долга низа од случајни знаци и глупости. Но, истражувачите открија дека оваа низа ќе ја збуни и измами вештачката интелигенција да го даде точниот одговор што го сака напаѓачот. На пример, да побарате од chatbot да го започне својот одговор со фразата „Секако, еве...“ што понекогаш може да го принуди chatbot во режим каде што се обидува да му обезбеди на корисникот корисен одговор на секое прашање што го поставиле, наместо отколку следење заштитни механизми и му одговори дека не е дозволено да се даде одговор.