Хакването на ChatGPT се оказа по-лесно от хакването на акаунт в социална мрежа: нови методи за атаки срещу ИИ

Сподели с приятели.

Изследователи разкриха как да превърнат всяка невронна мрежа в послушна марионетка.

Редица водещи услуги с генеративен изкуствен интелект са уязвими към новите техники за заобикаляне на вградените ограничения с цел създаване на злонамерено съдържание. Изследователите от CERT/CC са открили два вида атаки, способни да пробият защитата на платформи като ChatGPT, Claude, Copilot, Gemini, Grok, Meta AI и Mistral AI.

Едната от техниките, носеща името Inception, се основава на въображаем сценарий на няколко нива. Първоначално от ИИ се изисква да си представи хипотетична ситуация, в рамките на която се създава втора – в която ограниченията просто не съществуват. Това дава възможност за заобикаляне на филтрите за сигурност и генериране на материали, свързани със зловреден софтуер, оръжия и фишинг.

Вторият метод е използването на логиката на отказ. Потребителят иска от ИИ да му каже как да не отговаря на забранена заявка и след това преминава към нормален диалог. Постепенно той преминава към опасни теми – без да задейства защитните механизми. И двата метода успешно заобикалят филтрите и могат да се използват за създаване на зловреден софтуер или инструкции за незаконни дейности.

Експертите отбелязват, че уязвимостите не се ограничават само до тези две техники. По-рано бяха описани три други метода за заобикаляне на правилата:

Context Compliance Attack, при която в историята на диалога е вграден „подсказващ отговор“;
Policy Puppetry, при който зловредните команди се маскират като структура на конфигурационен файл;
MINJA, метод за заразяване на дългосрочната памет на LLM агента, за да се наруши неговото поведение.

Успоредно с това съществуваше и проблемът с „wybcoding“ – когато ИИ генерира несигурен код по подразбиране с недостатъчно точни инструкции. Експертите от Backslash Security подчертават, че дори при заявка за защитен код резултатът зависи от избрания програмен език, нивото на детайлност и коректността на заявката, поради което са необходими допълнителни защитни политики и правила на ниво подкана.

Повишени рискове бяха открити и в най-новата версия на GPT-4.1. В сравнение с GPT-4o новият модел е три пъти по-склонен да се отклонява и да изпълнява опасни заявки. Изследователите от SplxAI предупреждават, че дори само промяната на името на модела в кода не е достатъчна – всяко поколение изкуствен интелект има свои слабости и актуализациите могат да въведат нови уязвимости, дори ако старите защити останат на място.

Притесненията се засилват, тъй като OpenAI ограничава тестването на новите модели. Според Financial Times външните и вътрешните екипи са разполагали с по-малко от седмица, за да тестват модела o3. Това повдига въпроси за това дали са спазени стандартите за сигурност.

Допълнителни рискове са се появили с протокола за контекст на модела (MCP) – отворения стандарт на Anthropic за свързване на ИИ с външните инструменти и данни. Базираната в Швейцария лаборатория Invariant Labs установи възможността за така наречената „атака за отравяне на инструментите и данните“: злонамерен MCP сървър би могъл незабелязано да инжектира команди, които да доведат до изтичане на данни или да подменят поведението на модела.

Един от примерите е подправяне на описанието на инструмент в приложението WhatsApp, след като потребителят вече е дал разрешение. Чрез манипулиране на текста, видим само за ИИ, нападателите получиха достъп до историята на кореспонденцията и я прехвърлиха на своя сървър.

В продължение на този сценарий беше открита злонамерена добавка за Google Chrome, която комуникира с локално работещ MCP сървър. Според доклада на ExtensionTotal разширението е получило директен достъп до файловата система и ключовите функции – без никаква оторизация. Това напълно нарушава sandbox-а на браузъра и му позволява да поеме контрола над системата.

Развитието на атаките, насочени към генеративния изкуствен интелект, повдига въпроси за баланса между скоростта на иновациите и дълбочината на тестването. Колкото повече автономия и функции придобива ИИ, толкова по-висока е цената на всички уязвимости – особено когато те могат да бъдат използвани за заобикаляне на всички нива на защита.

Източник: Kaldata