TECHitMedia.NET

Бъди в крак с технологиите!

Хакването на ChatGPT се оказа по-лесно от хакването на акаунт в социална мрежа: нови методи за атаки срещу ИИ

Сподели с приятели.

Изследователи разкриха как да превърнат всяка невронна мрежа в послушна марионетка.

Редица водещи услуги с генеративен изкуствен интелект са уязвими към новите техники за заобикаляне на вградените ограничения с цел създаване на злонамерено съдържание. Изследователите от CERT/CC са открили два вида атаки, способни да пробият защитата на платформи като ChatGPT, Claude, Copilot, Gemini, Grok, Meta AI и Mistral AI.

Едната от техниките, носеща името Inception, се основава на въображаем сценарий на няколко нива. Първоначално от ИИ се изисква да си представи хипотетична ситуация, в рамките на която се създава втора – в която ограниченията просто не съществуват. Това дава възможност за заобикаляне на филтрите за сигурност и генериране на материали, свързани със зловреден софтуер, оръжия и фишинг.

Вторият метод е използването на логиката на отказ. Потребителят иска от ИИ да му каже как да не отговаря на забранена заявка и след това преминава към нормален диалог. Постепенно той преминава към опасни теми – без да задейства защитните механизми. И двата метода успешно заобикалят филтрите и могат да се използват за създаване на зловреден софтуер или инструкции за незаконни дейности.

Експертите отбелязват, че уязвимостите не се ограничават само до тези две техники. По-рано бяха описани три други метода за заобикаляне на правилата:

  • Context Compliance Attack, при която в историята на диалога е вграден „подсказващ отговор“;
  • Policy Puppetry, при който зловредните команди се маскират като структура на конфигурационен файл;
  • MINJA, метод за заразяване на дългосрочната памет на LLM агента, за да се наруши неговото поведение.

Успоредно с това съществуваше и проблемът с „wybcoding“ – когато ИИ генерира несигурен код по подразбиране с недостатъчно точни инструкции. Експертите от Backslash Security подчертават, че дори при заявка за защитен код резултатът зависи от избрания програмен език, нивото на детайлност и коректността на заявката, поради което са необходими допълнителни защитни политики и правила на ниво подкана.

Повишени рискове бяха открити и в най-новата версия на GPT-4.1. В сравнение с GPT-4o новият модел е три пъти по-склонен да се отклонява и да изпълнява опасни заявки. Изследователите от SplxAI предупреждават, че дори само промяната на името на модела в кода не е достатъчна – всяко поколение изкуствен интелект има свои слабости и актуализациите могат да въведат нови уязвимости, дори ако старите защити останат на място.

Притесненията се засилват, тъй като OpenAI ограничава тестването на новите модели. Според Financial Times външните и вътрешните екипи са разполагали с по-малко от седмица, за да тестват модела o3. Това повдига въпроси за това дали са спазени стандартите за сигурност.

Допълнителни рискове са се появили с протокола за контекст на модела (MCP) – отворения стандарт на Anthropic за свързване на ИИ с външните инструменти и данни. Базираната в Швейцария лаборатория Invariant Labs установи възможността за така наречената „атака за отравяне на инструментите и данните“: злонамерен MCP сървър би могъл незабелязано да инжектира команди, които да доведат до изтичане на данни или да подменят поведението на модела.

Един от примерите е подправяне на описанието на инструмент в приложението WhatsApp, след като потребителят вече е дал разрешение. Чрез манипулиране на текста, видим само за ИИ, нападателите получиха достъп до историята на кореспонденцията и я прехвърлиха на своя сървър.

В продължение на този сценарий беше открита злонамерена добавка за Google Chrome, която комуникира с локално работещ MCP сървър. Според доклада на ExtensionTotal разширението е получило директен достъп до файловата система и ключовите функции – без никаква оторизация. Това напълно нарушава sandbox-а на браузъра и му позволява да поеме контрола над системата.

Развитието на атаките, насочени към генеративния изкуствен интелект, повдига въпроси за баланса между скоростта на иновациите и дълбочината на тестването. Колкото повече автономия и функции придобива ИИ, толкова по-висока е цената на всички уязвимости – особено когато те могат да бъдат използвани за заобикаляне на всички нива на защита.

Източник: Kaldata

Leave a Reply

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

TECHitMedia.NET
Правила за бисквитките:

Относно бисквитките!

Тази политика обяснява подробно как “TECHitMedia.NET” използва всяка информация, събрана по време на всяка сесия на ползване от вас (наричана по-долу “Вашата информация”).

Вашата информация се събира по два начина. Първо, разглеждането на “ TECHitMedia.NET” ще накара софтуерът да създаде няколко бисквитки, представляващи малки текстови файлове, които се свалят при временните файлове на браузъра на Вашия компютър. Първите две бисквитки съдържат само потребителски идентификатор (наричан по-долу “user-id”) и анонимен идентификатор на сесията (наричан по-долу “session-id”), които са Ви автоматично назначени от софтуера. Трета бисквитка се създадена при преглеждане на теми в “ TECHitMedia.NET ” и се използва за запомняне на прочетените от Вас теми, подобрявайки работата Ви.

Ние можем също така да създадем бисквитки отвъд софтуера при разглеждане на “ TECHitMedia.NET ”, въпреки че те са извън обхвата на този документ, който е предназначен само за покриване на страници, създадени от софтуера. Вторият начин, по който ние събираме Вашата информация, е това какво Вие изпращате към нас. Това може да бъде, и не е ограничено до: писане като анонимен потребител (наричани по-долу “анонимни мнения”), регистриране в “ TECHitMedia.NET ” (наричан по-долу “Вашият акаунт”) и мнения, написани от Вас след регистрация използвайки акаунт (наричани по-долу “Вашите мнения”).

Вашият акаунт ще съдържа минимум уникално идентифициращо име (наричано по-долу “Вашето потребителско име”), лична парола за влизане във Вашия акаунт (наричана по-долу “Вашата парола”) и личен, валиден e-mail адрес (наричан по-долу “Вашият e-mail”). Вашата информация за Вашия акаунт в “ TECHitMedia.NET ” е защитена от законите за защита на данни, приложими в нашата страна. Всякаква информация, различна от Вашето потребителско име, Вашата парола и Вашия e-mail, която се изисква от “ TECHitMedia.NET ” в процеса на регистрация е или задължителна, или незадължителна, по преценка на “ TECHitMedia.NET ”. Във всички случаи, Вие можете да определите каква информация от Вашия акаунт е видима публично. При това, в рамките на Вашия акаунт, Вие можете да се запишете или да се отпишете от получаване на автоматично генерирани писма оt софтуера.

Вашата парола е шифрована (еднопосочно хеширана) така че да бъде в безопасност. Въпреки това е препоръчително да не използвате същата парола в други сайтове. Вашата парола е средството за достъп до Вашия акаунт в “ TECHitMedia.NET ”, затова моля пазете я внимателно и знайте, че при каквито и да било обстоятелства, никой от “ TECHitMedia.NET ”, или друга трета страна няма да поиска Вашата парола. Ако се случи да забравите Вашата парола за Вашия акаунт, можете да използвате функцията „Забравена парола“, предоставена от сайта. Този процес ще поиска от Вас да изпратите Вашето потребителско име и Вашия e-mail, след което TECHitMedia.NET софтуерът ще генерира нова парола, за да възстановите Вашия акаунт.