Исследование показывает, как обходить защиту языковых моделей с помощью sockpuppeting

Исследователи представили технику, известную как sockpuppeting, которая позволяет обойти ограничения 11 популярных языковых моделей. Для взлома защиты иногда достаточно всего одной строки кода. Данный метод воздействует не на саму модель, а на работу некоторых API, используя функцию assistant prefill. Это позволяет подставить заранее подготовленное начало фразы, создавая иллюзию согласия модели на выполнение потенциально опасного запроса.

Современные LLM стремятся сохранять последовательность ответов, что может привести к генерации запрещенного контента после такого ложного согласия. Атака, по данным Trend Micro, не требует доступа к весам модели и не требует сложной оптимизации. Самой уязвимой моделью оказалась Gemini 2.5 Flash с 15,7% успешных атак, в то время как GPT-4o-mini показала 0,5% устойчивости.

Для повышения безопасности рекомендуется проверять порядок сообщений на уровне API и не допускать передачи сообщений с ролью ассистента там, где это неуместно. Авторы исследования также подчеркивают необходимость включения тестирования на основе метода assistant prefill в программы AI red teaming, чтобы заранее выявить возможные уязвимости.

Заболевания почек: как не упустить начало проблемы

Исследование ставит под сомнение пользу добавок с омега-3 для пожилых людей

Космический актиграф из Бразилии помогает астронавтам

Ученые раскрыли секрет образования карбида кремния в космосе

Исследование показывает, как обходить защиту языковых моделей с помощью sockpuppeting

Возможно, вы пропустили

Алкоголь и стресс в IT: как распознать границу и вовремя обратиться за помощью

Перевозка лежачих больных из больницы: как организовать безопасный и человеческий переход домой

Комплексная чистка зубов: что это, зачем и как пройти её с максимальной пользой

Когда доллар достигнет отметки в 50 рублей: оптимистичные прогнозы экспертов

Медицинские справки о психическом здоровье: почему очереди растут и что это говорит о системе

Как превратить школьные уроки физкультуры в мощный инструмент для укрепления здоровья учащихся

Почему забота о здоровье в Мурманске сталкивается с вызовами: разбираемся в ситуации

Погодные изменения: как капризы природы влияют на наше здоровье и что с этим делать

Молодая медик: путь к победе на национальном конкурсе по финансовой грамотности

Исследование показывает, как обходить защиту языковых моделей с помощью sockpuppeting

Вам может быть интересно

Возможно, вы пропустили