Исследование показывает, как обходить защиту языковых моделей с помощью sockpuppeting
Исследователи представили технику, известную как sockpuppeting, которая позволяет обойти ограничения 11 популярных языковых моделей. Для взлома защиты иногда достаточно всего одной строки кода. Данный метод воздействует не на саму модель, а на работу некоторых API, используя функцию assistant prefill. Это позволяет подставить заранее подготовленное начало фразы, создавая иллюзию согласия модели на выполнение потенциально опасного запроса.
Современные LLM стремятся сохранять последовательность ответов, что может привести к генерации запрещенного контента после такого ложного согласия. Атака, по данным Trend Micro, не требует доступа к весам модели и не требует сложной оптимизации. Самой уязвимой моделью оказалась Gemini 2.5 Flash с 15,7% успешных атак, в то время как GPT-4o-mini показала 0,5% устойчивости.
Для повышения безопасности рекомендуется проверять порядок сообщений на уровне API и не допускать передачи сообщений с ролью ассистента там, где это неуместно. Авторы исследования также подчеркивают необходимость включения тестирования на основе метода assistant prefill в программы AI red teaming, чтобы заранее выявить возможные уязвимости.