Внутренний предохранитель: Метод SIREN блокирует вредный контент внутри LLM

Опубликовано: 22.04.2026 00:05

Проблема jailbreak-атак на нейросети требует изменения самой парадигмы защиты. 21 апреля 2026 года исследователи из Университета Торонто и LMU Munich представили на arXiv архитектуру `SIREN` (Safety From Within).

Вместо того чтобы фильтровать уже сгенерированный текст (что требует тяжелых внешних фильтров и увеличивает задержку), SIREN работает как легковесная guard-модель, встроенная напрямую во внутренние представления (internal representations) базовой LLM. Алгоритм отслеживает формирование потенциально опасных концептов еще до того, как они превратятся в токены. Это снижает вычислительную нагрузку и радикально повышает устойчивость модели к промпт-инъекциям. Метод идеально подходит для развертывания безопасных агентов в чувствительных B2B-сферах, включая банкинг и медицину.

Источник: arXiv

CybersecurityAI SafetySIRENLLMResearch

« Назад к списку новостей