Вместо того чтобы фильтровать уже сгенерированный текст (что требует тяжелых внешних фильтров и увеличивает задержку), SIREN работает как легковесная guard-модель, встроенная напрямую во внутренние представления (internal representations) базовой LLM. Алгоритм отслеживает формирование потенциально опасных концептов еще до того, как они превратятся в токены. Это снижает вычислительную нагрузку и радикально повышает устойчивость модели к промпт-инъекциям. Метод идеально подходит для развертывания безопасных агентов в чувствительных B2B-сферах, включая банкинг и медицину.
Источник: arXiv
CybersecurityAI SafetySIRENLLMResearch