En lugar de filtrar texto ya generado (lo que requiere filtros externos pesados y aumenta la latencia), SIREN actúa como un modelo de guardia (guard model) liviano integrado directamente en las representaciones internas del LLM base. El algoritmo rastrea la formación de conceptos potencialmente peligrosos antes de que se conviertan en tokens. Esto reduce la carga computacional y mejora radicalmente la resistencia del modelo a las inyecciones de prompts. El método es ideal para desplegar agentes seguros en áreas B2B sensibles, incluyendo la banca y la medicina.
Fuente: arXiv
CiberseguridadSeguridad de IASIRENLLMInvestigación