Fusible Interno: El Método SIREN Bloquea Contenido Dañino Dentro de los LLM

Publicado el: 22.04.2026 00:05

El problema de los ataques de jailbreak a redes neuronales requiere un cambio de paradigma en la seguridad. El 21 de abril de 2026, investigadores de la Universidad de Toronto y LMU Munich presentaron la arquitectura `SIREN` (Safety From Within) en arXiv.

En lugar de filtrar texto ya generado (lo que requiere filtros externos pesados y aumenta la latencia), SIREN actúa como un modelo de guardia (guard model) liviano integrado directamente en las representaciones internas del LLM base. El algoritmo rastrea la formación de conceptos potencialmente peligrosos antes de que se conviertan en tokens. Esto reduce la carga computacional y mejora radicalmente la resistencia del modelo a las inyecciones de prompts. El método es ideal para desplegar agentes seguros en áreas B2B sensibles, incluyendo la banca y la medicina.

Fuente: arXiv

CiberseguridadSeguridad de IASIRENLLMInvestigación

« Volver a la Lista de Noticias