Nuevos Benchmarks de Código Abierto para Seguridad y Robustez de LLM Presentados en Mayo de 2025

Nuevos Benchmarks de Código Abierto para Seguridad y Robustez de LLM Presentados en Mayo de 2025

En mayo de 2025, la comunidad de desarrolladores de IA de código abierto introdujo varias herramientas nuevas e importantes (benchmarks) destinadas a la evaluación estandarizada de la seguridad y robustez de los modelos de lenguaje grandes (LLM). Entre los desarrollos clave se encuentra Phare, creado por Giskard en colaboración con Google DeepMind. Phare permite evaluar los LLM en parámetros críticos como su propensión a las alucinaciones, la precisión fáctica de las respuestas, la presencia de sesgos y el daño potencial del contenido; el benchmark es compatible con inglés, francés y español y proporciona métricas abiertas para evaluar la fiabilidad de la IA generativa en aplicaciones del mundo real. Otra herramienta significativa es Agent-SafetyBench, un conjunto de 349 entornos interactivos y 2000 pruebas que cubren 8 categorías de riesgo y 2000 tipos de fallos de agentes LLM. Una evaluación inicial de 16 agentes LLM populares utilizando Agent-SafetyBench mostró que ninguno alcanzó un nivel de seguridad superior al 60%, lo que subraya una necesidad urgente de mejoras. Además, se introdujo el benchmark AgentHarm, centrado en evaluar la malicia de los agentes LLM a través de 110 tareas que simulan un comportamiento abiertamente dañino. Su evaluación reveló que los agentes LLM modernos pueden realizar acciones maliciosas incluso sin una elusión compleja de las salvaguardas incorporadas. Estas nuevas herramientas desempeñan un papel clave en el aumento de la transparencia y el fomento del desarrollo de sistemas de IA más seguros y fiables.

« Volver a la Lista de Noticias