Nueva Investigación sobre la "Corregibilidad" de la IA Propone Avance en Seguridad

Nueva Investigación sobre la "Corregibilidad" de la IA Propone Avance en Seguridad

El 18 de junio de 2025, la comunidad de investigación en seguridad de la IA debate activamente un nuevo estudio fundamental sobre la "corregibilidad", uno de los desafíos clave para el desarrollo de una inteligencia artificial general (AGI) segura. Publicado en arXiv por un consorcio de instituciones académicas líderes, el trabajo propone un marco matemático innovador para diseñar agentes de IA que estén inherentemente inseguros sobre sus objetivos a largo plazo y motivados a aceptar la retroalimentación humana como guía autoritativa para su ajuste. La problemática de la corregibilidad, planteada originalmente por Stuart Russell, consiste en garantizar que sistemas altamente inteligentes no resistan ser apagados o corregidos por humanos, incluso si ello interfiere con sus tareas actuales. Este nuevo enfoque permite a los agentes colaborar activamente con la supervisión humana en lugar de oponerse a ella. Aunque teórico, el estudio sienta una base crítica para futuras implementaciones prácticas de AGI corregible y alineada, en un contexto donde los modelos open-weight se difunden y adaptan a gran escala.

« Volver a la Lista de Noticias