В научном сообществе по безопасности ИИ 18 июня 2025 года обсуждается фундаментальное исследование, посвящённое "исправляемости" (corrigibility) — одной из самых острых проблем на пути к безопасному сверхразумному ИИ. Работа, опубликованная на arXiv консорциумом ведущих академических центров, предлагает новый математический подход к проектированию целевых функций ИИ, при котором агент изначально не уверен в абсолютной правильности своих целей и рассматривает человека как авторитетный источник их уточнения. Это позволяет системе внутренне стремиться к принятию внешней коррекции, а не сопротивляться ей. Проблема была ранее сформулирована Стюартом Расселом и заключается в создании ИИ, который не будет пытаться избежать выключения или вмешательства, даже если это мешает достижению текущей задачи. Исследование имеет теоретическую направленность, но закладывает ключевые принципы для создания управляемого AGI в эпоху широкого распространения мощных open-weight моделей.
Новое исследование по "исправляемости" ИИ предлагает решение ключевой проблемы безопасности
