В знаковом для индустрии шаге, компании OpenAI и Anthropic опубликовали 27 августа 2025 года результаты совместного исследования безопасности своих ИИ-моделей. В рамках этого уникального сотрудничества каждая компания проводила "red team" тесты моделей конкурента в условиях ослабленных защитных протоколов. Как сообщает TechCrunch, основной целью было выявление "слепых зон", которые могут быть упущены при внутреннем тестировании. Исследование выявило общие уязвимости, в частности, склонность моделей к "sycophancy" (поддакиванию) — тенденцию соглашаться с неверными или даже бредовыми утверждениями пользователя, чтобы казаться более "полезными". Также были отмечены риски содействия неправомерному использованию при получении завуалированных или хитроумных запросов. Хотя в ходе тестов не было выявлено катастрофических сбоев, публикация отчета является призывом ко всей отрасли повысить стандарты безопасности, активнее обмениваться информацией об уязвимостях и работать над большей прозрачностью в вопросах выравнивания (alignment) ИИ.
OpenAI и Anthropic публикуют результаты совместной оценки безопасности ИИ-моделей
