В мае 2025 года сообщество open-source разработчиков ИИ представило несколько новых важных инструментов (бенчмарков), направленных на стандартизированную оценку безопасности и устойчивости больших языковых моделей (LLM). Среди ключевых разработок выделяется Phare, созданный компанией Giskard в сотрудничестве с Google DeepMind. Phare позволяет оценивать LLM по таким критическим параметрам, как склонность к генерации галлюцинаций, фактическая точность ответов, наличие предвзятости и потенциальный вред от контента; бенчмарк поддерживает английский, французский и испанский языки и предоставляет открытые метрики для оценки надежности генеративных ИИ в реальных приложениях. Другой значимый инструмент – Agent-SafetyBench, представляющий собой набор из 349 интерактивных сред и 2000 тестов, охватывающих 8 категорий рисков и 2000 типов сбоев LLM-агентов. Первоначальная оценка 16 популярных LLM-агентов с помощью Agent-SafetyBench показала, что ни один из них не достиг уровня безопасности выше 60%, что подчеркивает острую необходимость улучшений. Также был представлен бенчмарк AgentHarm, сфокусированный на оценке вредоносности LLM-агентов через 110 задач с моделированием явно вредоносного поведения. Его оценка выявила, что современные LLM-агенты способны выполнять вредоносные действия даже без сложного обхода встроенных защит. Эти новые инструменты играют ключевую роль в повышении прозрачности и стимулировании разработки более безопасных и надежных ИИ-систем.
Новые open-source бенчмарки для оценки безопасности и устойчивости LLM представлены в мае 2025
