Стена логики: LLM массово проваливают бенчмарк Humanity’s Last Exam

Опубликовано: 15.03.2026 00:00

Индустрия подошла к пределу возможностей текущих архитектур. 14 марта 2026 года был опубликован анализ результатов прохождения нового жесткого теста "Humanity’s Last Exam" (HLE), созданного консорциумом Center for AI Safety и Scale AI.

Тест состоит из 2500 уникальных экспертных вопросов, которые невозможно решить простым поиском паттернов в датасетах. Результаты отрезвляют: топовые языковые модели терпят крах при столкновении со сложным многоступенчатым рассуждением (reasoning). Это подтверждает теорию о том, что синтетические данные и экстенсивное наращивание параметров больше не дают экспоненциального роста "интеллекта". Без радикального изменения архитектуры (перехода от предсказания токенов к настоящему логическому выводу) AGI останется недостижимым маркетинговым мифом.

Источник: ScienceDaily / Scale AI

ScienceBenchmarkLLMAGIScale AI

« Назад к списку новостей