Тест состоит из 2500 уникальных экспертных вопросов, которые невозможно решить простым поиском паттернов в датасетах. Результаты отрезвляют: топовые языковые модели терпят крах при столкновении со сложным многоступенчатым рассуждением (reasoning). Это подтверждает теорию о том, что синтетические данные и экстенсивное наращивание параметров больше не дают экспоненциального роста "интеллекта". Без радикального изменения архитектуры (перехода от предсказания токенов к настоящему логическому выводу) AGI останется недостижимым маркетинговым мифом.
Источник: ScienceDaily / Scale AI
ScienceBenchmarkLLMAGIScale AI