Измерение интеллекта: MIT выкатил глобальный математический бенчмарк MathNet

Измерение интеллекта: MIT выкатил глобальный математический бенчмарк MathNet
Старые тесты больше не справляются с оценкой AGI. 21 апреля 2026 года лаборатория MIT CSAIL опубликовала на arXiv работу, представляющую `MathNet` — глобальный мультимодальный бенчмарк для проверки математического reasoning'а.

Это крупнейшая в мире открытая коллекция олимпиадных математических задач. Проблема современных LLM в том, что они великолепно заучивают паттерны, но часто проваливаются при решении нестандартных многоступенчатых задач, требующих истинного логического вывода. MathNet разработан специально для проверки мультимодальных способностей (работа с графиками, схемами и формулами). Бенчмарк станет новым золотым стандартом для индустрии, заставив разработчиков (вроде OpenAI и Anthropic) оптимизировать архитектуры нейросетей под реальное мышление, а не под банальный pattern matching.

Источник: MIT CSAIL / arXiv
ResearchMIT CSAILBenchmarksMathNetAGI
« Назад к списку новостей
Chat