Это крупнейшая в мире открытая коллекция олимпиадных математических задач. Проблема современных LLM в том, что они великолепно заучивают паттерны, но часто проваливаются при решении нестандартных многоступенчатых задач, требующих истинного логического вывода. MathNet разработан специально для проверки мультимодальных способностей (работа с графиками, схемами и формулами). Бенчмарк станет новым золотым стандартом для индустрии, заставив разработчиков (вроде OpenAI и Anthropic) оптимизировать архитектуры нейросетей под реальное мышление, а не под банальный pattern matching.
Источник: MIT CSAIL / arXiv
ResearchMIT CSAILBenchmarksMathNetAGI