Esta es la colección abierta más grande del mundo de problemas matemáticos de Olimpiadas. El problema con los LLM modernos es que son excelentes para memorizar patrones, pero a menudo fallan al resolver problemas no estándar de varios pasos que requieren una verdadera deducción lógica. MathNet está diseñado específicamente para probar capacidades multimodales (trabajando con gráficos, diagramas y fórmulas). El benchmark se convertirá en el nuevo estándar de oro para la industria, obligando a los desarrolladores (como OpenAI y Anthropic) a optimizar las arquitecturas de redes neuronales para el razonamiento real, en lugar de la simple coincidencia de patrones.
Fuente: MIT CSAIL / arXiv
InvestigaciónMIT CSAILBenchmarksMathNetAGI