La prueba consta de 2.500 preguntas expertas únicas que no se pueden resolver mediante la simple coincidencia de patrones en conjuntos de datos. Los resultados son aleccionadores: los principales modelos de lenguaje fracasan cuando se enfrentan a un razonamiento complejo de varios pasos. Esto confirma la teoría de que los datos sintéticos y el amplio escalado de parámetros ya no proporcionan un crecimiento exponencial de la "inteligencia". Sin un cambio radical en la arquitectura (pasando de la predicción de tokens a una inferencia lógica genuina), la AGI seguirá siendo un mito de marketing inalcanzable.
Fuente: ScienceDaily / Scale AI
CienciaBenchmarkLLMAGIScale AI