Muro de la Lógica: Los LLM Fracasan Masivamente en el Benchmark Humanity’s Last Exam

Muro de la Lógica: Los LLM Fracasan Masivamente en el Benchmark Humanity’s Last Exam
La industria ha alcanzado el límite de las arquitecturas actuales. El 14 de marzo de 2026, se publicó un análisis de los resultados del nuevo y riguroso benchmark "Humanity's Last Exam" (HLE), creado por el consorcio Center for AI Safety y Scale AI.

La prueba consta de 2.500 preguntas expertas únicas que no se pueden resolver mediante la simple coincidencia de patrones en conjuntos de datos. Los resultados son aleccionadores: los principales modelos de lenguaje fracasan cuando se enfrentan a un razonamiento complejo de varios pasos. Esto confirma la teoría de que los datos sintéticos y el amplio escalado de parámetros ya no proporcionan un crecimiento exponencial de la "inteligencia". Sin un cambio radical en la arquitectura (pasando de la predicción de tokens a una inferencia lógica genuina), la AGI seguirá siendo un mito de marketing inalcanzable.

Fuente: ScienceDaily / Scale AI
CienciaBenchmarkLLMAGIScale AI
« Volver a la Lista de Noticias
Chat