Muro de la Lógica: Los LLM Fracasan Masivamente en el Benchmark Humanity’s Last Exam

Publicado el: 15.03.2026 00:00

La industria ha alcanzado el límite de las arquitecturas actuales. El 14 de marzo de 2026, se publicó un análisis de los resultados del nuevo y riguroso benchmark "Humanity's Last Exam" (HLE), creado por el consorcio Center for AI Safety y Scale AI.

La prueba consta de 2.500 preguntas expertas únicas que no se pueden resolver mediante la simple coincidencia de patrones en conjuntos de datos. Los resultados son aleccionadores: los principales modelos de lenguaje fracasan cuando se enfrentan a un razonamiento complejo de varios pasos. Esto confirma la teoría de que los datos sintéticos y el amplio escalado de parámetros ya no proporcionan un crecimiento exponencial de la "inteligencia". Sin un cambio radical en la arquitectura (pasando de la predicción de tokens a una inferencia lógica genuina), la AGI seguirá siendo un mito de marketing inalcanzable.

Fuente: ScienceDaily / Scale AI

CienciaBenchmarkLLMAGIScale AI

« Volver a la Lista de Noticias