El equipo de Google Research publicó un artículo el 11 de septiembre de 2025 sobre un nuevo método para optimizar el rendimiento de los grandes modelos de lenguaje (LLM) llamado "cascadas especulativas". Este enfoque híbrido tiene como objetivo acelerar radicalmente la inferencia (generación de respuestas) y reducir los costos computacionales. El núcleo del método consiste en utilizar una "cascada" de varios modelos de diferentes tamaños. Primero, un modelo muy pequeño y rápido genera especulativamente un borrador de la respuesta. Luego, un modelo más grande y preciso verifica todo este borrador en una sola pasada, lo que es mucho más rápido que generar la respuesta token por token. Si el borrador es correcto, se acepta. Si no, el modelo más grande corrige el error y genera la continuación correcta. Este proceso permite que el potente modelo se active solo en momentos clave, ahorrando hasta un 80% de los cálculos mientras se mantiene una salida de alta calidad. La tecnología de "cascadas especulativas" podría hacer que el uso de LLM avanzados sea significativamente más barato y accesible para aplicaciones en tiempo real.
Google Research Presenta el Método de "Cascadas Especulativas" para Acelerar los LLMs
