Команда Google Research опубликовала 11 сентября 2025 года статью о новом методе оптимизации работы больших языковых моделей (LLM) под названием "speculative cascades" (спекулятивные каскады). Этот гибридный подход направлен на радикальное ускорение инференса (генерации ответа) и снижение вычислительных затрат. Суть метода в том, чтобы использовать "каскад" из нескольких моделей разного размера. Сначала очень маленькая и быстрая модель генерирует черновик ответа ("спекулятивно"). Затем более крупная и точная модель проверяет этот черновик целиком за один проход, что гораздо быстрее, чем генерировать ответ токен за токеном. Если черновик верен, он принимается. Если нет — крупная модель исправляет ошибку и генерирует правильное продолжение. Этот процесс позволяет задействовать мощную модель только в ключевые моменты, экономя до 80% вычислений при сохранении высокого качества ответа. Технология "speculative cascades" может сделать использование передовых LLM значительно более дешевым и доступным для приложений реального времени.
Google Research представляет метод "speculative cascades" для ускорения LLM
