Исследование SpecMD фокусируется на архитектуре Mixture of Experts (MoE). Инженеры предложили метод "спекулятивного кэширования экспертов" (speculative expert prefetching), что позволяет радикально снизить задержки и стоимость инференса гигантских сетей. Вторая работа, MemoryLLM, решает проблему интерпретируемости: Apple превращает слои feed-forward трансформеров в понятную, управляемую память (Plug-n-Play Interpretable Feed-Forward Memory). Эти релизы показывают, что Купертино не участвует в гонке параметров ради хайпа. Компания методично препарирует алгоритмы, чтобы сделать их предсказуемыми и коммерчески жизнеспособными, что критически важно для интеграции B2B-инструментов в реальный сектор.
Источник: Apple Machine Learning Research
R&DAppleMoETransformersInference