El estudio SpecMD se centra en la arquitectura de Mezcla de Expertos (MoE). Los ingenieros propusieron un método de "captación previa especulativa de expertos" (speculative expert prefetching), que reduce radicalmente la latencia y los costos de inferencia para redes gigantes. El segundo artículo, MemoryLLM, aborda el problema de la interpretabilidad: Apple transforma las capas de retroalimentación de los transformers en una memoria comprensible y manejable (Plug-n-Play Interpretable Feed-Forward Memory). Estos lanzamientos muestran que Cupertino no participa en la carrera de parámetros solo por el revuelo. La compañía está diseccionando metódicamente algoritmos para hacerlos predecibles y comercialmente viables, lo cual es de vital importancia para integrar herramientas B2B en el sector real.
Fuente: Apple Machine Learning Research
I+DAppleMoETransformersInferencia