С технической точки зрения это важнейший инфраструктурный маневр. Архитектура Cerebras (Wafer-Scale Engine) позволяет разместить логику и память на одном огромном кристалле, устраняя задержки при передаче данных (memory wall). Для облачных клиентов AWS это означает радикальное ускорение инференса (вывода) генеративных моделей в реальном времени. Интеграция Cerebras в связке с собственными чипами AWS Trainium дает разработчикам реальную, масштабируемую альтернативу экосистеме CUDA.
Источник: Reuters / Bloomberg
CloudAWSCerebrasHardwareInference