Компания Fujitsu анонсировала 8 сентября 2025 года прорывную технологию, которая позволяет значительно "облегчить" большие языковые модели (LLM) без существенной потери точности. Технология, основанная на собственной модели Takane LLM, сочетает в себе два ключевых метода: 1-битное квантование и специализированную "дистилляцию" ИИ. Это позволило сократить потребление памяти на 94% и увеличить скорость инференса в 3 раза, при этом сохранив 89% от первоначальной точности модели. На практике это означает, что LLM, для работы которой ранее требовался кластер из четырех высокопроизводительных GPU, теперь может эффективно работать на одном недорогом GPU. Данное достижение открывает дорогу для развертывания сложных "агентных" ИИ-систем на конечных устройствах, таких как смартфоны, промышленные контроллеры и автомобильные компьютеры, обеспечивая низкую задержку, высокую конфиденциальность и радикальное снижение энергопотребления.
Fujitsu представила технологию реконструкции ИИ, позволяющую запускать LLM на одном GPU
