Новое исследование, освещенное в журнале Quanta Magazine, раскрывает механизм "творчества" в диффузионных моделях ИИ, таких как Midjourney. Ученые пришли к выводу, что креативность не является магическим свойством, а представляет собой детерминированный побочный продукт архитектуры самой модели. Процесс генерации изображения начинается с случайного шума. На каждом из множества шагов модель слегка "очищает" изображение от шума, приближая его к текстовому описанию. Исследователи обнаружили, что из-за архитектурных ограничений (в частности, "локальности", когда модель фокусируется на небольших участках, а не на всей картине сразу) ИИ вынужден "импровизировать", собирая конечное изображение из отдельных фрагментов, как мозаику. Именно эта последовательность локальных решений и порождает новые, оригинальные композиции, а не простое усреднение образов из обучающих данных. Это открытие помогает демистифицировать творческие способности ИИ и открывает пути для создания более управляемых генеративных инструментов.
Исследователи объяснили "креативность" ИИ особенностями процесса шумоподавления
