Исследовательская группа из престижной Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (MIT CSAIL) сегодня, 22 мая 2025 года, объявила о значительном прорыве в области мультимодального искусственного интеллекта. Ученые представили инновационную модель машинного обучения, названную CAV-MAE (Contrastive Audio-Visual Masked Autoencoder), которая обладает уникальной способностью самостоятельно, без явного человеческого руководства, находить и понимать естественные корреляции между визуальной информацией и соответствующими ей звуками. Этот результат открывает новые горизонты для создания более интеллектуальных и адаптивных ИИ-систем, способных воспринимать и интерпретировать окружающий мир подобно человеку.
В основе CAV-MAE (Contrastive Audio-Visual Masked Autoencoder) лежит принцип самообучения на больших объемах неразмеченных видеоданных. В отличие от многих существующих подходов, требующих тщательной предварительной разметки данных человеком (например, указания, какой звук соответствует какому объекту или действию на видео), модель CAV-MAE учится, просто "наблюдая" за миром через видео. Она анализирует одновременно видеоряд и звуковую дорожку, выявляя закономерности и связи между ними. Например, модель может научиться ассоциировать изображение лающей собаки с характерным звуком лая, или вид разбивающегося стекла со звуком бьющегося стекла, исключительно на основе их совместного появления в видеоматериалах. Технология использует архитектуру автоэнкодера с механизмом контрастивного обучения и маскирования, что позволяет ей эффективно выделять значимые признаки из аудиовизуального потока.
Потенциальные применения этой разработки чрезвычайно широки. В робототехнике подобные модели позволят роботам лучше ориентироваться и взаимодействовать с окружающей средой, понимая взаимосвязь между видимыми объектами и событиями и их звуковыми проявлениями. Это критически важно для создания автономных систем, способных безопасно и эффективно функционировать в сложных, динамичных условиях. В области создания контента CAV-MAE может быть использована для автоматической генерации звуковых эффектов для видео или, наоборот, для создания визуальных сцен на основе аудио описаний. Также технология может найти применение в системах видеонаблюдения для более точного распознавания событий, в инструментах для анализа и каталогизации огромных видеоархивов, и даже в разработке более совершенных слуховых аппаратов, способных лучше фильтровать и интерпретировать звуки на основе визуального контекста. Исследователи из MIT CSAIL подчеркивают, что их работа является важным шагом на пути к созданию ИИ, обладающего более целостным и глубоким пониманием мира, что является одной из фундаментальных целей в области искусственного интеллекта.