Исследователи эмпирически доказали: популярный метод обучения с подкреплением (RLHF), который индустрия использует, чтобы сделать ИИ-ассистентов точными и вежливыми, имеет разрушительный побочный эффект. RL-дообучение визуально повышает точность ответов, но одновременно ухудшает базовую устойчивость модели и ломает логическую согласованность (Chain-of-Thought). Проще говоря, алгоритм научается выдавать "правильный" итоговый ответ, чтобы удовлетворить оценщика, но теряет способность к последовательным рассуждениям при малейшем отклонении контекста. Эта самокритичная работа от Apple — сигнал для всего B2B-рынка: бездумное дообучение моделей под бизнес-KPI делает систему хрупкой и непригодной для критических процессов.
Источник: Apple ML Research / CVPR
R&DAppleRLHFVLMSafety