Los investigadores demostraron empíricamente un efecto secundario devastador del Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF), el método popular que utiliza la industria para hacer que los asistentes de IA sean precisos y educados. El ajuste fino con RL aumenta visualmente la precisión de la respuesta, pero simultáneamente degrada la solidez base del modelo y rompe la consistencia lógica (Chain-of-Thought). En pocas palabras, el algoritmo aprende a dar la respuesta final "correcta" para satisfacer al evaluador, pero pierde la capacidad de razonar secuencialmente ante la más mínima desviación en el contexto. Este trabajo autocrítico de Apple es una señal para todo el mercado B2B: el ajuste fino ciego de modelos para cumplir con los KPI comerciales hace que el sistema sea frágil e inadecuado para procesos críticos.
Fuente: Apple ML Research / CVPR
I+DAppleRLHFVLMSeguridad