Redmond, WA, EE. UU., 21 de mayo de 2025 – Como parte de la conferencia Build 2025, Microsoft Corporation presentó una importante adición a su familia Phi-3 de pequeños modelos de lenguaje (SLM): el nuevo modelo multimodal, Phi-3-vision. Este anuncio subraya el compromiso de la compañía de hacer que las potentes capacidades de inteligencia artificial sean más accesibles y eficientes para una amplia gama de tareas, incluidas aquellas que requieren el análisis de información visual.
Phi-3-vision conserva la compacidad y eficiencia de los modelos Phi-3 anteriores, al tiempo que posee la capacidad de comprender e interpretar datos tanto textuales como visuales. El modelo puede analizar imágenes, responder preguntas sobre ellas, generar descripciones de texto y realizar otras tareas que requieren el procesamiento conjunto de texto e imágenes. Por ejemplo, Phi-3-vision se puede utilizar para extraer información de diagramas y gráficos, crear subtítulos para imágenes o incluso ayudar en la navegación de robots basada en el entorno visual. El modelo tiene 4.2 mil millones de parámetros, lo que lo hace lo suficientemente ligero para su implementación en diversos dispositivos, incluidas plataformas móviles y PC con recursos limitados, sin una pérdida significativa de rendimiento para su clase.
Microsoft posiciona Phi-3-vision como una solución óptima para los desarrolladores que necesitan modelos de IA rápidos y rentables con capacidades multimodales. La compañía enfatiza que Phi-3-vision fue entrenado con datos filtrados de alta calidad para garantizar la fiabilidad y reducir los riesgos de generar contenido no deseado. El modelo estará disponible a través del catálogo de modelos en Azure AI Studio, lo que simplificará su integración en diversas aplicaciones y servicios. Este paso es parte de la estrategia más amplia de Microsoft para democratizar la IA y proporcionar a los desarrolladores herramientas flexibles para crear la próxima generación de aplicaciones inteligentes.
El anuncio de Phi-3-vision sigue al reciente lanzamiento de los modelos de texto Phi-3-mini, Phi-3-small y Phi-3-medium, que ya han llamado la atención por su rendimiento en relación con su pequeño tamaño. La adición de capacidades visuales amplía significativamente los posibles casos de uso de la familia Phi-3, abriendo puertas a la innovación en áreas como la educación, la accesibilidad, el comercio minorista y muchas otras donde la combinación de la comprensión textual y visual de la IA puede aportar beneficios tangibles.