Inicio > Categorías > Aprendizaje Automático y Redes Neuronales > Entrenamiento de Modelos > Microsoft Phi

Microsoft Phi

Relacionados Ventajas y Desafíos Precios

Etiquetas

Phi-4 IA híbrida SambaY Razonamiento en edge SLM multimodal

Integraciones

Azure AI Foundry
ONNX Runtime (versión 2026)
DirectML
Marco de IA de Windows 11
Hugging Face

Categorías:
Aprendizaje Automático y Redes Neuronales
Creador Microsoft Research
Fecha 2023-06-01
Plataformas Hugging Face, Local, On-premise, Cloud, Mobile
Estado Live
Sitio web microsoft.com
Modelo de precios Open Source
Secciones:
Entrenamiento de Modelos

Detalles de precios

Los pesos del modelo se publican bajo la licencia MIT para uso comercial.
El escalado en producción está soportado mediante Azure AI Foundry o despliegues locales en NPU.

Sitio oficial Precios Documentación

Recursos útiles

Características

Arquitectura de decodificador híbrido SambaY para una mejora de 10x en el rendimiento (throughput)
Paridad de razonamiento con modelos de frontera mediante rastros sintéticos de o3-mini
Multimodal unificado (texto/audio/vídeo) mediante Mixture-of-LoRAs
Soporte de contexto de 128K con optimización de atención diferencial
Ejecución local Zero Trust en Windows 11 AI Foundry Local

Descripción

Ecosistema técnico de Phi-4: Revisión de la arquitectura 2026

A partir de enero de 2026, la familia Phi-4 redefine el razonamiento en edge al desacoplar el cómputo de la longitud de secuencia. La arquitectura aprovecha SambaY, una estructura híbrida que integra Unidades de Memoria con Puerta (GMU) para mantener una complejidad de prellenado lineal 📑.

Capa de razonamiento híbrido e inferencia

Los modelos van más allá de los transformadores densos, utilizando mecanismos de atención diferencial para estabilizar el rendimiento en contextos largos mientras minimizan la sobrecarga de E/S de la caché KV 📑.

Rendimiento (throughput) de Flash-Reasoning: Alcanza hasta 10 veces más velocidad de decodificación mediante la ruta del decodificador híbrido, optimizada para tareas lógicas en tiempo real en NPU locales 📑.
Mixture-of-LoRAs (MoL): La variante multimodal de 5,6B emplea enrutadores específicos por modalidad, permitiendo el procesamiento simultáneo de 2,8 horas de audio y flujos visuales de alta resolución sin interferencia de pesos 📑.
Asignación directa a NPU: Soporte completo para Windows 11 26H1 AI Foundry Local, habilitando la ejecución Zero Trust con cuantización de caché KV de 4 bits 🧠.

⠠⠉⠗⠑⠁⠞⠑⠙⠀⠃⠽⠀⠠⠁⠊⠞⠕⠉⠕⠗⠑⠲⠉⠕⠍

Aislamiento de datos y escalado lógico

Los rastros de razonamiento de Phi-4 se ajustan finamente con conjuntos de datos sintéticos generados por modelos de frontera (OpenAI o3-mini/o4), proporcionando paridad lógica con modelos 20 veces más grandes 📑.

Memoria contextual: Admite hasta 128K tokens (multimodal) y 64K (Flash), utilizando un vocabulario multilingüe de 200.000 tokens (basado en tiktoken) 📑.
Orquestación con privacidad: La ejecución local en NPU Snapdragon X2 garantiza que los datos sensibles nunca abandonen la memoria física del host, evitando por completo la telemetría en la nube 🧠.

Directrices de despliegue

Los arquitectos deben priorizar Phi-4-mini-flash para aplicaciones RAG sensibles a la latencia. Para la planificación compleja de múltiples pasos, se requiere la variante de razonamiento de 14B. Asegúrese de que el hardware soporte DirectML 1.15+ o las extensiones del ONNX Runtime 2026 para utilizar las rutas de aceleración híbrida 📑.

Ventajas y desventajas de la herramienta

Ventajas

Rendimiento óptimo en el borde
Privacidad garantizada
Código abierto
Procesamiento local rápido
Tamaño compacto

Desventajas

En desarrollo
Requiere hardware
Complejidad limitada

Precios (2026) – Microsoft Phi

Actualizado: 22.01.2026

Phi-4 (128K)

$0.125 / 1M tokens

Modelo estándar de alto razonamiento
Salida: $0.50 / 1M de tokens
Ideal para lógica y matemáticas
Contexto de 128K

Phi-4-mini

$0.075 / 1M tokens

Ligero y rápido
Salida: $0.30 / 1M de tokens
Optimizado para edge y baja latencia
Contexto de 128K

Phi-4-multimodal (Vision)

$0.08 / 1M tokens

Procesamiento de texto e imagen
Salida: $0.32 / 1M de tokens
Soporta OCR y análisis de gráficos
Contexto de 128K

Phi-4-multimodal (Audio)

$4 / 1M tokens

Procesamiento de voz y audio
Salida: $0.32 / 1M de tokens
Especializado en ASR y comprensión de audio
Contexto de 128K

Phi-4 Fine-tuning

$0.003 / 1k tokens

Costo de entrenamiento para modelos Phi-4 personalizados
Hosting: $0.80/hora
Tarifas de uso iguales al modelo base