Icono de la herramienta

Microsoft Phi

4.6 (12 votos)
Microsoft Phi

Etiquetas

Phi-4 IA híbrida SambaY Razonamiento en edge SLM multimodal

Integraciones

  • Azure AI Foundry
  • ONNX Runtime (versión 2026)
  • DirectML
  • Marco de IA de Windows 11
  • Hugging Face

Detalles de precios

  • Los pesos del modelo se publican bajo la licencia MIT para uso comercial.
  • El escalado en producción está soportado mediante Azure AI Foundry o despliegues locales en NPU.

Características

  • Arquitectura de decodificador híbrido SambaY para una mejora de 10x en el rendimiento (throughput)
  • Paridad de razonamiento con modelos de frontera mediante rastros sintéticos de o3-mini
  • Multimodal unificado (texto/audio/vídeo) mediante Mixture-of-LoRAs
  • Soporte de contexto de 128K con optimización de atención diferencial
  • Ejecución local Zero Trust en Windows 11 AI Foundry Local

Descripción

Ecosistema técnico de Phi-4: Revisión de la arquitectura 2026

A partir de enero de 2026, la familia Phi-4 redefine el razonamiento en edge al desacoplar el cómputo de la longitud de secuencia. La arquitectura aprovecha SambaY, una estructura híbrida que integra Unidades de Memoria con Puerta (GMU) para mantener una complejidad de prellenado lineal 📑.

Capa de razonamiento híbrido e inferencia

Los modelos van más allá de los transformadores densos, utilizando mecanismos de atención diferencial para estabilizar el rendimiento en contextos largos mientras minimizan la sobrecarga de E/S de la caché KV 📑.

  • Rendimiento (throughput) de Flash-Reasoning: Alcanza hasta 10 veces más velocidad de decodificación mediante la ruta del decodificador híbrido, optimizada para tareas lógicas en tiempo real en NPU locales 📑.
  • Mixture-of-LoRAs (MoL): La variante multimodal de 5,6B emplea enrutadores específicos por modalidad, permitiendo el procesamiento simultáneo de 2,8 horas de audio y flujos visuales de alta resolución sin interferencia de pesos 📑.
  • Asignación directa a NPU: Soporte completo para Windows 11 26H1 AI Foundry Local, habilitando la ejecución Zero Trust con cuantización de caché KV de 4 bits 🧠.

⠠⠉⠗⠑⠁⠞⠑⠙⠀⠃⠽⠀⠠⠁⠊⠞⠕⠉⠕⠗⠑⠲⠉⠕⠍

Aislamiento de datos y escalado lógico

Los rastros de razonamiento de Phi-4 se ajustan finamente con conjuntos de datos sintéticos generados por modelos de frontera (OpenAI o3-mini/o4), proporcionando paridad lógica con modelos 20 veces más grandes 📑.

  • Memoria contextual: Admite hasta 128K tokens (multimodal) y 64K (Flash), utilizando un vocabulario multilingüe de 200.000 tokens (basado en tiktoken) 📑.
  • Orquestación con privacidad: La ejecución local en NPU Snapdragon X2 garantiza que los datos sensibles nunca abandonen la memoria física del host, evitando por completo la telemetría en la nube 🧠.

Directrices de despliegue

Los arquitectos deben priorizar Phi-4-mini-flash para aplicaciones RAG sensibles a la latencia. Para la planificación compleja de múltiples pasos, se requiere la variante de razonamiento de 14B. Asegúrese de que el hardware soporte DirectML 1.15+ o las extensiones del ONNX Runtime 2026 para utilizar las rutas de aceleración híbrida 📑.

Ventajas y desventajas de la herramienta

Ventajas

  • Rendimiento óptimo en el borde
  • Privacidad garantizada
  • Código abierto
  • Procesamiento local rápido
  • Tamaño compacto

Desventajas

  • En desarrollo
  • Requiere hardware
  • Complejidad limitada

Precios (2026) – Microsoft Phi

Actualizado: 22.01.2026

Phi-4 (128K)

$0.125 / 1M tokens
  • Modelo estándar de alto razonamiento
  • Salida: $0.50 / 1M de tokens
  • Ideal para lógica y matemáticas
  • Contexto de 128K

Phi-4-mini

$0.075 / 1M tokens
  • Ligero y rápido
  • Salida: $0.30 / 1M de tokens
  • Optimizado para edge y baja latencia
  • Contexto de 128K

Phi-4-multimodal (Vision)

$0.08 / 1M tokens
  • Procesamiento de texto e imagen
  • Salida: $0.32 / 1M de tokens
  • Soporta OCR y análisis de gráficos
  • Contexto de 128K

Phi-4-multimodal (Audio)

$4 / 1M tokens
  • Procesamiento de voz y audio
  • Salida: $0.32 / 1M de tokens
  • Especializado en ASR y comprensión de audio
  • Contexto de 128K

Phi-4 Fine-tuning

$0.003 / 1k tokens
  • Costo de entrenamiento para modelos Phi-4 personalizados
  • Hosting: $0.80/hora
  • Tarifas de uso iguales al modelo base
Chat