Amazon Polly
Integraciones
- Amazon Bedrock
- Amazon Nova
- Amazon Connect
- AWS Lambda
- Amazon S3
Detalles de precios
- Facturado por cada millón de caracteres.
- Las tarifas varían según el nivel: Standard (4 $), Neural (16 $), Generative (30 $) y Long-Form (100 $).
- El nivel gratuito (12 meses) incluye 5 millones de caracteres para Standard y 1 millón para Neural/Generative.
Características
- Motor Transformador Generativo de 1B Parámetros
- Motor de Coherencia Temporal para Larga Duración
- Integración Agéntica Nativa con Bedrock (Nova Sonic)
- Identidades de Voz Políglotas Multilingües
- Transmisión en Tiempo Real mediante HTTP/2 y WebRTC
- Seguridad Gestionada con VPC y Cifrado KMS
Descripción
Amazon Polly: Síntesis con Transformadores de Miles de Millones de Parámetros y Arquitectura de Voz Preparada para Nova
Amazon Polly funciona como una capa de síntesis de alta fidelidad gestionada dentro del ecosistema de AWS, abstraendo la transición de métodos concatenativos a la reconstrucción de voz mediante IA generativa 📑. A principios de 2026, la arquitectura se centra en el Generative Engine, que utiliza arquitecturas masivas basadas en transformadores para sintetizar voz de manera incremental y en flujo continuo, ofreciendo una expresividad emocional y un ritmo conversacional sin precedentes 📑.
Motores de Síntesis Gestionados y Escenarios Operativos
El sistema emplea una estrategia multinivel (Generative, Long-Form, Neural, Standard) para equilibrar el coste computacional con la fidelidad vocal, ahora orquestada mediante la API Converse de Bedrock.
- Conversación Agéntica en Tiempo Real: Entrada: Tokens de texto de LLM procedentes de Amazon Nova 2 Sonic (vía Bedrock) → Proceso: Síntesis del Generative Engine con decodificación incremental inferior a 200 ms → Salida: Flujo de audio de alta fidelidad a 24 kHz compatible con interrupciones en WebRTC/HTTP2 📑.
- Medios Narrados de Larga Duración: Entrada: Corpus de documentos extendidos en Amazon S3 → Proceso: Optimización del motor Long-Form para garantizar coherencia temporal y ritmo constante en segmentos de más de 30 minutos → Salida: Artefactos MP3/OGG asíncronos de alta tasa de bits con metadatos de marcas de voz 📑.
⠠⠉⠗⠑⠁⠞⠑⠙⠀⠃⠽⠀⠠⠁⠊⠞⠕⠉⠕⠗⠑⠲⠉⠕⠍
Componentes Arquitectónicos Principales
- Generative Engine (33+ Voces): Implementa un transformador de miles de millones de parámetros para generar habla expresiva en más de 20 idiomas. Soporta capacidades 'políglotas', permitiendo que un único ID de voz mantenga la coherencia del personaje en múltiples lenguas 📑.
- Motor Neural (NTTS): Utiliza una red neuronal secuencia a secuencia para la generación de espectrogramas, optimizada para estilos conversacionales y de locutor de noticias 📑.
- Pipeline de Análisis Lingüístico: Realiza conversión automática de grafemas a fonemas con soporte para léxicos personalizados (W3C PLS) para resolver nomenclaturas específicas de dominio 📑.
Seguridad, Aislamiento de Datos y Residencia
La seguridad de la infraestructura se gestiona mediante AWS IAM y VPC Endpoints. La disponibilidad regional del motor Generative incluye ahora los centros de Seúl, Singapur y Tokio desde finales de 2025 📑. Privacidad: El contenido se procesa en memoria transitoria; el cifrado en reposo de los artefactos almacenados se gestiona mediante AWS KMS (CMEK) 📑.
Directrices de Evaluación
Los evaluadores técnicos deben verificar las siguientes características arquitectónicas de la implementación de Amazon Polly:
- Delta de Latencia Generative-to-Neural: Evaluar el 'tiempo hasta el primer byte de audio' para las voces del motor Generative, ya que el mayor número de parámetros puede introducir fluctuaciones en condiciones de carga máxima 🧠.
- Fidelidad de Etiquetas SSML: Validar el comportamiento de etiquetas específicas (p. ej., <emphasis>, <prosody>) en el motor Generative, ya que algunos marcadores heredados podrían ser anulados por la entonación contextual interna del modelo [Unknown].
- Consistencia en Larga Duración: Las organizaciones deben realizar pruebas de deriva longitudinal en el motor Long-Form para garantizar que el ritmo se mantenga estable en tareas de síntesis de más de 50.000 caracteres 🧠.
Historial de versiones
Actualización de fin de año: integración total con agentes de IA de AWS.
Lanzamiento de Generative v2 con soporte para más de 35 idiomas.
Integración de Voice ID para biometría de voz en tiempo real.
Lanzamiento del motor Generative TTS con voces altamente expresivas.
Disponibilidad general del motor Long-Form para audiolibros.
Introducción del estilo conversacional y lanzamiento de Brand Voice.
Lanzamiento de Neural TTS e introducción del estilo 'Newscaster'.
Lanzamiento inicial de Amazon Polly con 47 voces en 24 idiomas.
Ventajas y desventajas de la herramienta
Ventajas
- Voz natural y clara
- Amplia biblioteca
- Soporte multilingüe
- Escalable y fiable
- Integración API fácil
Desventajas
- Costoso a gran escala
- Requiere cuenta AWS
- Personalización limitada