Icono de la herramienta

Whisper

Clasificación:

4.9 / 5.0

Icono de neurona
Whisper

Etiquetas

Speech Recognition, ASR, NLP, Open Source, OpenAI, Transcription, Speech Translation

Detalles de precios

Gratis (código abierto). Pueden aplicarse costos al usar servicios de terceros o recursos en la nube para ejecutar el modelo (por ejemplo, a través de la API de OpenAI o plataformas en la nube).

Características

Reconocimiento automático de voz (ASR), reconocimiento de voz multilingüe, traducción de voz (al inglés), robusto al ruido y acentos, código abierto, varios tamaños de modelo.

Integraciones

Se utiliza como biblioteca en proyectos de Python y otros idiomas. Está disponible a través de la API de OpenAI y se puede integrar en diversas aplicaciones.

Vista previa

Whisper es un modelo de reconocimiento automático de voz (ASR) de propósito general desarrollado por OpenAI. Está entrenado en un gran conjunto de datos de audio diverso de internet, lo que le permite funcionar bien con varios acentos, ruido de fondo y lenguaje técnico. Whisper es capaz no solo de transcribir voz en inglés, sino también de reconocer y traducir automáticamente voz de otros idiomas al inglés. El modelo es de código abierto, lo que permite a los desarrolladores usarlo en sus aplicaciones. Hay varios tamaños de modelo disponibles, ofreciendo un equilibrio entre velocidad y precisión.