He usado Whisper para transcribir una entrevista: es la herramienta que llevaba esperando desde hace años

Enrique Pérez

Editor Senior - Tech

Editor especializado en tecnología de consumo y sociedad de la información. Estudié física, pero desde hace más de diez años me dedico a escribir sobre tecnología, imagen y sonido, economía digital, legislación y protección de datos. Interesado en aquellos proyectos que buscan mejorar la sociedad y democratizar el acceso a la tecnología. LinkedIn

Transcribir es con toda seguridad la peor parte de hacer una entrevista. Me encanta hablar con personas que tienen algo que contar, pero luego pasarlo a texto es un proceso muy lento. Tienes que volver a escuchar el audio e ir escribiendo rápidamente. Ese es el proceso manual. Afortunadamente existen programas que convierten el audio a texto. ¿Qué ocurre? Básicamente que o bien son de pago o  funcionan muy mal. 

Pero la inteligencia artificial ha llegado para solucionar las cosas. Y hablamos en concreto de Whisper, de los creadores de ChatGPT

Quizás no es tan conocida como la herramienta de chat o la de creación de imágenes, pero Whisper es una herramienta para pasar audio a texto que funciona de maravilla. Y en todos los idiomas. Porque aquí está precisamente lo que más me gusta; también ofrece un gran nivel de precisión en español. 

En inglés es cierto que sí teníamos más alternativas, pero en español la mayoría de herramientas gratuitas fallaban mucho. Con Whisper la cosa cambia. 

Whisper se define como un "un sistema de reconocimiento automático de voz (ASR)". Un modelo que ha sido entrenado con más de 680.000 horas de datos. Y podemos acceder a él a través de la web, ya que es abierto. 

En Replicate tenemos la opción de acceder al modelo large v2. No hace falta instalar nada, simplemente subimos el archivo de audio que queremos y nos devolverá el texto al cabo de un tiempo, que varía en función de la longitud y el tamaño del archivo de audio. 

Aunque el audio sea una entrevista compleja, el resultado es muy preciso. Adicionalmente, Whisper permite elegir el formato resultado, entre un texto plano o en formato subtítulos. 

No es infalible. Whisper se equivoca en palabras técnicas como nombres propios y por el momento no separa por interlocutores. Pero funciona muy rápido y coloca las pausas de la conversación donde tocan. 

Es cierto que luego todavía tengo que darle un buen repaso a nivel de edición; revisar si las frases eran las que tocan y si no se ha saltado ningún apartado. Por el momento no es subir el audio y darle a publicar, pero Whisper es un salto adelante increíble que me ha ahorrado horas de trabajo

Hasta la fecha utilizaba Otter.ai para los textos en inglés, pero a partir de ahora Whisper es sin duda el motor de traducción de audio a texto que recomendaré por defecto. Mientras todas las miradas están puestas en ChatGPT, yo espero con muchas ganas la nueva versión de Whisper. 

Imagen | Bogomil Mihaylov

En Xataka | Transcribir de audio a texto: 17 herramientas gratuitas

Ver todos los comentarios en https://www.xataka.com

VER 7 Comentarios

Portada de Xataka