El pasado 1 de febrero se celebró el evento Samsung Unpacked 2023 y no tenía ganas de invertir una hora en verlo. ¿Qué hice? Aprovechar la nueva hornada de servicios y herramientas de inteligencia artificial para que "asistieran" al evento y se convirtieran en mis asistentes.
La prueba fue un éxito. Usando Bing con ChatGPT y un par de servicios adicionales obtuve un resumen pormenorizado y muy claro de todo lo que se dijo en ese evento. Eso me demostró que esta tecnología tiene un uso práctico destacable, y eso que esto es solo el principio.
La inteligencia artificial como arma para ganarle tiempo al tiempo
Estamos en la era de las prisas. No tenemos tiempo para casi nada. Y como no lo tenemos, se lo robamos a todo lo que podemos. Vemos series y oímos podcasts a 1.5x, pagamos para que nos lo envíen todo y así poder seguir haciendo cosas en casa, y TikTok y sus vídeos cortos han revolucionado este segmento.
La obsesión por ahorrarnos tiempo y ganarlo para otras cosas —aunque sea, irónicamente, ver más vídeos cortos de TikTok— es clara en esta era en la que hay una tecnología muy orientada a eso.
La inteligencia artificial promete ayudarnos en esa batalla, y desde Xataka hemos querido comprobar una de sus promesas: la de no tener que "tragarnos" largas reuniones y charlas porque ella es capaz de reconocer, transcribir y resumir el contenido para luego presentárnoslo.
Por eso quisimos hacer este experimento con charlas como la que Samsung ofreció hace unos días. Debo decir aquí que en realidad he contado una mentirijilla: sí que vi el evento.
Después de todo, es parte de mi trabajo y de todo el equipo de Xataka, que estuvo muy atento a esa cobertura para hablar de lo que allí se presentó, que fue mucho y muy relevante. Sin embargo, eso en realidad fue una ventaja para este experimento, porque me permitió comprobar si realmente lo que me ofrecían estas aplicaciones en el resumen final era fiel a lo que Samsung comentó en su evento.
Cómo la IA te resume una charla de una hora en diez párrafos
El primer paso consistía en transcribir el evento y convertirlo en texto. Hay herramientas diversas que ayudan a hacerlo, pero quise probar una de las que he descubierto recientemente y que presumen de hacer uso de modernos sistemas de inteligencia artificial.
Esa herramienta no es otra que Gladia, que en realidad es una API que precisamente realizar diversas conversiones de contenido entre las cuales está, desde luego, la de convertir audio a texto. Tras un breve registro previo, ya tenía acceso a las llamadas "tareas" que permiten ejecutar esas conversiones con algunas variantes.
Para la conversión necesitaba primero contar con el fichero de audio del evento. Es fácil extraerlo del vídeo de YouTube original con servicios online o con aplicaciones instaladas en local. Al hacerlo ya tenía ante mí ese fichero MP3 de algo menos de 57 MB y casi una hora de duración. Perfecto.
Tras importarlo en Gladia, el servicio comenzó a hacer la transcripción. Normalmente otras soluciones son o más aparatosas, o imponen límites en la duración del audio a transcribir. Otter.ai, una de mis preferidas, permite por ejemplo archivos de 30 minutos en su versión gratuita, lo que la descartaba para esta prueba rápida.
El problema de Gladia es que no transcribe directamente generando un texto, sino que genera el texto lleno de metadatos. Esa información es muy útil para ciertos escenarios como subtitular el evento —incluye marcas de tiempo con el comienzo y el fin de cada fragmento de la transcripción—, pero yo quería el audio en crudo, sin metadatos. ¿Cómo lograrlo?
Preguntando, claro. Como antiguo usuario de Linux tenía claro que aquí herramientas como 'sed' o 'awk' podían ayudarme a conseguir lo que buscaba, pero el problema es que para usarlas uno debe tener cierta (o mucha) soltura con expresiones regulares y gestión de patrones.
No era mi caso —no las uso casi nunca—, y lo normal hasta ahora hubiera sido buscar la solución en Google o acudir a foros como Superuser o Reddit para buscar ayuda de algún experto. Pero aquí se trataba de buscar soluciones de inteligencia artificial, y es justo lo que aproveché con Bing con ChatGPT como protagonista.
El nuevo motor conversacional se comportó aquí de forma espectacular. Tras una breve conversación explicándole lo que quería, indicándole que creía que se podía resolver con 'sed' y poniéndole un ejemplo, Bing me devolvió la respuesta. Es curioso, poque yo le preguntaba en inglés y él seguía contestando en español, pero daba igual: la respuesta era perfecta.
Tenía todo el texto en un fichero llamado "grabacion.txt" y generé un nuevo fichero llamado "resultado.txt" con el comando indicado en su respuesta, que introduje en una (bendita) terminal en mi Mac mini M1 con macOS. ¿Tiempo invertido? Unos dos minutos.
Ahora quedaba el último paso: lograr que con ese texto se generara el resumen buscado. Tanto ChatGPT como Bing con ChatGPT pueden resumir textos, pero tienen un problema: sus límites de caracteres, que por ejemplo en Bing es de 2.000 caracteres de entrada. Este texto era mucho mayor en tamaño, así que necesitaba alguna alternativa.
Aquí es donde de nuevo surgieron nuevas alternativas. En los últimos días han aparecido diversas herramientas para resumir desde videoconferencias hasta estudios científicos. Yo necesitaba alguna opción para resumir textos largos, y entre ellas encontré Casper AI, una extensión para Chrome capaz de ofrecer resúmenes de sitios web que visitamos y que tiene algunas opciones llamativas más, como por ejemplo generar tuits con un titular llamativo generado a partir de ese contenido visitado.
Para funcionar, eso sí, el texto del Unpacked 2023 tenía que estar en algún sitio web, así que lo copié y pegué a un nuevo post en mi otro blog —los experimentos, mejor con gaseosa— que ni siquiera necesité publicar: bastaba previsualizarlo en el navegador Chrome para que Casper AI pudiera hacer su trabajo.
En apenas 10 segundos tenía en la barra lateral generada por Casper AI el resumen de ese evento, distribuido en pequeños párrafos con los puntos principales que se ofrecieron durante esa hora de charla.
El texto estaba en inglés y el resumen también, pero es lógico pensar que ya hay alternativas similares en nuestro idioma o que las que hay lo soportarán (como otros muchos) en poco tiempo. El funcionamiento de Casper AI en ese sentido fue impecable, pero la pregunta es, ¿era un buen resumen del evento?
Lo cierto es que el resumen fue prácticamente perfecto, algo que me dejó realmente asombrado. Este sistema mostró un recorrido por la pequeña introducción del CEO de Samsung para luego resumir las principales prestaciones de los Galaxy S23 Ultra y opciones como su "nightography" —él entendió "nitography"— para fotos con baja luminsosidad. También mostró detalles sobre QuickShare y la mención que Samsung hizo a sus nuevos Ultrabooks.
Es cierto que por el camino dejó algunos detalles sobre el resto de dispositivos de la gama Galaxy S23 y también sobre esos ultraportátiles. También confundió algún nombre, como el del nuevo Snapdragon de esos móviles, pero aún así el resumen fue espectacular por su precisión.
¿Qué demuestra esto? Que ciertamente este tipo de herramientas pueden ser muy útiles como ayuda a la hora de ahorrar tiempo para poder invertirlo en tareas más prioritarias para nosotros. Sin duda, una fantástica demostración práctica de lo que pueden llegar a hacer estas soluciones.
Imagen: Priscilla Du Preez
Ver todos los comentarios en https://www.xataka.com
VER 13 Comentarios