Usé la nueva tecnología de OpenAI para transcribir audio directamente en mi computadora portátil


OpenAI, la empresa detrás de la generación de imágenes y la generación de memes programa DALL-E y el potente motor de autocompletado de texto GPT-3, ha lanzado una nueva red neuronal de código abierto destinada a transcribir audio en texto escrito (a través de TechCrunch). Se llama Susurro, y la empresa dice “se acerca a la solidez y precisión del nivel humano en el reconocimiento de voz en inglés” y que también puede reconocer, transcribir y traducir automáticamente otros idiomas como español, italiano y japonés.

Como alguien que constantemente graba y transcribe entrevistas, esta noticia me entusiasmó de inmediato: pensé que podría escribir mi propia aplicación para transcribir audio de forma segura directamente desde mi computadora. Si bien los servicios basados ​​en la nube como Otter.ai y Trint funcionan para la mayoría de las cosas y son relativamente seguros, solo hay algunas entrevistas en las que yo o mis fuentes sentirse más cómodo si el archivo de audio permaneció fuera de Internet.

Usarlo resultó ser aún más fácil de lo que había imaginado; Ya tengo Python y varias herramientas de desarrollo configuradas en mi computadora, por lo que instalar Whisper fue tan fácil como ejecutar un solo comando de Terminal. En 15 minutos, pude usar Whisper para transcribir un clip de audio de prueba que había grabado. Para alguien relativamente experto en tecnología que aún no tenía Python, FFmpeg, Xcode y Homebrew configurados, probablemente tomaría cerca de una hora o dos. Sin embargo, ya hay alguien trabajando para hacer que el proceso sea mucho más simple y fácil de usar, del que hablaremos en un segundo.


Las aplicaciones de línea de comandos obviamente no son para todos, pero para algo que está haciendo un trabajo relativamente complejo, Whisper es muy fácil de usar.

Las aplicaciones de línea de comandos obviamente no son para todos, pero para algo que está haciendo un trabajo relativamente complejo, Whisper es muy fácil de usar.

Mientras que OpenAI definitivamente vio este caso de uso como una posibilidad, está bastante claro que la compañía se dirige principalmente a investigadores y desarrolladores con este lanzamiento. En la publicación de blog que anuncia Whisper, el equipo dijo que su código podría «servir como base para crear aplicaciones útiles y para futuras investigaciones sobre procesamiento de voz sólido» y que espera que «la alta precisión y la facilidad de uso de Whisper permitan a los desarrolladores agregar interfaces de voz a un conjunto mucho más amplio de aplicaciones.” Sin embargo, este enfoque sigue siendo notable: la empresa tiene acceso limitado a sus proyectos de aprendizaje automático más populares, como DALL-E o GPT-3, citando un deseo para «aprender más sobre el uso en el mundo real y continuar iterando en nuestros sistemas de seguridad».

Imagen que muestra un archivo de texto con la letra transcrita de la canción de Yung Gravy

Los archivos de texto que produce Whisper tampoco son exactamente los más fáciles de leer si los está utilizando para escribir un artículo.

También está el hecho de que no es exactamente un proceso fácil de usar para instalar Whisper para la mayoría de las personas. Sin embargo, el periodista Peter Sterne se ha asociado con la defensora de desarrolladores de GitHub, Christina Warren. para tratar de arreglar eso, anunciando que están creando una «aplicación de transcripción gratuita, segura y fácil de usar para periodistas» basada en el modelo de aprendizaje automático de Whisper. Hablé con Sterne y me dijo que decidió que el programa, llamado Stage Whisper, debería existir después de realizar algunas entrevistas y determinar que era «la mejor transcripción que había usado, con la excepción de los transcriptores humanos».

Comparé una transcripción generada por Whisper con lo que Otter.ai y Trint publicaron para el mismo archivo, y diría que era relativamente comparable. Hubo suficientes errores en todos ellos que nunca copiaría y pegaría citas de ellos en un artículo sin verificar dos veces el audio (que, por supuesto, es la mejor práctica de todos modos, sin importar qué servicio esté usando). Pero la versión de Whisper absolutamente haría el trabajo por mí; Puedo buscar a través de él para encontrar las secciones que necesito y luego simplemente verificarlas manualmente. En teoría, Stage Whisper debería funcionar exactamente igual, ya que usará el mismo modelo, solo con una GUI envuelta.

Sterne admitió que la tecnología de Apple y Google podría hacer que Stage Whisper quede obsoleto en unos pocos años: la aplicación de grabadora de voz de Pixel ha podido hacer transcripciones sin conexión durante años, y una versión de esa función está comenzando a funcionar. despliegue a algunos otros dispositivos Androidy Apple tiene el dictado fuera de línea incorporado iOS (aunque actualmente no hay una buena manera de transcribir archivos de audio con él). “Pero no podemos esperar tanto”, dijo Sterne. “Los periodistas como nosotros necesitamos buenas aplicaciones de transcripción automática hoy”. Espera tener lista una versión básica de la aplicación basada en Whisper en dos semanas.

Para ser claros, es probable que Whisper no deje totalmente obsoletos los servicios basados ​​en la nube como Otter.ai y Trint, sin importar cuán fácil sea de usar. Por un lado, al modelo de OpenAI le falta una de las características más importantes de los servicios de transcripción tradicionales: poder etiquetar quién dijo qué. Sterne dijo que Stage Whisper probablemente no admitiría esta característica: «no estamos desarrollando nuestro propio modelo de aprendizaje automático».

La nube es solo la computadora de otra persona, lo que probablemente significa que es un poco más rápido

Y mientras obtiene los beneficios del procesamiento local, también obtiene los inconvenientes. La principal es que su computadora portátil es casi con certeza significativamente menos potente que las computadoras que utiliza un servicio de transcripción profesional. Por ejemplo, introduje el audio de una entrevista de 24 minutos en Whisper, que se ejecuta en mi M1 MacBook Pro; tomó alrededor de 52 minutos transcribir todo el archivo. (Sí, me aseguré de que estuviera usando la versión Apple Silicon de Python en lugar de la de Intel). Otter escupió una transcripción en menos de ocho minutos.

Sin embargo, la tecnología de OpenAI tiene una gran ventaja: el precio. Es casi seguro que los servicios de suscripción basados ​​en la nube le costarán dinero si los usa profesionalmente (Otter tiene un nivel gratuito, pero próximos cambios van a hacer que sea menos útil para las personas que transcriben cosas con frecuencia), y las funciones de transcripción integradas en plataformas como Microsoft Word o el Pixel requieren que pague por software o hardware por separado. Stage Whisper, y Whisper en sí mismo, es gratuito y puede ejecutarse en la computadora que ya tiene.

Nuevamente, OpenAI tiene más esperanzas en Whisper que en ser la base para una aplicación de transcripción segura, y estoy muy entusiasmado con lo que los investigadores terminarán haciendo con él o lo que aprenderán al observar el modelo de aprendizaje automático, que fue entrenado. sobre “680.000 horas de datos supervisados ​​multilingües y multitarea recopilados de la web”. Pero el hecho de que también tenga un uso real y práctico en la actualidad lo hace aún más emocionante.





Fuente: The Verge

Compartir:

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos y para fines de afiliación y para mostrarte publicidad relacionada con sus preferencias en base a un perfil elaborado a partir de tus hábitos de navegación. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Ver Política de cookies
Privacidad