Comparación de transcripción de audio basada en la nube vs en el dispositivo

En iOS 18, las aplicaciones Notas y Memos de Voz de Apple cuentan con una nueva función de transcripción de audio. Aquí tienes todo lo que necesitas saber sobre los diferentes tipos de transcripción de audio, cómo se comparan entre sí y qué aporta la implementación de Apple.

La última gama de sistemas operativos de Apple permite a los usuarios transcribir audio directamente dentro de Notas y Memos de Voz, en tiempo real y sin necesidad de una conexión a internet.

iOS 18.1, iPadOS 18.1 y macOS Sequoia 15.1 también introducen soporte para Apple Intelligence, lo que significa que los usuarios podrán resumir y editar transcripciones a través de la inteligencia artificial, aunque solo en dispositivos más recientes.

Para explicar mejor la importancia de estas nuevas funciones, así como su impacto potencial en el mercado de aplicaciones de terceros, es importante tener una comprensión básica de la transcripción de audio en su conjunto, y los diferentes tipos de procesamiento de texto a voz que existen.

El proceso de convertir el habla grabada en texto escrito se conoce como transcripción de audio. Se utiliza comúnmente en una variedad de campos e industrias y siempre ha sido una herramienta esencial para varios tipos de usuarios, incluidos académicos, profesionales de negocios, periodistas y estudiantes.

La transcripción de audio facilita encontrar información clave contenida en una grabación de audio. En lugar de escuchar toda una grabación de un discurso o una entrevista, por ejemplo, un periodista puede buscar fácilmente a través de una transcripción y encontrar los detalles necesarios. La toma de notas de propósito general también se facilita significativamente con la transcripción de audio.

También se utiliza a menudo como herramienta de accesibilidad, ya que la transcripción ayuda a los usuarios con discapacidades auditivas u otras discapacidades. Los estudiantes que tienen dificultades para entender a su profesor o seguir durante las clases pueden beneficiarse más de la transcripción de audio en tiempo real, en lugar del procesamiento posterior de audio grabado.

En general, existen dos enfoques posibles para la transcripción de audio: local y basada en la nube. Cada uno tiene sus propias ventajas e inconvenientes que los usuarios deben tener en cuenta al decidir qué aplicación es la adecuada para ellos.

Con la transcripción de audio en el dispositivo, el audio se procesa localmente en el hardware del usuario y se convierte en texto sin necesidad de conectarse a un servidor externo. Esto preserva la privacidad del usuario, ya que las grabaciones y transcripciones no se envían a ninguna parte.

La transcripción de audio basada en la nube funciona enviando archivos de audio a través de internet a servidores especializados con software de transcripción. Una vez que se ha transcribido un archivo, la salida de texto se envía de vuelta al usuario final. Este tipo de transcripción es menos intensiva en CPU y está disponible en una amplia gama de dispositivos.

Cuando se trata de transcripción de audio, los usuarios tienen múltiples aplicaciones y servicios para elegir. Algunas aplicaciones utilizan el procesamiento de audio en el dispositivo, mientras que otras son servicios basados en la web que transcriben audio de forma remota, a través de servidores externos. En última instancia, hay pros y contras para cada enfoque, así como casos de uso únicos tanto para la transcripción en el dispositivo como para el procesamiento basado en la nube.

Transcripción sin conexión – Para qué se utiliza y por qué

La transcripción sin conexión es ideal para grabaciones de audio que contienen información altamente sensible. En el periodismo, por ejemplo, esto ayudaría a proteger la información personal de las personas que hablan con la prensa sobre asuntos confidenciales.

Transcribir audio en el dispositivo significa que no hay posibilidad de transmitir accidentalmente información sensible durante el proceso de transcripción.

En teoría, ningún tercero no autorizado puede escuchar estas grabaciones o ver los archivos transcritos, lo que sigue siendo una posibilidad con los servicios de transcripción que requieren una conexión a internet activa.

Las grabaciones de reuniones de negocios también es probable que contengan información sensible como planes corporativos, estrategias de marketing, branding, estrategias de inversión, detalles de desarrollo de productos, entre otros. Esto hace que la transcripción en el dispositivo sea la mejor opción para este tipo de grabaciones.

LEAR El impacto de la computación en la nube en la agilidad empresarial

Las grabaciones con información médica, como sesiones de terapia o notas médicas, obviamente contienen información privada y a menudo sensible. El procesamiento en el dispositivo garantizaría la privacidad de todas las personas involucradas y sería especialmente útil para figuras públicas y celebridades.

Además de esto, la transcripción de audio sin conexión también se puede utilizar para llevar un diario. Al visitar áreas remotas o rurales sin conectividad a internet, solo una herramienta de transcripción en el dispositivo puede procesar el audio. Dado que no hay requisitos relacionados con la red, la toma de notas de propósito general también se facilita con la transcripción de audio sin conexión.

La importancia de la transcripción de audio en tiempo real, por qué a veces son útiles las aplicaciones basadas en la nube

Los servicios de transcripción de audio solo en línea, como Otter.ai, pueden procesar audio en tiempo real. Esto significa que el servicio puede transcribir reuniones, llamadas de conferencia, conferencias, transmisiones en vivo y podcasts mientras están ocurriendo.

En el periodismo, la transcripción en tiempo real es especialmente útil para eventos en directo. Esto puede incluir conferencias de prensa, ceremonias de premios, discursos, anuncios de empresas y funcionarios gubernamentales, eventos de lanzamiento de productos, llamadas trimestrales de ganancias relacionadas con determinadas empresas, y mucho más.

Durante eventos como estos, a un periodista se le puede encargar escribir una historia basada en una frase clave de un evento, una que contenga una estadística importante o un dato relevante. Aquí es donde la transcripción en tiempo real es absolutamente necesaria, ya que el tiempo es crucial.

Otros tipos de usuarios, como estudiantes, pueden necesitar transcripción en tiempo real para tomar notas de manera más eficiente durante las conferencias. Al ver palabras individuales y frases clave transcritas de inmediato, se vuelve más fácil identificar los conceptos principales, las ideas o las frases de interés dentro de una conferencia.

Muchas aplicaciones de transcripción sin conexión no pueden proporcionar transcripciones de audio en tiempo real. Por otro lado, iOS 18 de Apple, aunque aún está en beta, introduce la transcripción sin conexión en tiempo real en la aplicación integrada Notas. Esto la convierte en una competidora potencial para ciertos servicios de transcripción de audio basados en la nube.

La transcripción de audio sin conexión de Apple está disponible en diferentes plataformas, aunque obviamente solo en los sistemas de marca Apple y solo en el software más reciente de la empresa.

Productos basados en la web como Otter.ai están disponibles en múltiples plataformas. Esto significa que los usuarios pueden transcribir audio en tiempo real en cualquier dispositivo con un navegador web moderno, ya sea un teléfono, una computadora portátil o una tableta.

Muchas aplicaciones de transcripción de terceros sin conexión, como las basadas en Whisper de OpenAI, están limitadas a una sola plataforma. En algunos casos, las aplicaciones son exclusivas de Mac, mientras que otras están disponibles únicamente en Windows o iPhone.

Los modelos de Whisper de OpenAI y su uso para la transcripción en el dispositivo

La creciente popularidad de la inteligencia artificial significa que hay un número cada vez mayor de aplicaciones y modelos de inteligencia artificial generativa que pueden procesar audio, video, imágenes y archivos de texto. Algunos modelos de IA se utilizan para la transcripción de audio en el dispositivo, como es el caso de Whisper de OpenAI.

El modelo Whisper de OpenAI se introdujo en 2022 y es de código abierto. Fuente de la imagen: OpenAI.com
Whisper, lanzado en 2022, es un software de transcripción impulsado por inteligencia artificial especialmente popular. Whisper es de código abierto, lo que significa que sus modelos de IA están disponibles de forma gratuita en la página de GitHub de OpenAI para que cualquiera los descargue y use.

El software fue entrenado en más de 680,000 horas de audio y cuenta con múltiples modelos de IA que producen transcripciones de diferentes precisión y a diferentes velocidades. Whisper también se puede utilizar para la traducción, ya que admite 99 idiomas diferentes.

Los modelos de IA de Whisper hacen posible transcribir audio completamente en el dispositivo, sin necesidad de una conexión a Internet activa. Sin embargo, esto tiene un costo de espacio de almacenamiento, ya que los modelos de IA de Whisper pueden tener un tamaño de hasta 2 GB, lo cual es bastante para una computadora con una capacidad de almacenamiento inferior, como 256 GB.

LEAR La manzana lista para ser el primer gigante tecnológico en enfrentar cargos bajo la ley digital de la UE.

Sin embargo, cabe destacar que instalar Whisper directamente desde la página de GitHub de OpenAI no es tan fácil como instalar cualquier aplicación GUI de macOS. Algunos usuarios pueden encontrar la tarea desalentadora, debido al uso de comandos de terminal y similares, aunque por esa misma razón, los desarrolladores han estado incorporando Whisper en sus aplicaciones.

Por qué las aplicaciones de terceros utilizan Whisper de OpenAI, cómo generan beneficios y qué aportan

Muchas compañías han desarrollado aplicaciones GUI para macOS e iOS, que utilizan Whisper de OpenAI, como una forma de crear una experiencia más amigable para el usuario. Esto incluye productos como MacWhisper y Whisper Transcription, e incluso Whisper se ha integrado en aplicaciones relacionadas con el audio como Audio Hijack de $77.

Muchas de estas aplicaciones impulsadas por Whisper ofrecen funcionalidades básicas de transcripción de forma gratuita, al proporcionar acceso a modelos de IA Whisper más pequeños. Estos modelos pueden proporcionar transcripciones rápidas, pero pueden no ser tan precisos como aquellos creados utilizando los modelos de IA más grandes y complejos.

En general, este tipo de aplicaciones generan ingresos al cobrar por el uso de los modelos de IA Whisper más grandes dentro de sus respectivos entornos GUI, o al agregar funcionalidades adicionales como la sumarización impulsada por IA y la creación de borradores. Las aplicaciones de transcripción de terceros impulsadas por los modelos de Whisper de OpenAI a veces ofrecen funcionalidades adicionales para el usuario final. En lugar de solo transcribir audio, por ejemplo, algunas aplicaciones de terceros también permiten a los usuarios crear borradores para publicaciones de blog, correos electrónicos y publicaciones en redes sociales basados en su transcripción.

Una desventaja de estas funciones adicionales, sin embargo, es que a menudo requieren una conexión a Internet para funcionar. Para la mayoría de las aplicaciones impulsadas por Whisper con funciones de edición de texto, la modificación adicional de la transcripción se realiza conectándose y utilizando ChatGPT-4o, también desarrollado por OpenAI.

Aplicaciones de transcripción en el dispositivo basadas en los modelos de Whisper de OpenAI

Muchas aplicaciones de transcripción de audio basadas en Whisper cobran a los clientes por el uso de modelos de IA Whisper más grandes. Algunas aplicaciones también ofrecen herramientas de edición de transcripciones y creación de borradores impulsados por ChatGPT de OpenAI, pero a un costo adicional.

Whisper Transcription en macOS, por ejemplo, requiere una suscripción mensual para usar los modelos de IA Whisper más grandes, y para usar las funciones impulsadas por ChatGPT. La aplicación ofrece tres opciones de suscripción:

$4.99 por un plan semanal
$8.99 por un plan mensual
$24.99 por una suscripción de un año

También hay una opción de compra de por vida que brinda a los usuarios acceso indefinido a todas las funciones de la aplicación mediante un pago único de $59.99.

MacWhisper, otra aplicación de transcripción de audio para macOS, también requiere el pago por el uso de modelos de IA Whisper más grandes, y por la integración de ChatGPT. Los usuarios pueden comprar una licencia de MacWhisper Pro por un pago único de 39.99 euros (USD $44) para uso personal. También hay un 50% de descuento para periodistas, aunque esto requiere enviar un correo electrónico al desarrollador – [email protected].

Los usuarios comerciales, que necesitan ejecutar MacWhisper en más de una máquina a la vez, pueden comprar paquetes de 5, 10 y 20 licencias de MacWhisper Pro. Se pueden comprar a los siguientes precios:

125 euros (USD $138) por 5 licencias de MacWhisper Pro
200 euros (USD $221) por 10 licencias de MacWhisper Pro
300 euros (USD $331) por 20 licencias de MacWhisper Pro

Los entusiastas verdaderos, sin embargo, siempre pueden instalar la versión CLI (interfaz de línea de comandos) gratuita de Whisper desde el GitHub de OpenAI, lo que les brinda acceso a los mencionados modelos de IA más grandes.

LEAR Los lentes inteligentes Ray-Ban Meta pronto identificarán canciones con Shazam

En resumen, aplicaciones como MacWhisper y Whisper Transcription ofrecen una forma más accesible de utilizar Whisper de OpenAI y, en algunos casos, ofrecen funcionalidades adicionales impulsadas por IA. Esto es lo que las hace atractivas para los usuarios.

Aplicaciones de transcripción basadas en la nube actualmente en el mercado

Muchas herramientas y aplicaciones de transcripción en el dispositivo impulsadas por Whisper no cuentan con transcripción en tiempo real y, en su lugar, solo son compatibles con grabaciones de audio. Aquí es donde ciertas aplicaciones y servicios basados en la nube son útiles, ya que pueden transcribir eventos en tiempo real.

El sitio web de Speechmatics presenta una demostración en vivo de transcripción de audio en tiempo real
Servicios como Otter.ai proporcionan una transcripción en tiempo real que se puede ver mientras ocurre un evento. Otter incluso puede marcar la hora de las grabaciones e identificar a los hablantes individuales, lo que lo convierte en una buena opción para aplicaciones empresariales.

La versión gratuita de Otter permite a los usuarios transcribir 300 minutos al mes, con 30 minutos por grabación. Para los clientes de pago, la compañía ofrece dos opciones de suscripción mensual:

$8.33 por 1200 minutos de transcripción mensual, 90 minutos por conversación
$20 por 6000 minutos de transcripción mensual, 4 horas por conversación

Ofreciendo funcionalidades similares a Otter.ai, Zoom también tiene su propio servicio de transcripción de reuniones virtuales, aunque solo está disponible con una licencia Pro ($14.99 al mes), Empresarial ($21.99 al mes) o Enterprise. También requiere que la grabación en la nube esté habilitada para Zoom.

Speechmatics es otro servicio de transcripción de audio basado en la nube y alimentado por inteligencia artificial que ofrece resultados en tiempo real. La página principal del sitio web de la compañía incluso tiene una demostración de esta función, que transcribe audio de las transmisiones en vivo de la BBC.

La versión gratuita de Speechmatics permite a los usuarios transcribir 8 horas de audio al mes. Para los clientes de pago, el sitio web de Speechmatics contiene múltiples tarifas por hora para los servicios de transcripción de audio de la compañía.

La compañía ofrece diferentes niveles de precisión de transcripción de audio tanto para la transcripción de audio en tiempo real como para el procesamiento de grabaciones de audio.

Para grabaciones de audio pregrabadas, las tarifas son:

$0.30 por hora para la transcripción en modo “Lite”
$0.80 por hora para la transcripción de precisión estándar
$1.04 por hora para la transcripción de precisión mejorada

Para transcribir audio en vivo, los usuarios deberán pagar:

$1.04 por hora para la transcripción de precisión estándar, o
$1.65 por hora para la transcripción de precisión mejorada

MAXQDA, que utiliza Speechmatics como subprocesador, es un programa de análisis cualitativo que permite a los usuarios analizar diferentes tipos de textos, literatura, entrevistas y más. Entre otras características, la aplicación ofrece transcripción de audio, asumiendo que el usuario ha comprado el software y tiene una licencia de MAXQDA AI Assist. La empresa cobra por hora de audio transcrita.

Para clientes privados, las tarifas de MAXQDA son las siguientes:

23.80 euros (USD $26.27) por 2 horas de audio transcritas
58.31 euros (USD $64.37) por 5 horas de audio transcritas
92.82 euros (USD $102.47) por 10 horas de audio transcritas
178.50 euros (USD $197.05) por 20 horas de audio transcritas

VoicePen es una aplicación de toma de notas que ofrece transcripción de audio basada en la nube, a través de la API de Whisper de OpenAI o modelos de IA Whisper implementados en servidores. La aplicación también contiene herramientas de edición de transcripciones impulsadas por IA que solo funcionan en línea, similar a las ofrecidas por Whisper Transcription en Mac.

La aplicación ofrece opciones de suscripción que dan a los usuarios acceso a la transcripción en tiempo real, reescrituras de IA a través de ChatGPT-4o, y más. Los usuarios pueden elegir entre:

$4.99 por una suscripción semanal
$9.99 por una suscripción mensual
$44.99 por una suscripción anual

Comparativamente hablando, los servicios de transcripción de audio basados en la nube a menudo tienen serios inconvenientes