“
Estrellas de la época dorada de Hollywood están renaciendo a través de acuerdos de clonación de voz de inteligencia artificial (IA) de celebridades, un signo de cómo algunas de las preocupaciones del “Oeste Salvaje” sobre la impersonación no autorizada de la IA se están abordando con nuevos modelos de negocios.
ElevenLabs, una startup de tecnología de audio financiada por firmas de capital de riesgo como Andreessen Horowitz y Sequoia, ha firmado varios acuerdos con los patrimonios de actores legendarios para su herramienta IconicVoices que permite a los usuarios tener voces generadas por IA leyéndoles a través de una aplicación de audiolibros. Las estrellas incluyen a Burt Reynolds, Judy Garland, James Dean y Sir Laurence Olivier.
ElevenLabs, que se lanzó en 2023, crea audio para libros y artículos de noticias, personajes de videojuegos, preproducción de películas, y redes sociales y publicidad. La compañía ya trabaja con editoriales como el New York Times y el Washington Post y a principios de este año, la compañía fue seleccionada por Disney para unirse a su programa acelerador.
“Se necesitan alrededor de 30 minutos de audio de alta calidad para crear un clon de voz profesional”, dijo Sam Sklar, miembro del equipo de crecimiento de ElevenLabs, y las voces se generan a partir del catálogo del famoso. Una vez creada, puede ser llamada para leer texto (artículos, PDF, ePubs, boletines informativos u otro contenido de texto). Sin embargo, la voz y el contenido no pueden exportarse, con toda la audición en una aplicación de lectura.
Un usuario podría, por ejemplo, tener artículos narrados por James Dean dentro de la aplicación, pero los usuarios no pueden acceder a las voces para ningún contenido que no esté ya en la aplicación.
Estos tipos de acuerdos podrían ayudar a establecer los límites para un futuro en el que el contenido de voz generado por IA sea menos polémico y más un terreno controlado y curado. Google Play y Apple Books ya utilizan voces generadas por IA hasta cierto punto, aunque existen grandes obstáculos para recrear el ritmo, la entonación y la emoción de la voz humana.
La industria de la IA ha estado plagada de preocupaciones sobre el uso de voces de celebridades, con OpenAI dando marcha atrás en mayo después de que la actriz Scarlett Johansson acusara a la compañía de copiar su voz después de que rechazara ofertas para licenciarla.
“Estamos muy conscientes de los riesgos asociados con los medios sintéticos y tomamos muy en serio el uso seguro de nuestras herramientas”, dijo Sklar. Las salvaguardas incluyen la moderación activa del contenido, la responsabilidad aplicable con prohibiciones, y disposiciones especiales para salvaguardar el impacto de la voz de IA en las elecciones de 2024.
Entre la generación actual de actores, sigue habiendo una gran ansiedad en torno al uso de la IA para generar contenido de voz. Los actores de voz para videojuegos han expresado preocupaciones, y la huelga del año pasado en la industria del cine y la televisión tuvo raíces significativas en las ansiedades sobre el uso de la IA. El uso de voces icónicas vendidas por los patrimonios es un nicho de mercado que potencialmente evita estos peligros, representando una nueva fuente de ingresos gracias a la IA en lugar de una fuente de ingresos perdida debido a la IA.
El uso de voces de celebridades parecidas a las originales es un problema que antecede a la IA, como en el caso de 1988 en el que Frito Lay utilizó un imitador de Tom Waits en sus anuncios, y otro caso de Waits en 2007, después de que Waits mismo se hubiera negado durante mucho tiempo a acuerdos publicitarios. La IA presenta un camino más fácil para crear imitaciones, y las recientes demandas presentadas contra la startup de IA Lovo por supuestamente utilizar de forma inapropiada y no compensada a actores de voz en la generación de sus voces de IA son un recordatorio de que el mundo de la generación de voz por IA probablemente seguirá siendo complicado y litigioso en cierta medida. (Lovo ha negado las afirmaciones en la demanda y también ha señalado un modelo de reparto de beneficios que ofrece a los actores por las voces clonadas.)
Es difícil evaluar las protecciones en los lugares sin revisar el lenguaje específico de los contratos de IconicVoices, dijo Steve Cohen, un socio de Pollock & Cohen que representa a actores de voz en una demanda no relacionada que alega la clonación de voces sin permiso.
ElevenLabs señala la forma en que su herramienta IconicVoices obtiene permisos y cura el uso de las voces.
“Dar permiso para utilizar la voz de uno es uno de los aspectos básicos”, dijo Cohen. “Creo que los factores clave son el permiso, la compensación y el control.”
Las nuevas leyes más claras también podrían ser un desincentivo para las personas tentadas a apropiarse indebidamente de una voz, “no para los malhechores hardcore, sino para casos marginales”, dijo Cohen. Pero citando a Bette Davis en “La malvada”, añadió, “‘¡Abrochaos los cinturones; va a ser un viaje accidentado!'”
La realista apariencia de las voces clonadas es también un problema en evolución. Muchos expertos dicen que, debido a que la IA no “sabe” lo que está diciendo, la calidad del rendimiento es limitada. Sklar dijo que el último nivel de calidad de habla de ElevenLabs es indistinguible de la voz humana real. “Las herramientas de texto a voz de ElevenLabs pueden entender el contexto de las palabras”, dijo.
La IA es tan buena como los modelos en los que se entrena, y los conjuntos de datos de voz de los actores se convierten en parte del proceso.
“Los modelos neurales derivan sus capacidades de imitar/memorizar matices y patrones presentes en sus datos de entrenamiento”, dijo Nauman Dawalatabad, un asociado postdoctoral en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT con una extensa investigación en la generación de voz por IA. “La calidad y diversidad de los datos de entrenamiento influyen significativamente en el rendimiento del modelo.”.
La entrega vocal de las estrellas de cine podría añadirse a la imitación y el aprendizaje por IA al proporcionar el tipo de “conjuntos de datos de voz de alta calidad para entrenar y ajustar grandes modelos” que Dawalatabad dijo que es esencial para el proceso. Pero expresó reservas sobre “sonar humano” como siendo la prueba correcta para el campo de la voz de IA, ya que esto podría reforzar una relación antagónica entre las voces humanas y sintéticas.
Los actores de voz siguen divididos respecto a la tecnología, algunos se niegan a considerar cualquier acuerdo, pero otros dicen que las oportunidades de clonar sus voces para una producción más rápida y económica en algunos tipos de audiolibros no pueden ser ignoradas. “La tecnología de IA puede ayudar en los flujos de trabajo. La IA no es una herramienta nueva para los talentos de la voz, productores y editores, muchos de los cuales la utilizan para mejorar su control de calidad en la posproducción”, dijo Michele Cobb, directora ejecutiva de la Asociación de Editoriales de Audiolibros, a CNBC el año pasado.
Los modelos generativos recientes han mostrado avances sustanciales en comparación con iteraciones anteriores, lo que hace cada vez más difícil distinguir entre voces falsas y auténticas solo por el oído, según Dawalatabad. La licencia de voz por IA podría aliviar la carga de trabajo para los actores de voz, agregó, sin reemplazarlos, ya que “interceden en el proceso centrándose en ofrecer corrección o mejora de aspectos ineffables como la entonación, la calidez y el énfasis, que siguen presentando desafíos”.
“