OpenAI presenta una solicitud ante un juez para desechar partes de la demanda del New York Times en su contra, alegando que la empresa de medios “pagó a alguien para hackear los productos de OpenAI”, como ChatGPT, para generar 100 ejemplos de infracción de derechos de autor para su caso.
En una presentación realizada el lunes en la corte federal de Manhattan, OpenAI alegó que al Times le llevó “decenas de miles de intentos generar los resultados altamente anómalos”, y que la compañía lo hizo utilizando “estímulos engañosos que violan flagrantemente los términos de uso de OpenAI”.
“Las personas normales no utilizan los productos de OpenAI de esta manera”, escribió OpenAI en la presentación.
El “hackeo” que OpenAI alega en la presentación también podría denominarse ingeniería de estímulos o “red-teaming”, una forma común para los equipos de confianza y seguridad de inteligencia artificial, éticos, académicos y empresas tecnológicas para “poner a prueba” los sistemas de inteligencia artificial en busca de vulnerabilidades. Es una práctica común en la industria de la inteligencia artificial y una forma popular de alertar a las empresas sobre problemas dentro de sus sistemas, similar a cómo los profesionales de ciberseguridad ponen a prueba los sitios web de las empresas en busca de debilidades.
El New York Times no respondió de inmediato a la solicitud de comentarios de CNBC.
La presentación se produce en medio de una batalla más amplia entre OpenAI y editores, autores y artistas por el uso de material con derechos de autor para datos de entrenamiento de inteligencia artificial, incluida la demanda de alto perfil del Times, que algunos ven como un momento crucial para la industria. La demanda de la agencia de noticias, presentada en diciembre, busca responsabilizar a Microsoft y OpenAI por miles de millones de dólares en daños.
En el pasado, OpenAI ha dicho que es “imposible” entrenar a los mejores modelos de inteligencia artificial sin obras con derechos de autor.
“Porque hoy en día los derechos de autor cubren casi todo tipo de expresión humana, incluidas publicaciones de blog, fotografías, publicaciones en foros, fragmentos de código de software y documentos gubernamentales, sería imposible entrenar a los principales modelos de IA de hoy sin utilizar materiales con derechos de autor”, escribió OpenAI en una presentación el mes pasado en el Reino Unido, en respuesta a una consulta de la Cámara de los Lores del Reino Unido.
“Limitar los datos de entrenamiento a libros de dominio público y dibujos creados hace más de un siglo podría dar lugar a un experimento interesante, pero no proporcionaría sistemas de IA que satisfagan las necesidades de los ciudadanos actuales”, continuó OpenAI en la presentación.
Recientemente, en Davos, Suiza, el CEO de OpenAI, Sam Altman, dijo que estaba “sorprendido” por la demanda del Times, afirmando que los modelos de OpenAI no necesitaban entrenarse con los datos del editor.
“En realidad, no necesitamos entrenar con sus datos”, dijo Altman en un evento organizado por Bloomberg en Davos. “Creo que esto es algo que la gente no entiende. Cualquier fuente de entrenamiento en particular, no mueve mucho la aguja para nosotros”.
Aunque un editor puede no marcar la diferencia en las habilidades operativas de ChatGPT, la presentación de OpenAI sugiere que una decisión de muchos editores de optar por no participar podría tener un efecto. En los últimos meses, la empresa comenzó a cortejar a los editores para permitir que el contenido se utilice como datos de entrenamiento.
La empresa ya ha cerrado acuerdos con Axel Springer, el conglomerado de medios alemán que posee Business Insider, Morning Brew y otros canales, y también se encuentra supuestamente en conversaciones con CNN, Fox Corp y Time para licenciar su trabajo.
“Esperamos que nuestras negociaciones en curso con otras partes den lugar a asociaciones adicionales pronto”, escribió OpenAI en la presentación.
En la presentación y en sus publicaciones de blog, OpenAI ha destacado su proceso de exclusión voluntaria para los editores, que permite a los medios prohibir que el crawler web de la empresa acceda a sus sitios web. Pero en la presentación, OpenAI afirma que el contenido es vital para entrenar los modelos de IA actuales.
“Si bien esperamos seguir desarrollando mecanismos adicionales para permitir a los titulares de derechos excluirse del entrenamiento, estamos activamente comprometidos con ellos para encontrar arreglos mutuamente beneficiosos para acceder a materiales que de otra manera serían inaccesibles, y también para mostrar contenido de formas que vayan más allá de lo que permite la ley de derechos de autor”, escribió la empresa.
— CNBC’s Ryan Browne contribuyó a este informe.
No te pierdas estas historias de CNBC PRO: