“
Si los datos son el nuevo petróleo, una startup con sede en Londres está compitiendo por convertirse en el equivalente de la Bolsa Mercantil de Nueva York, un mercado donde las empresas de IA que buscan datos para entrenar sus modelos de IA pueden hacer tratos con editores y otras empresas para vender datos.
La startup, llamada Human Native AI, ha contratado recientemente a varios prominentes ex ejecutivos de Google con experiencia en negociar acuerdos de licencias de contenido y asociaciones, así como a principales expertos legales con experiencia en temas de propiedad intelectual y derechos de autor.
Hasta la fecha, las empresas que construyen los grandes modelos de lenguaje (LLMs) que han impulsado la revolución de la IA generativa han cosechado datos, de forma gratuita, mediante la extracción de datos de internet público, a menudo sin tener en cuenta los derechos de autor.
Pero hay señales de que esta era está llegando rápidamente a su fin. En los EE. UU., varias demandas contra empresas de IA por presuntamente violar la ley de derechos de autor al entrenar modelos de IA con material tomado de internet sin permiso están avanzando en los tribunales. Si bien es posible que los jueces dictaminen que dicha actividad puede considerarse “uso justo”, las empresas que crean modelos de IA preferirían no arriesgarse a estar enredadas en juicios durante años.
En Europa, la nueva Ley de IA de la UE exige que las empresas revelen si entrenaron modelos de IA con material con derechos de autor, lo que también podría exponer a las empresas a acciones legales. Ya se han realizado acuerdos entre empresas de IA y importantes editores y organizaciones de noticias para licenciar datos tanto para el entrenamiento como para garantizar que sus modelos tengan acceso a información actualizada y precisa. OpenAI firmó un acuerdo de licencia de tres años con el editor Axel Springer, que posee Business Insider, Politico y varias organizaciones de noticias alemanas, que se informa vale “décenas de millones de dólares”. También ha firmado acuerdos con Financial Times, The Atlantic y Time magazine. Google tiene acuerdos similares con muchos editores. Fortune tiene un acuerdo de licencia con la startup de IA generativa Perplexity.
Las startups pueden tener dificultades para asegurar un seguro comercial si sus prácticas de obtención de datos potencialmente los exponen a riesgos legales, lo que proporciona otro incentivo para que muchas de estas empresas licencien los datos que necesitan.
La extracción de datos también está volviéndose más difícil desde el punto de vista técnico, ya que muchas empresas han comenzado a utilizar medios técnicos para tratar de evitar que los bots extraigan sus datos. Algunos artistas también han comenzado a aplicar máscaras digitales especiales a las imágenes que publican en línea que pueden corromper los modelos de IA entrenados con estos datos sin permiso.
Además, los mayores grandes modelos de lenguaje (LLMs), el tipo de IA que impulsa ChatGPT de OpenAI, Gemini de Google y Claude de Anthropic, ya han ingerido el valor de internet público en datos disponibles. Mientras tanto, entrenar modelos de IA más pequeños efectivos, especialmente aquellos diseñados para fines especiales, como ayudar a los abogados a redactar tipos específicos de contratos, a los científicos a diseñar nuevos medicamentos o a los ingenieros a crear planos, requiere conjuntos de datos curados de alta calidad información relacionada con esa tarea. Muy pocos de estos datos especializados están disponibles en internet público, por lo que solo se pueden obtener a través de acuerdos de licencia.
Por eso James Smith, un veterano ingeniero y gerente de productos de Google y Google DeepMind, decidió cofundar Human Native con Jack Galilee, un ingeniero de software que trabajó en sistemas de aprendizaje automático en la empresa tecnológica médica Grail. “Nos preguntábamos por qué no había una manera fácil para que las empresas adquieran los datos que necesitan para entrenar modelos de IA”, dijo Smith, ahora CEO de Human Native.
Incluso cuando las empresas de IA querían obtener datos de manera ética y legal, a menudo era difícil para ellas descubrir quién tenía qué datos y luego averiguar con quién en esa empresa hablar para establecer un acuerdo de licencia. El tiempo requerido actualmente para negociar tales acuerdos también podría ser un impedimento para los desarrolladores de modelos de IA de alta velocidad, con algunos considerando que, si se tomaran el tiempo para hacer lo correcto, correrían el riesgo de quedarse atrás de sus competidores comercialmente, dijo.
Human Native tiene la intención de ser un mercado digital que permitirá a aquellos que necesitan datos para sistemas de IA conectarse fácilmente con quienes los tienen y llegar a un acuerdo utilizando contratos legales relativamente estandarizados. En junio, recaudó una ronda de financiación de $3,6 millones liderada por las firmas de capital de riesgo con sede en Londres LocalGlobe y Mercuri para empezar a cumplir esa visión. Entre sus asesores también se encuentra el empresario, desarrollador de IA y músico Ed Newton-Rex, que encabezó el equipo de audio de la empresa de IA genAI Stability AI, pero que desde entonces se ha convertido en un crítico prominente del desprecio de las empresas de IA por los derechos de autor.
La startup está entre las pocas empresas que ofrecen servicios de intermediación de datos. E incluso Human Native está solo en las primeras etapas de configuración de su mercado, con una versión beta de la plataforma actualmente disponible para clientes seleccionados. Human Native planea ganar dinero de varias maneras, incluida la obtención de una comisión sobre las transacciones que intermedia, así como la oferta de herramientas para ayudar a los clientes a limpiar conjuntos de datos e implementar políticas de gobernanza de datos. La empresa no ha revelado si actualmente está obteniendo ingresos de su plataforma incipiente.
Otros que ya ofrecen datos en venta a empresas de IA incluyen a Nomad Data y la plataforma de análisis de datos Snowflake. Pero Human Native podría enfrentarse pronto a más competencia. Por ejemplo, Matthew Prince, fundador y CEO de la empresa informática Cloudflare, ha hablado de crear un mercado similar para datos de IA.
Para funcionar, Human Native necesita construir una masa crítica de compradores y vendedores en su plataforma y crear esos términos de contrato estandarizados. Es aquí donde la reciente contratación de algunos expertos con pedigrí de los mundos de las asociaciones digitales y la ley de propiedad intelectual de la startup es crucial.
Las contrataciones incluyen a Madhav Chinnappa, que pasó una década trabajando para el departamento de derechos y desarrollo en la BBC y luego pasó 13 años en Google administrando las asociaciones del gigante de las búsquedas con organizaciones de noticias, y ahora es vicepresidente de asociaciones de Human Native; Tim Palmer, un veterano de Disney y Google, donde también pasó 13 años, principalmente trabajando en asociaciones de productos, que ahora asesora sobre asociaciones y desarrollo de negocios para Human Native; y Matt Hervey, exsocio de la firma de abogados internacional Growling WLG que copresidió el subcomité de IA de la Asociación Americana de Derecho de la Propiedad Intelectual y editó un nuevo libro sobre los problemas legales en torno a la IA. Hervey ahora es jefe legal y de políticas de Human Native.
Tanto Palmer como Chinnappa fueron despedidos de Google durante su gran ronda de despidos en el verano de 2024, lo que pone de relieve en qué medida el ajuste del cinturón de esa gigante tecnológica ha resultado en la pérdida de empleados experimentados que ahora están ayudando a hacer crecer una nueva generación de startups.
“Human Native se centra en lo que quizás es el problema más interesante en tecnología en este momento”, me dijo Palmer, explicando por qué estaba interesado en ayudar al mercado de datos incipiente. Dijo que mientras las demandas representaban un intento de establecer reglas sobre cómo pueden usar los datos las empresas de IA, las licencias comerciales representaban un enfoque más productivo.
Palmer dijo que su experiencia en Google adquiriendo contenido significa que tiene “una buena idea de lo que está ahí fuera y quién tiene qué contenido y quiénes son los licenciatarios profesionales y una buena idea de lo que es aceptable y lo que no” en cuanto a términos de licencia.
Chinnappa dijo que ve a Human Native como ayudando a nivelar el campo de juego, especialmente para los pequeños editores y titulares de derechos, que, según él, de otra manera podrían quedarse fuera de cualquier acuerdo con empresas de IA.
“Ayudé a escribir el libro de jugadas para esto cuando estaba en Google, y lo que haces [si eres Google, OpenAI, Anthropic, Meta u otra de las grandes empresas de modelos de IA] es hacer un mínimo de grandes acuerdos con grandes empresas de medios”, dijo.
Human Native podría ayudar a los pequeños editores a encontrar formas de monetizar sus datos al ayudar a agrupar datos de múltiples editores en paquetes lo suficientemente grandes o lo suficientemente adaptados para interesar a los creadores de modelos de IA, dijo.
Hervey dijo que Human Native podría desempeñar un papel importante en ayudar a establecer normas y contratos estandarizados para la licencia de datos para IA. “El aspecto más amplio aquí no es sobre la ley, sino sobre la práctica del mercado y la increíble oportunidad que tenemos de influir en la práctica del mercado”, dijo.
Palmer dijo que llevará tiempo para que Human Native pueda crear una plataforma tecnológica que haga que la compra de datos para modelos de IA sea realmente fluida. “Todavía no es eBay”, dijo. “No es una propuesta de cero contacto humano”.
Por ahora, si bien el propio personal de Human Native está trabajando para obtener conjuntos de datos para empresas de IA, se da cuenta de que necesita una masa crítica de compradores y vendedores en su plataforma para que funcione. Y, una vez que haya facilitado un acuerdo entre un vendedor de datos y una empresa de modelos de IA, el personal de la startup también está teniendo que trabajar mucho con ambos para ayudarles a cerrar un trato.
Hervey dijo que algunos de los términos comerciales siempre serán específicos y que Human Native quiere poder apoyar acuerdos de licencia personalizados, y también trabajar para tratar de estandarizar los términos de licencia.
” – traducción al español nivel B1.