Poco después de que OpenAI presentara ChatGPT en noviembre de 2022, desató un debate entre los creativos: ¿qué datos usaron para entrenar su modelo de IA? Esto fue seguido por la primera demanda en la que dos autores alegaron que la empresa usó su trabajo sin autorización para entrenar el conjunto de datos de la IA.
Hoy en día, algunas de las marcas más influyentes están en la lista por una razón similar, incluyendo Apple, Salesforce, Nvidia y Anthropic, entrenando su conjunto de datos de IA en videos de YouTube sin consentimiento o autorización adecuada. Un informe de WIRED, en colaboración con Proof News, detalla lo que sucedió exactamente.
La investigación “encontró que los subtítulos de 173,536 videos de YouTube, extraídos de más de 48,000 canales, fueron utilizados por gigantes tecnológicos del Valle del Silicio, incluidos Anthropic, Nvidia, Apple y Salesforce”.
El proveedor en cuestión que proporcionó a los gigantes tecnológicos datos es EleuterAI, que reunió un conjunto de datos llamado Pile, que Apple supuestamente utilizó para entrenar su LLM. Una parte de este conjunto de datos, llamado subtítulos de YouTube, consiste en subtítulos de videos de YouTube sin permiso. Eso no solo es antiético, sino también una clara violación de los términos y condiciones de YouTube.
The Mac Observer se puso en contacto con Apple para comentar sobre esta historia, pero hasta el momento de la publicación, Apple no ha respondido. Actualizaremos esta historia tan pronto como recibamos una respuesta de Apple.
A pesar de que Apple Intelligence llegó tarde a la fiesta de la IA, como he dicho a menudo, siempre he argumentado que la empresa ha sido ética en sus prácticas (como, por ejemplo, cuando se acercó a los editores para hacer un trato para entrenar su conjunto de datos de IA en archivos). Sin embargo, a pesar de estas intenciones, parece que Apple Intelligence ha sido entrenada en subtítulos de YouTube sin autorización adecuada, lo cual no deja una impresión muy buena.