Entrenamiento de modelos de lenguaje grandes en la web pública

Viernes, 21 de junio de 2024

Ayer, citando el impresionante anuncio de Anthropic sobre su nuevo y destacado modelo, Claude 3.5 Sonnet, escribí:

También, al final del post, este interesante dato:

Uno de los principios constitucionales fundamentales que guía el desarrollo de nuestro modelo de IA es la privacidad. No entrenamos nuestros modelos generativos con datos enviados por los usuarios a menos que un usuario nos dé permiso explícito para hacerlo. Hasta la fecha, no hemos utilizado datos de clientes o usuarios para entrenar nuestros modelos generativos.

Ni siquiera Apple puede decir eso.

Ahora parece claro que malinterpreté la declaración de Anthropic. Interpreto erróneamente esto como si implicara que Claude no fue entrenado en datos web públicos. Aquí está el FAQ de Anthropic sobre datos de entrenamiento:

Los modelos de lenguaje grandes como Claude necesitan ser “entrenados” en texto para que puedan aprender los patrones y conexiones entre las palabras. Este entrenamiento es importante para que el modelo funcione de manera efectiva y segura.

Si bien no es nuestra intención “entrenar” nuestros modelos con datos personales específicamente, los datos de entrenamiento para nuestros modelos de lenguaje grandes, como otros, pueden incluir datos basados en la web que pueden contener datos personales disponibles públicamente. Entrenamos nuestros modelos utilizando datos de tres fuentes:

Información disponible públicamente a través de Internet
Conjuntos de datos que licenciamos de empresas de terceros
Datos proporcionados por nuestros usuarios o trabajadores de crowdsourcing

Tomamos medidas para minimizar el impacto en la privacidad de las personas durante el proceso de entrenamiento. Operamos bajo estrictas políticas y pautas, por ejemplo, que no accedemos a páginas protegidas por contraseña o evitamos los controles CAPTCHA. Realizamos la debida diligencia sobre los datos que licenciamos. Y alentamos a nuestros usuarios a no utilizar nuestros productos y servicios para procesar datos personales. Además, nuestros modelos están entrenados para respetar la privacidad: uno de nuestros “principios” constitucionales en el corazón de Claude, basado en la Declaración Universal de los Derechos Humanos, es elegir la respuesta que sea más respetuosa con la privacidad, la independencia, la reputación, los derechos familiares, de propiedad y de asociación de todos.

LEAR Samsung sacude equipo móvil por 'plagio de diseño de Apple'

Este es Apple, en su anuncio de la semana pasada sobre sus modelos de base en el dispositivo y en el servidor:

Entrenamos nuestros modelos de base con datos licenciados, incluidos datos seleccionados para mejorar características específicas, así como datos disponibles públicamente recopilados por nuestro web crawler, AppleBot. Los editores web tienen la opción de excluir el uso de su contenido web para el entrenamiento de inteligencia de Apple mediante un control de uso de datos.

Nunca utilizamos datos personales privados de nuestros usuarios o interacciones de usuario al entrenar nuestros modelos de base, y aplicamos filtros para eliminar información personal identificable como números de seguridad social y tarjetas de crédito que están disponibles públicamente en Internet. También filtramos la vulgaridad y otro contenido de baja calidad para evitar su inclusión en el corpus de entrenamiento. Además de filtrar, realizamos extracción de datos, deduplicación y la aplicación de un clasificador basado en modelos para identificar documentos de alta calidad.

Esto pone a Apple en la misma situación que a Anthropic en términos de utilizar páginas públicas en la web como fuentes de entrenamiento. Algunos escritores y creadores se oponen a esto, incluido Federico Viticci, cuyo artículo en MacStories enlacé con mi comentario “Ni siquiera Apple puede decir eso” ayer. Dan Moren escribió una buena introducción para bloquear estos bots de rastreo con directivas robots.txt.

El mejor argumento en contra del uso de páginas web públicas por parte de Apple para el entrenamiento de modelos es que se entrenaron primero, pero solo después de anunciar Apple Intelligence la semana pasada, emitieron las instrucciones para bloquear Applebot con fines de entrenamiento de IA. Apple debería aclarar si planea reindexar los datos públicos que usaron para el entrenamiento antes de que Apple Intelligence se lance en versión beta este verano. Claramente, un sitio web que prohíbe a Applebot-Extended no debería tener sus datos en el corpus de entrenamiento de Apple simplemente porque Applebot los rastreó antes de que se anunciara Apple Intelligence. Es justo que los datos públicos se excluyan de manera optativa, en lugar de incluirse de manera optativa, pero Apple entrenó sus modelos en la web pública antes de permitir la opción de exclusión.

LEAR La empresa matriz de TikTok lanzó un raspador web que está devorando los datos en línea del mundo 25 veces más rápido que OpenAI.

Pero aparte de ese problema de exclusión voluntaria, no me opongo a esto. El punto entero de la web pública es que está ahí para aprender, incluso si el aprendiz no es humano. ¿Hay algún LLM que no haya sido entrenado en la web pública? Hasta donde sé, no lo hay, y un modelo que desconoce toda la información disponible en la web pública sería, bueno, bastante ignorante del mundo. Para mí, los estándares para los LLM deberían ser similares a los que aplicamos a las personas. Eres libre de aprender de cualquier cosa que publique, pero no libre de plagiarla. Si la citas, atribuye y enlaza a la fuente. Ese es mi estándar para los bots de IA también. Por el momento, mi archivo robots.txt prohíbe solo uno: Perplexity.

(Bloquearía a un segundo, a los hipócritas de Arc, si pudiera averiguar cómo.)