La empresa matriz de TikTok lanzó un raspador web que está devorando los datos en línea del mundo 25 veces más rápido que OpenAI.

ByteDance parece estar ansioso por compensar el tiempo perdido cuando se trata de raspar la web en busca de datos necesarios para entrenar sus modelos de IA generativos.

La empresa matriz con sede en China de la aplicación de video TikTok lanzó su propio rastreador web o bot de rastreo, llamado Bytespider, en algún momento de abril, según investigaciones de Kasada, una empresa especializada en gestión de bots para empresas con datos en línea. La existencia del bot también fue confirmada por Dark Visitors, que monitorea bots rastreadores.

El bot de ByteDance se ha convertido rápidamente en uno de los rastreadores más agresivos en internet, si no el más agresivo, según muestran las investigaciones. Está raspando datos a una velocidad muchas veces mayor que otras empresas importantes, como (Google, Meta, Amazon, OpenAI y Anthropic, que utilizan sus propios bots rastreadores para ayudar a crear y mejorar sus grandes modelos de lenguaje o multimodales, conocidos como LLMs o LMMs.

Sam Crowther, CEO de Kasada, dijo que desde la aparición de Bytespider, ha estado raspando datos a aproximadamente 25 veces la velocidad de GPTbot, que raspa datos para la plataforma ChatGPT de OpenAI y sus modelos subyacentes, por ejemplo. Bytespider ha estado raspando a una velocidad 3,000 veces mayor que ClaudeBot, de Anthropic, que opera la plataforma Claude.

A medida que han pasado los meses, Bytespider se ha vuelto aún más agresivo, según Kasada. Los datos muestran enormes picos en la actividad de raspado de Bytespider durante cada una de las últimas seis semanas.

Representantes de TikTok y ByteDance no respondieron a correos electrónicos en busca de comentarios.

LEAR  BLUETTI AC240: El primer generador resistente a la intemperie del mundo

El raspado agresivo de ByteDance se produce a pesar de la posibilidad de que TikTok sea prohibido en los EE. UU. en los próximos meses. El presidente Joe Biden ha firmado una legislación que requiere que ByteDance venda TikTok, debido a preocupaciones de seguridad nacional, o lo cierre.

El bot Bytespider, al igual que los de OpenAI y Anthropic, no respeta robots.txt, según muestra la investigación. Robots.txt es una línea de código que los editores pueden colocar en un sitio web que, si bien no tiene validez legal de ninguna manera, se supone que señala a los bots rastreadores que no pueden tomar los datos de ese sitio web.

El raspado web se remonta a décadas, principalmente por motores de búsqueda para recopilar enlaces a páginas web. Pero el surgimiento de herramientas de IA generativas ha añadido una nueva dimensión y ha convertido la práctica en una fuente principal de demandas y controversias. Personas y organizaciones cuyo trabajo ha sido raspado argumentan que se está infringiendo su derecho de autor en el proceso. Todos los modelos que subyacen a las herramientas de IA generativa fueron entrenados con cantidades masivas de datos en línea, efectivamente todo lo disponible en la web, especialmente información escrita. Las empresas tecnológicas utilizan bots rastreadores para básicamente copiarlo todo de forma gratuita y ponerlo en sus conjuntos de datos.

“Es como si estuvieran intentando desesperadamente ponerse al día”, dijo Crowther sobre el raspado agresivo realizado por Bytespider. Justo el año pasado, ByteDance supuestamente estaba tan rezagado en la carrera de IA generativa que estaba utilizando OpenAI para ayudar a construir su propio LLM, lo cual va en contra de los términos de servicio de OpenAI. A principios de este año, ByteDance lanzó un LLM basado en chat llamado Duabo, pero el trabajo en ese modelo se habría completado antes de la acumulación de datos de entrenamiento más recientes raspados por Bytespider.

LEAR  Los fabricantes de chips enfrentan una crisis inminente en el trabajo

Es “evidente” que ByteDance está trabajando en un nuevo LLM, según una persona familiarizada con la empresa. En cuanto a lo que ByteDance planea hacer con un nuevo LLM, una persona familiarizada con las ambiciones de la empresa dijo que uno de los objetivos tiene que ver con la función de búsqueda de TikTok.

La semana pasada, TikTok lanzó una actualización de su función actual de búsqueda centrada en palabras clave para anuncios, básicamente permitiendo a los anunciantes buscar en tiempo real palabras que son tendencia en TikTok. Permite a los especialistas en marketing construir un anuncio con palabras clave relevantes que, en teoría, ayudarían a que el anuncio aparezca en las pantallas de más usuarios.

Un nuevo modelo de IA con datos sobre tendencias y temas más recientes de Internet podría ampliar y mejorar aún más el entorno de búsqueda de TikTok, según la persona familiarizada con las ambiciones de la empresa.

“Dado el público y la cantidad de uso, TikTok con un entorno de búsqueda que es un espacio completamente licitado con palabras clave y temas, eso sería muy interesante para mucha gente que gasta una tonelada de dinero con Google en este momento”, dijo la persona.

¿Eres un empleado de TikTok o ByteDance o alguien con información o una pista para compartir? Comunícate de forma segura con Kali Hays a través de Signal al +1-949-280-0267 o a [email protected].

Boletín recomendado
Data Sheet: Mantente al tanto del negocio de la tecnología con un análisis reflexivo sobre los nombres más grandes de la industria.
Regístrate aquí.”

Leave a Comment