La empresa Anthropica avanza con ‘jailbreak’ para detener modelos de inteligencia artificial que producen resultados perjudiciales.

Mantente informado con actualizaciones gratuitas

La start-up de inteligencia artificial Anthropic ha demostrado una nueva técnica para evitar que los usuarios obtengan contenido dañino de sus modelos, mientras que los principales grupos tecnológicos como Microsoft y Meta compiten por encontrar formas de protegerse contra los peligros que plantea esta tecnología de vanguardia.

En un artículo publicado el lunes, la start-up con sede en San Francisco describió un nuevo sistema llamado “clasificadores constitucionales”. Se trata de un modelo que actúa como una capa de protección sobre grandes modelos de lenguaje como el que impulsa el chatbot Claude de Anthropic, que puede monitorear tanto las entradas como las salidas en busca de contenido dañino.

El desarrollo de Anthropic, que está en conversaciones para recaudar $2 mil millones con una valoración de $60 mil millones, se produce en medio de la creciente preocupación en la industria por el “jailbreaking”; es decir, intentos de manipular modelos de IA para generar información ilegal o peligrosa, como producir instrucciones para fabricar armas químicas.

Otras empresas también están compitiendo por implementar medidas para protegerse contra esta práctica, en movimientos que podrían ayudarles a evitar el escrutinio regulatorio mientras convencen a las empresas de adoptar modelos de IA de manera segura. Microsoft introdujo “escudos de prompts” en marzo pasado, mientras que Meta introdujo un modelo guardián de prompts en julio del año pasado, que los investigadores encontraron rápidamente formas de eludir pero que posteriormente se corrigieron.

LEAR  Boeing espera que los proveedores del 787 se pongan al día para finales de año, restaurando la producción.

Mrinank Sharma, miembro del personal técnico en Anthropic, dijo: “La principal motivación detrás del trabajo fue el tema de armas químicas graves, pero la verdadera ventaja del método es su capacidad para responder rápidamente y adaptarse”.

Anthropic dijo que no implementaría inmediatamente el sistema en sus modelos actuales de Claude, pero consideraría implementarlo si se lanzaran modelos más arriesgados en el futuro. Sharma agregó: “La lección clave de este trabajo es que creemos que este es un problema tratable”.

La solución propuesta por la start-up se basa en una “constitución” de reglas que define lo permitido y lo restringido, y puede adaptarse para capturar diferentes tipos de contenido.

Algunos intentos de jailbreak son bien conocidos, como utilizar mayúsculas inusuales en el prompt o pedir al modelo que adopte la personalidad de una abuela para contar una historia sobre un tema nefasto.

Para validar la efectividad del sistema, Anthropic ofreció “recompensas por errores” de hasta $15,000 a personas que intentaron eludir las medidas de seguridad. Estos probadores, conocidos como equipos rojos, pasaron más de 3,000 horas tratando de superar las defensas.

El modelo Sonnet Claude 3.5 de Anthropic rechazó más del 95 por ciento de los intentos con los clasificadores en su lugar, en comparación con el 14 por ciento sin protección.

Las principales empresas tecnológicas están tratando de reducir el mal uso de sus modelos, manteniendo al mismo tiempo su utilidad. A menudo, cuando se implementan medidas de moderación, los modelos pueden volverse cautelosos y rechazar solicitudes inofensivas, como en las primeras versiones del generador de imágenes Gemini de Google o el Llama 2 de Meta. Anthropic dijo que sus clasificadores causaron “solo un aumento absoluto del 0.38 por ciento en las tasas de rechazo”.

LEAR  Futuros del índice Dow Jones: Powell, jefe de la Fed, y el IPC acechan; Palantir, Meta entre las mejores acciones para comprar

Sin embargo, agregar estas protecciones también implica costos adicionales para empresas que ya pagan sumas enormes por la potencia informática necesaria para entrenar y ejecutar modelos. Anthropic dijo que el clasificador representaría un aumento de casi el 24 por ciento en los “costos de inferencia”, es decir, los costos de ejecución de los modelos.

Expertos en seguridad han argumentado que la accesibilidad de chatbots generativos ha permitido a personas comunes sin conocimientos previos intentar extraer información peligrosa.

“En 2016, el actor amenazante que teníamos en mente era un adversario de nación-estado realmente poderoso”, dijo Ram Shankar Siva Kumar, quien lidera el equipo rojo de IA en Microsoft. “Ahora literalmente uno de los actores amenazantes es un adolescente con una boca sucia”.

Leave a Comment