En el corto tiempo desde que la inteligencia artificial llegó al público en general, su poder para hacer lo anteriormente inimaginable ya es evidente. Pero junto con ese potencial asombroso, viene la posibilidad de que los AIs sean impredecibles, ofensivos, e incluso peligrosos. Esa posibilidad llevó al CEO de Google, Sundar Pichai, a decir a los empleados que desarrollar la IA de manera responsable era una prioridad principal de la compañía en 2024. Ya hemos visto gigantes tecnológicos como Meta, Apple y Microsoft unirse a un esfuerzo liderado por el gobierno de los Estados Unidos para avanzar en prácticas de IA responsables. El Reino Unido también está invirtiendo en crear herramientas para regular la IA, al igual que muchos otros, desde la Unión Europea hasta la Organización Mundial de la Salud y más allá. Este enfoque creciente en el poder único de la IA para comportarse de maneras inesperadas ya está impactando cómo se perciben, comercializan y adoptan los productos de IA. Ya no son sólo las medidas tradicionales de éxito empresarial — como velocidad, escalabilidad y precisión— las que las compañías están promocionando para sus productos. Cada vez más hablan de sus productos en términos de su comportamiento, lo que finalmente refleja sus valores. Un punto de venta para productos que van desde autos autónomos hasta electrodomésticos inteligentes es ahora cuán bien encarnan valores específicos, como la seguridad, dignidad, equidad, inofensividad y utilidad. De hecho, a medida que la IA se incorpora en más aspectos de la vida diaria, los valores sobre los cuales se basan sus decisiones y comportamientos emergen como características críticas del producto. Como resultado, garantizar que los resultados de la IA en todas las etapas de uso reflejen ciertos valores no es una preocupación cosmética para las empresas: La alineación de valores que impulse el comportamiento de los productos de IA impactará significativamente la aceptación del mercado, eventualmente la participación de mercado y, en última instancia, la supervivencia de la compañía. Inculcar los valores correctos y exhibir los comportamientos adecuados se convertirá cada vez más en una fuente de diferenciación y ventaja competitiva. ¿Pero cómo hacen las empresas para actualizar su desarrollo de IA para asegurarse de que sus productos y servicios se comporten como sus creadores intentan? Para ayudar a enfrentar este desafío, hemos dividido los desafíos de transformación más importantes en cuatro categorías, basándonos en nuestro trabajo reciente en Harvard Business Review. También proporcionamos una visión general de los marcos, prácticas y herramientas en los que los ejecutivos pueden basarse para responder a la pregunta: ¿Cómo logras que tus valores de IA sean los correctos? 1. Define tus valores, escríbelos en el programa — y asegúrate de que tus socios los compartan también La primera tarea es determinar cuáles valores deben tenerse en cuenta. Dada la amplitud del impacto potencial de la IA en la sociedad, las empresas necesitarán considerar un grupo de partes interesadas más diverso de lo que normalmente lo harían. Esto se extiende más allá de los empleados y clientes para incluir organizaciones de la sociedad civil, formuladores de políticas, activistas, asociaciones industriales, y otros. Las preferencias de cada una de estas partes interesadas deberán ser entendidas y equilibradas. Un enfoque es incorporar principios inspirados en teorías morales establecidas o marcos desarrollados por instituciones globales creíbles, como la UNESCO. Los principios del modelo Claude de Anthropic, por ejemplo, se toman de la Declaración Universal de Derechos Humanos de las Naciones Unidas. BMW, por su parte, deriva sus valores de IA de los requisitos de la UE para la IA confiable. Otro enfoque es articular tus propios valores desde cero, a menudo reuniendo a un equipo de especialistas (tecnólogos, éticos y expertos en derechos humanos). Por ejemplo, el laboratorio de investigación de IA DeepMind recogió feedback basado en la idea del filósofo John Rawls de un “velo de ignorancia”, en la que las personas proponen reglas para una comunidad sin tener ningún conocimiento de cómo las reglas las afectarán individualmente. Los resultados de DeepMind fueron sorprendentes en el sentido de que se centraron en cómo la IA puede ayudar a los más desfavorecidos, lo que facilitó obtener la aprobación de los usuarios. Identificar los valores correctos es un proceso dinámico y complejo que también debe responder a una regulación en evolución en todas las jurisdicciones. Pero una vez que esos valores están claramente definidos, las empresas también necesitarán escribirlos en el programa para restringir explícitamente el comportamiento de la IA. Empresas como Nvidia y OpenAI están desarrollando marcos para escribir guardrails formales de generación de IA en sus programas para asegurar que no cruzan líneas rojas al llevar a cabo solicitudes incorrectas o generar contenido inaceptable. De hecho, OpenAI ha diferenciado su modelo GPT-4 por sus valores mejorados, comercializándolo como un 82% menos probable que su modelo predecesor en responder a solicitudes inapropiadas, como generar discursos de odio o código para malware. Es crucial que la alineación con los valores requiera el paso adicional de llevar a los socios consigo. Esto es particularmente importante (y desafiante) para productos creados con modelos de terceros debido a las limitaciones en cuanto a cuánto pueden ajustarlos las empresas. Solo los desarrolladores de los modelos originales saben qué datos se utilizaron para entrenarlos. Antes de lanzar nuevas asociaciones, los desarrolladores de IA pueden necesitar establecer procesos para descubrir los valores de los modelos y datos de IA externos, de manera similar a como las empresas evalúan la sostenibilidad de los posibles socios. A medida que los modelos fundamentales evolucionan, las empresas pueden necesitar cambiar los modelos en los que confían, lo que refuerza aún más la debida diligencia de IA basada en valores como fuente de ventaja competitiva. 2. Evaluar los compromisos Las empresas se enfrentan cada vez más a desafíos para equilibrar valores a menudo competitivos. Por ejemplo, empresas que ofrecen productos para ayudar a los ancianos o educar a los niños deben considerar no sólo la seguridad sino también la dignidad y la agencia. ¿Cuándo no debería la IA ayudar a los usuarios ancianos para fortalecer su confianza y respetar su dignidad? ¿Cuándo debería ayudar a un niño para asegurar una experiencia de aprendizaje positiva? Un enfoque para este acto de equilibrio es segmentar el mercado según valores. Una empresa como DuckDuckGo lo hace al enfocarse en un mercado de búsqueda más pequeño que valora más la privacidad que la precisión algorítmica, lo que le permite posicionarse como una opción diferenciada para los usuarios de Internet. Los gerentes deberán tomar juicios matizados sobre si cierto contenido generado o recomendado por la IA es perjudicial. Para orientar estas decisiones, las organizaciones necesitan establecer procesos y canales claros de comunicación con las partes interesadas desde el principio para garantizar un feedback, alineación y aprendizaje continuos. Una forma de gestionar estos esfuerzos es estableciendo un mecanismo de control de IA con verdadera independencia y autoridad dentro de la empresa. 3. Garantizar la retroalimentación humana Mantener los valores de un producto de IA, incluido abordar los sesgos, requiere una extensa retroalimentación humana sobre el comportamiento de la IA, datos que deberán ser gestionados a través de nuevos procesos. La comunidad de investigación en IA ha desarrollado varias herramientas para asegurar que los modelos entrenados reflejen con precisión las preferencias humanas en sus respuestas. Un enfoque fundamental, utilizado por GPT-3, implica “ajuste fino supervisado” (SFT), donde los modelos reciben respuestas cuidadosamente curadas a preguntas clave. Basándose en esto, técnicas más sofisticadas como “aprendizaje por refuerzo a partir de la retroalimentación humana” (RLHF) y “optimización directa de la preferencia” (DPO) han hecho posible ajustar de manera más iterativa los comportamientos de la IA en un ciclo de feedback basado en las valoraciones humanas de las salidas del modelo. Lo que es común a todas estas metodologías de ajuste fino es la necesidad de una retroalimentación humana real para “empujar” a los modelos hacia una mayor alineación con los valores relevantes. Pero ¿quién proporciona la retroalimentación y cómo? En las etapas iniciales, los ingenieros pueden proporcionar retroalimentación mientras prueban la salida de la IA. Otra práctica es crear “equipos rojos” que actúan como adversarios y prueban la IA al empujarla hacia un comportamiento no deseado para explorar cómo puede fallar. A menudo, estos son equipos internos, pero también se pueden aprovechar comunidades externas. En algunos casos, las compañías pueden recurrir a los propios usuarios o consumidores para proporcionar retroalimentación valiosa. Empresas de redes sociales y de juegos en línea, por ejemplo, han establecido procesos de moderación de contenido y gestión de calidad, así como protocolos de escalada que se basan en denuncias de los usuarios sobre actividad sospechosa. Luego, los moderadores revisan esas denuncias siguiendo pautas detalladas para decidir si eliminar el contenido. 4. Prepararse para sorpresas A medida que los sistemas de IA se vuelven más grandes y poderosos, también pueden mostrar comportamientos más inesperados. Dichos comportamientos aumentarán en frecuencia a medida que se pida a los modelos de IA que realicen tareas para las cuales no fueron programados explícitamente y se creen infinitas versiones de un producto de IA, según cómo interactúa cada usuario con él. El desafío para las empresas será garantizar que todas esas versiones sigan alineadas. La IA misma puede ayudar a mitigar este riesgo. Algunas empresas ya despliegan un modelo de IA para desafiar a otro con aprendizaje adversarial. Más recientemente, se han utilizado herramientas para la detección de fuera de distribución (OOD) para ayudar a la IA con cosas que no ha encontrado antes. El robot ajedrecista que agarró la mano de un niño porque la confundió con una pieza de ajedrez es un ejemplo clásico de lo que podría suceder. Lo que hacen las herramientas OOD es ayudar a la IA a “saber lo que no sabe” y abstenerse de actuar en situaciones para las cuales no fue entrenada para manejar. Aunque es imposible erradicar por completo, el riesgo asociado con el comportamiento impredecible puede manejarse proactivamente. El sector farmacéutico enfrenta un desafío similar cuando los pacientes y médicos reportan efectos secundarios no identificados durante ensayos clínicos, lo que a menudo conduce…