En los primeros días de la informática de alto rendimiento, las principales empresas tecnológicas de la época invirtieron fuertemente en desarrollar sus propias versiones cerradas de Unix. Era difícil imaginar en ese momento que cualquier otro enfoque pudiera desarrollar un software tan avanzado. Sin embargo, con el tiempo, Linux de código abierto ganó popularidad, inicialmente porque permitía a los desarrolladores modificar su código como quisieran y era más asequible, y con el tiempo porque se volvió más avanzado, más seguro y tenía un ecosistema más amplio que admitía más capacidades que cualquier Unix cerrado. Hoy en día, Linux es la base estándar de la industria tanto para la informática en la nube como para los sistemas operativos que ejecutan la mayoría de los dispositivos móviles, y todos nos beneficiamos de productos superiores gracias a ello.
Creo que la IA se desarrollará de manera similar. Hoy en día, varias empresas tecnológicas están desarrollando modelos líderes cerrados. Pero el código abierto se está acercando rápidamente. El año pasado, Llama 2 solo era comparable a una generación anterior de modelos detrás de la frontera. Este año, Llama 3 es competitiva con los modelos más avanzados y líder en algunas áreas. A partir del próximo año, esperamos que los futuros modelos de Llama se conviertan en los más avanzados de la industria. Pero incluso antes de eso, Llama ya está liderando en apertura, modificabilidad y eficiencia de costos.
Hoy estamos dando los próximos pasos hacia que la IA de código abierto se convierta en el estándar de la industria. Estamos lanzando Llama 3.1 405B, el primer modelo de IA de código abierto de nivel fronterizo, así como modelos nuevos y mejorados de Llama 3.1 de 70B y 8B. Además de tener un mejor costo/rendimiento en comparación con modelos cerrados, el hecho de que el modelo 405B sea de código abierto lo convertirá en la mejor opción para ajustar y destilar modelos más pequeños.
Además de lanzar estos modelos, estamos trabajando con una variedad de empresas para hacer crecer el ecosistema más amplio. Amazon, Databricks y NVIDIA están lanzando suites completas de servicios para ayudar a los desarrolladores a ajustar y destilar sus propios modelos. Innovadores como Groq han desarrollado servicios de inferencia de baja latencia y bajo costo para todos los nuevos modelos. Los modelos estarán disponibles en todas las principales nubes, incluidas AWS, Azure, Google, Oracle y más. Empresas como Scale.AI, Dell, Deloitte y otras están listas para ayudar a las empresas a adoptar Llama y entrenar modelos personalizados con sus propios datos. A medida que la comunidad crezca y más empresas desarrollen nuevos servicios, podemos hacer colectivamente que Llama sea el estándar de la industria y llevar los beneficios de la IA a todos.
Meta está comprometida con la IA de código abierto. Detallaré por qué creo que el código abierto es la mejor pila de desarrollo para ti, por qué la apertura de Llama es buena para Meta y por qué la IA de código abierto es buena para el mundo y, por lo tanto, una plataforma que perdurará a largo plazo.
Por qué la IA de Código Abierto Es Buena para los Desarrolladores
Cuando hablo con desarrolladores, directores ejecutivos y funcionarios gubernamentales de todo el mundo, suelo escuchar varios temas:
La necesidad de entrenar, ajustar y destilar nuestros propios modelos. Cada organización tiene diferentes necesidades que se satisfacen mejor con modelos de diferentes tamaños que se entrenan o ajustan con sus datos específicos. Las tareas en el dispositivo y las tareas de clasificación requieren modelos pequeños, mientras que las tareas más complicadas requieren modelos más grandes. Ahora podrás tomar los modelos de Llama más avanzados, continuar entrenándolos con tus propios datos y luego destilarlos a un tamaño óptimo de modelo, sin que nosotros ni nadie más vea tus datos.
La necesidad de controlar nuestro propio destino y no quedarnos atados a un proveedor cerrado. Muchas organizaciones no quieren depender de modelos que no pueden ejecutar y controlar por sí mismas. No quieren que los proveedores de modelos cerrados puedan cambiar su modelo, alterar sus términos de uso o incluso dejar de servirles por completo. Tampoco quieren quedar atrapados en una nube única que tenga derechos exclusivos sobre un modelo. El código abierto permite un amplio ecosistema de empresas con cadenas de herramientas compatibles entre las que puedes moverte fácilmente.
La necesidad de proteger nuestros datos. Muchas organizaciones manejan datos sensibles que necesitan asegurar y no pueden enviar a modelos cerrados a través de las API en la nube. Otras organizaciones simplemente no confían en los proveedores de modelos cerrados con sus datos. El código abierto aborda estos problemas al permitirte ejecutar los modelos donde quieras. Es ampliamente aceptado que el software de código abierto tiende a ser más seguro porque se desarrolla de manera más transparente.
Necesitamos un modelo eficiente y asequible para ejecutar. Los desarrolladores pueden ejecutar la inferencia en Llama 3.1 405B en su propia infraestructura a aproximadamente el 50% del costo de usar modelos cerrados como GPT-4o, tanto para tareas de inferencia orientadas al usuario como fuera de línea.
Queremos invertir en el ecosistema que va a ser el estándar a largo plazo. Muchas personas ven que el código abierto avanza a un ritmo más rápido que los modelos cerrados, y quieren construir sus sistemas sobre la arquitectura que les dará la mayor ventaja a largo plazo.
Por qué la IA de Código Abierto es Buena para Meta
El modelo de negocio de Meta consiste en construir las mejores experiencias y servicios para las personas. Para hacer esto, debemos asegurarnos de que siempre tengamos acceso a la mejor tecnología y no quedemos atrapados en el ecosistema cerrado de un competidor donde puedan restringir lo que construimos.
Una de mis experiencias formativas ha sido construir nuestros servicios limitados por lo que Apple nos permite construir en sus plataformas. Entre la forma en que gravan a los desarrolladores, las reglas arbitrarias que aplican y todas las innovaciones de productos que bloquean para su envío, está claro que Meta y muchas otras empresas podrían liberarse para construir servicios mucho mejores para las personas si pudiéramos construir las mejores versiones de nuestros productos y los competidores no pudieran restringir lo que podríamos construir. En un nivel filosófico, esta es una de las principales razones por las que creo firmemente en la construcción de ecosistemas abiertos en IA y RA/VR para la próxima generación de computación.
A menudo la gente me pregunta si me preocupa renunciar a una ventaja técnica al hacer de Llama un proyecto de código abierto, pero creo que esto pasa por alto el panorama general por algunas razones:
Primero, para asegurarnos de tener acceso a la mejor tecnología y no estar encerrados en un ecosistema cerrado a largo plazo, Llama necesita desarrollarse en un ecosistema completo de herramientas, mejoras de eficiencia, optimizaciones de silicio y otras integraciones. Si fuéramos la única empresa que usa Llama, este ecosistema no se desarrollaría y no nos iría mejor que con las variantes cerradas de Unix.
Segundo, espero que el desarrollo de IA siga siendo muy competitivo, lo que significa que la liberación de código abierto de cualquier modelo dado no está dando una gran ventaja sobre los próximos mejores modelos en ese momento. El camino para que Llama se convierta en el estándar de la industria es siendo consistentemente competitiva, eficiente y generación abierta tras generación abierta.
Tercero, una diferencia clave entre Meta y los proveedores de modelos cerrados es que vender acceso a modelos de IA no es nuestro modelo de negocio. Eso significa que lanzar abiertamente Llama no socava nuestros ingresos, sostenibilidad o capacidad para invertir en investigación como lo hace para los proveedores cerrados. (Esta es una de las razones por las cuales varios proveedores cerrados constantemente presionan a los gobiernos en contra del código abierto.)
Finalmente, Meta tiene una larga historia de proyectos y éxitos de código abierto. Hemos ahorrado miles de millones de dólares liberando nuestros diseños de servidores, redes y centros de datos con el Proyecto Open Compute y teniendo cadenas de suministro que se estandarizan en nuestros diseños. Hemos beneficiado de las innovaciones del ecosistema liberando herramientas líderes como PyTorch, React y muchas otras herramientas. Este enfoque ha funcionado consistentemente para nosotros cuando lo mantenemos a lo largo del tiempo.
Por qué la IA de Código Abierto es Buena para el Mundo
Creo que el código abierto es necesario para un futuro positivo de la IA. La IA tiene más potencial que cualquier otra tecnología moderna para aumentar la productividad, la creatividad y la calidad de vida humana, y para acelerar el crecimiento económico mientras desbloquea el progreso en la investigación médica y científica. El código abierto asegurará que más personas en todo el mundo tengan acceso a los beneficios y oportunidades de la IA, que el poder no se concentre en manos de un pequeño número de empresas, y que la tecnología pueda desplegarse de manera más equitativa y segura en toda la sociedad.
Hay un debate en curso sobre la seguridad de los modelos de IA de código abierto, y mi opinión es que la IA de código abierto será más segura que las alternativas. Creo que los gobiernos concluirán que les conviene apoyar el código abierto porque hará que el mundo sea más próspero y seguro.
Mi marco para comprender la seguridad es que debemos protegernos contra dos categorías de daño: no intencional e intencional. El daño no intencional es cuando un sistema de IA puede causar daño incluso cuando no fue intención de quienes lo ejecutan hacerlo. Por ejemplo, los modelos de IA modernos pueden dar consejos de salud inapropiados por error. O, en escenarios más futuristas, algunos temen que los modelos puedan replicarse o optimizar objetivos hiper a expensas de la humanidad. El daño intencional es cuando un actor malintencionado usa un modelo de IA con el objetivo de causar daño.
Vale la pena señalar que el daño no intencional cubre la mayoría de las preocupaciones que las personas tienen en torno a la IA, que van desde la influencia que tendrán los sistemas de IA en los miles de millones de personas que los utilizarán hasta la mayoría de los escenarios verdaderamente catastróficos de ciencia ficción para la humanidad. En este sentido, el código abierto debería ser significativamente más seguro, ya que los sistemas son más transparentes y pueden ser ampliamente examinados. Históricamente, el software de código abierto ha sido más seguro por esta razón. Del mismo modo, el uso de Llama con sus sistemas de seguridad como Llama Guard probablemente será más seguro y más seguro que los modelos cerrados. Por esta razón, la mayoría de las conversaciones sobre la seguridad de la IA de código abierto se centran en el daño intencional.
Nuestro proceso de seguridad incluye pruebas rigurosas y red teaming para evaluar si nuestros modelos son capaces de causar daño significativo, con el objetivo de mitigar los riesgos antes de la liberación. Dado que los modelos son de código abierto, cualquier persona es capaz de probarlos por sí misma también. Debemos tener en cuenta que estos modelos se entrenan con información que ya está en internet, por lo que el punto de partida al considerar el daño debería ser si un modelo puede facilitar más daño que la información que se puede obtener rápidamente de Google u otros resultados de búsqueda.
Cuando se razona sobre el daño intencional, es útil distinguir lo que los actores individuales o a pequeña escala pueden hacer en comparación con lo que los actores a gran escala como los estados con vastos recursos pueden hacer.
En algún momento en el futuro, los actores malintencionados individuales pueden utilizar la inteligencia de los modelos de IA para fabricar daños totalmente nuevos a partir de la información disponible en internet. En este punto, el equilibrio de poder será crítico para la seguridad de la IA. Creo que será mejor vivir en un mundo donde la IA esté ampliamente desplegada para que actores más grandes puedan frenar el poder de actores malintencionados más pequeños. Así es como hemos gestionado la seguridad en nuestras redes sociales: nuestros sistemas de IA más robustos identifican y detienen amenazas de actores menos sofisticados que a menudo usan sistemas de IA a menor escala. De manera más amplia, las instituciones más grandes que despliegan IA a gran escala promoverán la seguridad y la estabilidad en la sociedad. Siempre y cuando todos tengan acceso a generaciones de modelos similares, lo que promueve el código abierto, entonces los gobiernos e instituciones con más recursos de cómputo podrán frenar a los actores malos con menos cómputo.
La siguiente pregunta es cómo deberían manejar las amenazas los EE. UU. y las naciones democráticas con recursos masivos como China. La ventaja de Estados Unidos radica en la innovación descentralizada y abierta. Algunas personas argumentan que debemos cerrar nuestros modelos para evitar que China acceda a ellos, pero mi opinión es que esto no funcionará y solo desventajará a los EE. UU. y a sus aliados. Nuestros adversarios son muy buenos en espionaje, y robar modelos que caben en una unidad flash es relativamente fácil, y la mayoría de las empresas tecnológicas están lejos de operar de una manera que dificulte esto. Parece más probable que un mundo de solo modelos cerrados resulte en un pequeño número de grandes empresas más nuestros adversarios geopolíticos teniendo acceso a modelos líderes, mientras que las startups, universidades y pequeñas empresas se pierden oportunidades. Además, restringir la innovación estadounidense al desarrollo cerrado aumenta la posibilidad de que no lideremos en absoluto. En cambio, creo que nuestra mejor estrategia es construir un ecosistema abierto sólido y hacer que nuestras empresas líderes trabajen estrechamente con nuestro gobierno y nuestros aliados para asegurarse de que puedan aprovechar al máximo los últimos avances y lograr una ventaja sostenible como primeros en moverse a largo plazo.
Cuando consideres las oportunidades por delante, recuerda que la mayoría de las principales empresas tecnológicas y la investigación científica de hoy están construidas sobre software de código abierto. La próxima generación de empresas e investigaciones utilizará la IA de código abierto si colectivamente invertimos en ella. Eso incluye a las startups que recién comienzan, así como a las personas en universidades y países que pueden no tener los recursos para desarrollar su propia IA de vanguardia desde cero.
La conclusión es que la IA de código abierto representa la mejor oportunidad del mundo para aprovechar esta tecnología y crear la mayor oportunidad económica y seguridad para todos.
Construyamos esto Juntos
Con los modelos de Llama anteriores, Meta los desarrolló para nosotros mismos y luego los liberamos, pero no nos centramos mucho en construir un ecosistema más amplio. Estamos tomando un enfoque diferente con este lanzamiento. Estamos construyendo equipos internamente para permitir que la mayor cantidad posible de desarrolladores y socios usen Llama, y estamos construyendo activamente asociaciones para que más empresas en el ecosistema puedan ofrecer funcionalidades únicas a sus clientes también.
Creo que el lanzamiento de Llama 3.1 será un punto de inflexión en la industria donde la mayoría de los desarrolladores comiencen a usar principalmente el código abierto, y espero que ese enfoque solo crezca a partir de aquí. Espero que te unas en este viaje para llevar los beneficios de la IA a todos en el mundo.
Puedes acceder a los modelos ahora en llama.meta.com.
💪,
MZ