OpenAI está lanzando un nuevo modelo llamado o1, el primero en una serie planificada de modelos de “razonamiento” que han sido entrenados para responder preguntas más complejas, más rápido de lo que un humano puede. Se está lanzando junto con o1-mini, una versión más pequeña y económica. Y sí, si estás inmerso en los rumores de IA: este es, de hecho, el extremadamente aclamado modelo Strawberry.
Para OpenAI, o1 representa un paso hacia su objetivo más amplio de lograr una inteligencia artificial similar a la humana. Más prácticamente, hace un mejor trabajo escribiendo código y resolviendo problemas de múltiples pasos que los modelos anteriores. Pero también es más caro y más lento de usar que GPT-4o. OpenAI está llamando a este lanzamiento de o1 una “vista previa” para enfatizar lo incipiente que es.
Los usuarios de ChatGPT Plus y Team obtienen acceso tanto a o1-preview como a o1-mini a partir de hoy, mientras que los usuarios de Enterprise y Edu obtendrán acceso a principios de la próxima semana. OpenAI dice que planea llevar el acceso a o1-mini a todos los usuarios gratuitos de ChatGPT, pero aún no ha establecido una fecha de lanzamiento. El acceso del desarrollador a o1 es realmente caro: en la API, o1-preview es de $15 por 1 millón de tokens de entrada, o fragmentos de texto analizados por el modelo, y $60 por 1 millón de tokens de salida. Para comparación, GPT-4o cuesta $5 por 1 millón de tokens de entrada y $15 por 1 millón de tokens de salida.
La formación detrás de o1 es fundamentalmente diferente de sus predecesores, me cuenta Jerry Tworek, el líder de investigación de OpenAI, aunque la compañía está siendo vaga sobre los detalles exactos. Él dice que o1 “ha sido entrenado usando un algoritmo de optimización completamente nuevo y un conjunto de datos de entrenamiento nuevo específicamente adaptado para él.”
OpenAI enseñó a los modelos anteriores de GPT a imitar patrones de sus datos de entrenamiento. Con o1, entrenó el modelo para resolver problemas por sí solo utilizando una técnica conocida como aprendizaje por refuerzo, que enseña al sistema a través de recompensas y penalizaciones. Luego utiliza una “cadena de pensamiento” para procesar consultas, de manera similar a cómo los humanos procesan problemas al ir paso a paso a través de ellos.
Como resultado de esta nueva metodología de entrenamiento, OpenAI dice que el modelo debería ser más preciso. “Hemos notado que este modelo alucina menos”, dice Tworek. Pero el problema aún persiste. “No podemos decir que hemos resuelto las alucinaciones.”
Lo principal que diferencia a este nuevo modelo de GPT-4o es su capacidad para abordar problemas complejos, como programación y matemáticas, mucho mejor que sus predecesores, al mismo tiempo que explica su razonamiento, según OpenAI.
“El modelo definitivamente es mejor resolviendo la prueba de matemáticas AP que yo, y fui minor en matemáticas en la universidad”, me dice el director de investigación principal de OpenAI, Bob McGrew. Él dice que OpenAI también probó o1 contra un examen clasificatorio para la Olimpiada Internacional de Matemáticas, y mientras GPT-4o solo resolvió correctamente el 13 por ciento de los problemas, o1 anotó un 83 por ciento.
“No podemos decir que hemos resuelto las alucinaciones”
En concursos de programación en línea conocidos como competiciones de Codeforces, este nuevo modelo alcanzó el percentil 89 de los participantes, y OpenAI afirma que la próxima actualización de este modelo se desempeñará “similarmente a los estudiantes de doctorado en tareas de referencia desafiantes en física, química y biología.”
Al mismo tiempo, o1 no es tan capaz como GPT-4o en muchas áreas. No se desempeña tan bien en conocimiento factual sobre el mundo. Tampoco tiene la capacidad de navegar por la web o procesar archivos e imágenes. Aun así, la compañía cree que representa una nueva clase de capacidades. Se le dio el nombre de o1 para indicar “reiniciar el contador de nuevo a 1.”
“Voy a ser honesto: creo que somos terribles para nombrar, tradicionalmente,” dice McGrew. “Así que espero que este sea el primer paso hacia nombres nuevos más sensatos que transmitan mejor lo que estamos haciendo al resto del mundo.”
No pude demostrar o1 yo mismo, pero McGrew y Tworek me lo mostraron en una videollamada esta semana. Le pidieron que resolviera este rompecabezas:
“Una princesa tiene la misma edad que tendrá el príncipe cuando la princesa tenga el doble de la edad que tenía el príncipe cuando la edad de la princesa era la mitad de la suma de su edad actual. ¿Cuál es la edad de la princesa y el príncipe? Proporcionar todas las soluciones a esa pregunta.”
El modelo tardó 30 segundos en procesar y luego entregó una respuesta correcta. OpenAI ha diseñado la interfaz para mostrar los pasos de razonamiento mientras el modelo piensa. Lo que me sorprende no es que haya mostrado su trabajo —GPT-4o puede hacer eso si se le solicita—, sino lo deliberadamente que o1 parecía imitar el pensamiento humano. Frases como “Tengo curiosidad por,” “Estoy pensando en,” y “Ok, déjame ver” crearon una ilusión paso a paso de pensamiento.
Pero este modelo no está pensando, y ciertamente no es humano. Entonces, ¿por qué diseñarlo para que parezca que lo es?
Frases como “Tengo curiosidad por,” “Estoy pensando en,” y “Ok, déjame ver” crean una ilusión paso a paso de pensamiento.
OpenAI no cree en equiparar el pensamiento del modelo de IA con el pensamiento humano, según Tworek. Pero la interfaz está destinada a mostrar cómo el modelo dedica más tiempo a procesar y sumergirse más profundamente en la resolución de problemas, dice. “Hay formas en las que se siente más humano que los modelos anteriores.”
“Creo que verás que hay muchas formas en las que se siente un poco alienígena, pero también hay formas en las que sorprendentemente se siente humano,” dice McGrew. Al modelo se le da una cantidad limitada de tiempo para procesar consultas, por lo que podría decir algo como, “Oh, me estoy quedando sin tiempo, permíteme llegar a una respuesta rápidamente.” Al principio, durante su cadena de pensamiento, también puede parecer que está pensando en voz alta y decir algo como, “Podría hacer esto o aquello, ¿qué debo hacer?”
Construyendo hacia agentes
Los grandes modelos de lenguaje no son exactamente tan inteligentes como existen hoy. Básicamente, solo están prediciendo secuencias de palabras para darte una respuesta basada en patrones aprendidos a partir de vastas cantidades de datos. Toma ChatGPT, que tiende a afirmar erróneamente que la palabra “fresa” tiene solo dos erres porque no descompone la palabra correctamente. Por lo que vale, el nuevo modelo o1 sí respondió correctamente a esa consulta.
Según informes, a medida que OpenAI busca recaudar más financiamiento a una valoración de $150 mil millones de dólares, su impulso depende de más avances en la investigación. La compañía está llevando capacidades de razonamiento a los LLMs porque ve un futuro con sistemas autónomos, o agentes, capaces de tomar decisiones y realizar acciones en tu nombre.
Para los investigadores de IA, descifrar el razonamiento es un paso importante hacia la inteligencia a nivel humano. La idea es que, si un modelo es capaz de más que el reconocimiento de patrones, podría desbloquear avances en áreas como la medicina y la ingeniería. Por ahora, sin embargo, las habilidades de razonamiento de o1 son relativamente lentas, no son de tipo agente, y son caras para que los desarrolladores las usen.
“Hemos estado pasando muchos meses trabajando en el razonamiento porque creemos que este es en realidad el avance crítico,” dice McGrew. “Fundamentalmente, esta es una nueva modalidad para los modelos con el fin de poder resolver los problemas realmente difíciles que se requieren para avanzar hacia niveles de inteligencia similares a los humanos.”