“Las empresas de inteligencia artificial como OpenAI buscan superar retrasos y desafíos inesperados en la búsqueda de modelos de lenguaje cada vez más grandes desarrollando técnicas de entrenamiento que utilizan formas más humanas para que los algoritmos “piensen”.
Una docena de científicos, investigadores e inversores en inteligencia artificial le dijeron a Reuters que creen que estas técnicas, que están detrás del modelo o1 recientemente lanzado por OpenAI, podrían remodelar la carrera armamentística de la IA y tener implicaciones en los tipos de recursos que las empresas de IA demandan insaciablemente, desde energía hasta tipos de chips.
OpenAI declinó hacer comentarios para esta historia. Después del lanzamiento del chatbot ChatGPT hace dos años, las empresas tecnológicas, cuyas valoraciones se han beneficiado enormemente del auge de la IA, han mantenido públicamente que “escalar” los modelos actuales a través de la adición de más datos y potencia de cálculo conducirá consistentemente a modelos de IA mejorados.
Pero ahora, algunos de los científicos de IA más prominentes están hablando sobre las limitaciones de esta filosofía de “más grande es mejor”.
Ilya Sutskever, cofundador de los laboratorios de IA Safe Superintelligence (SSI) y OpenAI, le dijo recientemente a Reuters que los resultados de escalar el pre-entrenamiento – la fase de entrenamiento de un modelo de IA que utiliza una vasta cantidad de datos no etiquetados para comprender patrones y estructuras de lenguaje – han alcanzado un límite.
Se suele atribuir a Sutskever ser un defensor temprano de lograr avances masivos en el avance de la inteligencia artificial generativa a través del uso de más datos y potencia de cálculo en el pre-entrenamiento, lo que eventualmente creó ChatGPT. Sutskever dejó OpenAI a principios de este año para fundar SSI.
“La década de 2010 fue la era de la escala, ahora estamos de vuelta en la época del asombro y el descubrimiento una vez más. Todos buscan la próxima cosa”, dijo Sutskever. “Escalar lo correcto importa más que nunca”.
Sutskever se negó a compartir más detalles sobre cómo su equipo está abordando el problema, aparte de decir que SSI está trabajando en un enfoque alternativo para escalar el pre-entrenamiento.
Tras bambalinas, investigadores en grandes laboratorios de IA han enfrentado retrasos y resultados decepcionantes en la carrera por lanzar un gran modelo de lenguaje que supere al modelo GPT-4 de OpenAI, que tiene casi dos años, según tres fuentes familiarizadas con asuntos privados.
Los llamados ‘ejecuciones de entrenamiento’ para modelos grandes pueden costar decenas de millones de dólares al ejecutar cientos de chips simultáneamente. Son más propensos a tener fallas inducidas por hardware dado lo complicado del sistema; los investigadores pueden no conocer el rendimiento final de los modelos hasta el final de la ejecución, que puede durar meses.
Otro problema es que los grandes modelos de lenguaje consumen enormes cantidades de datos, y los modelos de IA han agotado todos los datos de fácil acceso en el mundo. Los cortes de energía también han dificultado las ejecuciones de entrenamiento, ya que el proceso requiere enormes cantidades de energía.
Para superar estos desafíos, los investigadores están explorando el “cómputo en tiempo de prueba”, una técnica que mejora los modelos de IA existentes durante la llamada fase de “inferencia”, o cuando el modelo se está utilizando. Por ejemplo, en lugar de elegir inmediatamente una sola respuesta, un modelo podría generar y evaluar múltiples posibilidades en tiempo real, eligiendo en última instancia el mejor camino a seguir.
Este método permite que los modelos dediquen más potencia de procesamiento a tareas desafiantes como problemas matemáticos, de codificación u operaciones complejas que requieren razonamiento y toma de decisiones humanas.
“Resultó que hacer que un robot piense durante solo 20 segundos en una mano de póker obtuvo el mismo impulso de rendimiento que escalar el modelo 100,000 veces y entrenarlo durante 100,000 veces más”, dijo Noam Brown, investigador de OpenAI que trabajó en o1, en la conferencia TED AI en San Francisco el mes pasado.
OpenAI ha adoptado esta técnica en su modelo recién lanzado conocido como “o1”, anteriormente conocido como Q* y Strawberry, que Reuters informó por primera vez en julio. El modelo O1 puede “pensar” a través de problemas de una manera de múltiples pasos, similar al razonamiento humano. También implica el uso de datos y retroalimentación curados por doctores y expertos de la industria. La fórmula secreta de la serie o1 es otro conjunto de entrenamiento realizado encima de los modelos ‘base’ como GPT-4, y la compañía dice que planea aplicar esta técnica con más y más grandes modelos base.
Al mismo tiempo, investigadores de otros principales laboratorios de IA, como Anthropic, xAI y Google DeepMind, también han estado trabajando en el desarrollo de sus propias versiones de la técnica, según cinco personas familiarizadas con los esfuerzos.
“Vemos un montón de frutas maduras a las que podemos recurrir para hacer que estos modelos sean mejores muy rápidamente”, dijo Kevin Weil, director de producto de OpenAI en una conferencia tecnológica en octubre. “Cuando la gente intenta alcanzar lo que estamos haciendo, vamos a intentar estar tres pasos más adelante”.
Google y xAI no respondieron a las solicitudes de comentarios y Anthropic no tuvo comentarios de inmediato.
Las implicaciones podrían alterar el panorama competitivo para el hardware de IA, hasta ahora dominado por la demanda insaciable de los chips de IA de Nvidia. Inversores prominentes de capital de riesgo, desde Sequoia hasta Andreessen Horowitz, que han invertido miles de millones para financiar el costoso desarrollo de modelos de IA en múltiples laboratorios de IA, incluidos OpenAI y xAI, están tomando nota de la transición y evaluando el impacto en sus caros apuestas.
“Este cambio nos llevará de un mundo de grandes agrupaciones de pre-entrenamiento hacia nubes de inferencia, que son servidores distribuidos en la nube para inferir”, dijo Sonya Huang, socia de Sequoia Capital, a Reuters.
La demanda de los chips de IA de Nvidia, que son los más punteros, ha impulsado su ascenso para convertirse en la empresa más valiosa del mundo, superando a Apple en octubre. A diferencia de los chips de entrenamiento, donde Nvidia domina, el gigante de los chips podría enfrentar más competencia en el mercado de inferencia.
Consultada sobre el posible impacto en la demanda de sus productos, Nvidia señaló las presentaciones recientes de la compañía sobre la importancia de la técnica detrás del modelo o1. Su CEO Jensen Huang ha hablado sobre el aumento de la demanda para utilizar sus chips para la inferencia.
“Ahora hemos descubierto una segunda ley de escala, y esta es la ley de escala en un momento de inferencia… Todos estos factores han llevado a que la demanda de Blackwell sea increíblemente alta”, dijo Huang el mes pasado en una conferencia en India, refiriéndose al último chip de IA de la compañía.”