“
Para cualquiera que quiera entrenar a un LLM en las respuestas de los analistas a DeepSeek, el Temu de ChatGPTs, esta publicación es una parada única. Hemos tomado todos los correos electrónicos relevantes de la sellside en nuestra bandeja de entrada y los hemos copiado con la intervención mínima.
Respaldado por un fondo de capital de riesgo de alto vuelo, DeepSeek es una spinout de dos años con sede en Hangzhou de una startup de la Universidad de Zhejiang para la negociación de acciones a través del aprendizaje automático. Su objetivo declarado es crear una inteligencia artificial general por diversión, no por dinero. Hay una buena entrevista en ChinaTalk con el fundador Liang Wenfeng, y mainFT tiene esta excelente descripción general de nuestros colegas Eleanor Olcott y Zijing Wu.
Jordan Rochester de Mizuho retoma la historia . . .
El 20 de enero, DeepSeek lanzó un modelo de código abierto (DeepSeek-R1) que supera a los principales modelos de la industria en algunos benchmarks de matemáticas y razonamiento, incluyendo capacidad, costo, apertura, etc. La aplicación de Deepseek ha encabezado las clasificaciones de descargas de aplicaciones gratuitas en las tiendas de aplicaciones de Apple en China y Estados Unidos, superando a ChatGPT en la lista de descargas de EE.UU.
¿Qué es lo que realmente destaca? DeepSeek dijo que tardó 2 meses y menos de $6 millones en desarrollar el modelo, basándose en tecnología ya existente y aprovechando modelos existentes. En comparación, Open AI está gastando más de $5 mil millones al año. Aparentemente, DeepSeek compró 10,000 chips NVIDIA, mientras que los Hyperscalers han comprado muchas veces más de esta cifra. Eso rompe fundamentalmente la narrativa del Capex en IA si es cierto.
Puede jugar con el modelo DeepSeek R1 aquí, y hace todas las cosas habituales como resumir papers de investigación en pentámetros jambos y resolver problemas lógicos incorrectamente. DeepSeek dice que el modelo R1-Zero fue entrenado completamente sin ajuste supervisado.
Aquí está Damindu Jayaweera y su equipo de Peel Hunt con más detalles.
En primer lugar, fue entrenado en menos de 3 millones de horas de GPU, lo que equivale a poco más de $5 millones de costo de entrenamiento. Para dar contexto, los analistas estiman que el último modelo importante de IA de Meta costó entre $60 y $70 millones para entrenar. En segundo lugar, hemos visto a personas ejecutando el modelo completo de DeepSeek en hardware Mac de uso común de manera utilizable, confirmando su eficiencia en inferencia (uso en lugar de entrenamiento). Creemos que no pasará mucho tiempo antes de que veamos unidades de Raspberry Pi ejecutando versiones reducidas de DeepSeek. Esta eficiencia se traduce en que las versiones alojadas de este modelo cuestan solo el 5% del precio equivalente de OpenAI. Por último, se está lanzando bajo la Licencia MIT, una licencia de software permisiva que permite libertades casi ilimitadas, incluyendo modificarlo para uso comercial propietario
DeepSeek no es una amenaza inesperada para el Complejo Industrial de OpenAI. Incluso The Economist lo había notado hace meses, y revistas de la industria como SemiAnalysis han estado hablando desde hace tiempo sobre la probabilidad de que China comercialice la IA.
Eso podría ser lo que está sucediendo aquí, o no. Aquí está Joshua Meyers, un vendedor especializado en JPMorgan:
No está claro en qué medida DeepSeek está aprovechando los ~50k GPUs de Hopper de High-Flyer (de tamaño similar al clúster en el que se cree que OpenAI está entrenando GPT-5), pero lo que parece probable es que están reduciendo drásticamente los costos (los costos de inferencia para su modelo V2, por ejemplo, se dice que son 1/7 los de GPT-4 Turbo). Su afirmación subversiva (aunque no nueva) -que comenzó a afectar a los nombres de IA de EE.UU. esta semana- es que “más inversiones no equivale a más innovación”. Liang: “En este momento no veo enfoques nuevos, pero las grandes firmas no tienen una clara ventaja. Las grandes empresas tienen clientes existentes, pero sus negocios de flujo de efectivo son también su carga, y esto las hace vulnerables a la interrupción en cualquier momento.” Y cuando se le preguntó sobre el hecho de que GPT5 aún no se ha lanzado: “OpenAI no es un dios, no siempre estarán a la vanguardia.”
Mejor por ahora que nadie le diga a Altman. Regresando a Mizuho:
¿Por qué esto llega en un momento doloroso? Esto sucede después de que acabamos de ver un ‘All In’ de Texas Hold’em con respecto al Anuncio de Stargate (~$500B para 2028E) y Meta asumiendo oficialmente CAPEX en el rango de $60-$65B para escalar Llama y, por supuesto, el anuncio de $80B de MSFT….. Los mercados estaban tratando literalmente de modelar solo la demanda declarada de Stargate de ~2 millones de Unis de NVDA cuando su producción total es solo de 6 millones…..(el comercio de Nvidia en Europa cayó un 9% esta mañana, Softbank cayó un 7%). Los mercados ahora se preguntan si este es un momento de estallido de la burbuja de la IA para los mercados o no (es decir, una burbuja de las punto-com para Cisco). Nvidia es el mayor peso individual de las compañías de S&P 500 en un 7%.
Y Jefferies de nuevo.
1) Vemos al menos dos estrategias potenciales de la industria. La emergencia de modelos de entrenamiento más eficientes en China, que han sido incentivados para innovar debido a restricciones en el suministro de chips, es probable que intensifiquen la carrera por la dominancia en AI entre EE.UU. y China. La pregunta clave para los constructores de centros de datos es si sigue siendo una estrategia de “construir a toda costa” con mejoras aceleradas en los modelos, o si ahora el foco se desplaza hacia una eficiencia de capital más alta, poniendo presión sobre la demanda de energía y los presupuestos de capex de los principales jugadores de AI. A corto plazo, el mercado asumirá lo segundo.
2) Riesgo de desclasificación a corto plazo, ganancias menos impactadas. Aunque los nombres expuestos al centro de datos son vulnerables a la desclasificación en términos de sentimiento, no hay impacto inmediato en las ganancias de nuestras acciones cubiertas. Cualquier cambio en los planes de capex se aplica con un efecto de rezago dado el tiempo (>12M) y la exposición en los libros de pedidos (~10% para HOT). Vemos un riesgo limitado de alteraciones o cancelaciones de pedidos existentes y, en esta etapa, esperamos un cambio en las expectativas a un ROI más alto en inversiones existentes impulsado por los modelos más eficientes. En general, seguimos siendo optimistas sobre el sector donde los líderes en escala se benefician de una fosa de ancho amplio y de un mayor poder de fijación de precios.
Aunque son los chinos, la gente desconfía. Aquí está Atif Malik de Citi:
Aunque el logro de DeepSeek podría ser innovador, cuestionamos la noción de que sus hazañas se lograron sin el uso de GPUs avanzadas para afinarla o construir las LLM subyacentes en las que se basa el modelo final a través de la técnica de Destilación. Aunque la dominancia de las empresas estadounidenses en los modelos de IA más avanzados podría desafiarse, pensamos que en un entorno inevitablemente más restrictivo, el acceso de EE.UU. a chips más avanzados es una ventaja. Por lo tanto, no esperamos que las principales empresas de IA se alejen de las GPUs más avanzadas que brindan $/TFLOPs más atractivos a escala. Por lo tanto, no esperamos que las principales empresas de IA se alejen de las GPUs más avanzadas que brindan $/TFLOPs más atractivos a escala. Vemos los recientes anuncios de capex de IA como Stargate como un guiño a la necesidad de chips avanzados.
La gente, como Stacy A Rasgon y su equipo de Bernstein, también cuestiona las estimaciones de costos y eficiencia. El equipo de Bernstein dice que la conmoción de hoy se debe a un ‘malentendido fundamental sobre el número de $5 millones” y la forma en que DeepSeek ha desplegado modelos más pequeños destilados del completo, R1.
“Parece categóricamente falso que ‘China haya duplicado OpenAI por $5M’ y no creemos que realmente valga la pena discutirlo más,” dice Bernstein:
¿De verdad DeepSeek ‘construyó OpenAI por $5M?’ Por supuesto que no…De hecho, hay dos familias de modelos en discusión. La primera familia es DeepSeek-V3, un modelo de lenguaje grande Mixture-of-Experts (MoE) que, a través de una serie de optimizaciones y técnicas ingeniosas, puede proporcionar un rendimiento similar o mejor que otros modelos basados en los mismos parámetros actualizados por cualquier token en un momento dado. Una encuesta de otras comparaciones de MoE sugiere eficiencias típicas del orden de 3-7 veces vs modelos densos de tamaño similar con un rendimiento similar; V3 parece incluso mejor que esto (>10x), probablemente dada algunas de las otras innovaciones en el modelo que la compañía ha implementado, pero la idea de que esto es algo completamente revolucionario parece un poco exagerada, y no realmente digna de la histeria que se ha apoderado del Twitterverse en los últimos días.
© Bernstein
De todos modos, se habla de una guerra de precios que es suficiente para hacer una mella en el ya precario ROI de Mag7.
“Es absolutamente cierto que el precio de DeepSeek deja atrás cualquier cosa de la competencia, con la compañía fijando los precios de sus modelos en cualquier lugar de 20-40 veces más baratos que los modelos equivalentes de OpenAI,” dice Bernstein.
Por supuesto, no conocemos la economía de DeepSeek en torno a esto (y los modelos mismos están abiertos y disponibles para cualquiera que quiera trabajar con ellos, de forma gratuita) pero todo esto plantea algunas preguntas muy interesantes sobre el papel y la viabilidad de los esfuerzos propietarios vs los de código abierto que probablemente valga la pena investigar más…”
¿Alguno de estos es un buen motivo para una mayor caída del mercado? En cuanto al sentimiento, tal vez.
Según SocGen, Nvidia más Microsoft, Alphabet, Amazon y Meta, sus cuatro principales clientes, “han contribuido con aproximadamente 700 puntos al S&P 500 en los últimos 2 años. “En otras palabras, el S&P 500 excluyendo a los Mag-5 estaría un 12% más bajo hoy. Nvidia solo ha contribuido con un 4 por ciento al rendimiento del S&P 500. Este es lo que encontramos que es la prima de ‘excepcionalismo estadounidense’ en el S&P 500.”
© SocGen
Jim Reid de Deutsche Bank lo reduce solo a Nvidia y su sorprendente transformación de fabricante de tarjetas gráficas para videojuegos a la turboprop de la prosperidad económica:
pasó de ganancias de LTM de alrededor de $4 mil millones hace dos años a alrededor de $63 mil millones en el último lanzamiento trimestral. Para dar contexto, esto es alrededor de la mitad de las ganancias totales realizadas por las acciones cotizadas en el Reino Unido, Alemania y Francia en los últimos 12 meses. Se esperan tasas de crecimiento significativas para Nvidia también.
Entonces, esta es una empresa que ha pasado de la oscuridad relativa de las ganancias a ser una de las más rentables del mundo en dos años y la empresa más grande del mundo desde el viernes por la noche. El problema es que la industria de la IA es embrionaria. Y es casi imposible saber cómo se desarrollará o qué competencia enfrentarán los ganadores actuales incluso si se cree completamente en su potencial para impulsar la productividad futura. El ascenso estratosférico de DeepSeek nos lo recuerda.
Aguanta. ¿La IA china barata significa más beneficios de productividad, menores costos de construcción y una aceleración hacia la Teoría Andreesen de la Cornucopia, entonces quizás… buenas noticias a largo plazo? Permíteme tu traducción Meyers:
Esto no me parece el fin de la escalabilidad o de la necesidad de más computación, o que el que invierta más capital no seguirá ganando (recuerda, la otra gran cosa que sucedió ayer fue que Mark Zuckerberg aumentó sustancialmente el capex de IA). Más bien, parece ser sobre las prohibiciones de exportación que obligan a los competidores al otro lado del Pacífico a impulsar la eficiencia: “DeepSeek V2 logró una eficiencia de entrenamiento increíble con un mejor rendimiento del modelo que otros modelos abiertos con 1/5 del cálculo del Llama 3 70B de Meta. Para aquellos que siguen la pista, el entrenamiento de DeepSeek V2 requirió 1/20 de los FLOPS de GPT-4 mientras que no está tan lejos en términos de rendimiento.” Si DeepSeek puede reducir el costo de la inferencia, entonces otros tendrán que hacerlo también, y la demanda esperemos que más que compense eso con el tiempo.
Esa también es la opinión del analista de semiconductores Tetsuya Wadaki de Morgan Stanley, el banco más entusiasta en cuanto a IA.
No hemos confirmado la veracidad de estos informes, pero si son precisos, y las LLM avanzadas pueden ser desarrolladas de hecho por una fracción de la inversión previa, podríamos ver AI generativa funcionar eventualmente en computadoras más pequeñas y más pequeñas (pasando de supercomputadoras a estaciones de trabajo, computadoras de oficina y finalmente computadoras personales) y la industria de equipos de producción de semiconductores podría beneficiarse del aumento de la demanda de productos relacionados (chips y SPE) a medida que la demanda de IA generativa se expande.
Y Peel Hunt de nuevo:
Creemos que el impacto de esas ventajas será doble. A mediano y largo plazo, esperamos que la infraestructura LLM siga el camino de la infraestructura de la telefonía y se convierta en una ‘tecnología de la tecnología’. El impacto financiero en aquellos que están invirtiendo en capex de IA hoy depende de la interferencia regulatoria, que tuvo un impacto importante en las Telcos. Si pensamos en la IA como otra ‘capa de infraestructura tecnológica’, como Internet, el móvil y la nube, en teoría los beneficiarios deberían ser las compañías que aprovechan esa infraestructura. Mientras pensamos en Amazon, Google y Microsoft como infraestructura en la nube, esto surgió de la necesidad de apoyar sus modelos de negocio existentes: el comercio electrónico, la publicidad y el software para trabajadores de la información. La infraestructura LLM es diferente en el sentido de que, al igual que las infraestructuras ferroviarias y de telefonía, se están construyendo antes de un verdadero ajuste del Producto/Mercado.
Y Bernstein:
Si reconocemos que DeepSeek puede haber reducido los costos para lograr un rendimiento de modelo equivalente en 10 veces, también observamos que las trayectorias de costos actuales de los modelos están aumentando aproximadamente esa cantidad cada año de todos modos (las famosas ‘leyes de escalamiento…’) lo que no puede continuar indefinidamente. En ese contexto, necesitamos innovaciones como esta (MoE, destilación, precisión mixta, etc.) si la IA va a seguir progresando. Y para aquellos que buscan la adopción de IA, como analistas de semiconductores, somos firmes creyentes en la paradoja de Jevons (es decir, que las ganancias de eficiencia generan un aumento neto de la demanda), y creemos que cualquier nueva capacidad informática desbloqueada es mucho más probable que se absorba debido al aumento del uso y la demanda vs. impactar las perspectivas de gasto a largo plazo en este punto, ya que no creemos que las necesidades informáticas estén cerca de alcanzar su límite en la IA. También parece una exageración pensar que las innovaciones desplegadas por DeepSeek son completamente desconocidas para la gran cantidad de investigadores de