Nvidia pierde cuota de mercado, ¿dónde están las oportunidades en una nueva etapa de la revolución AI? Este es el noveno artículo de la serie de 100 artículos sobre inversión en IA.


En los artículos anteriores, revisamos Intel, AMD y ARM. Sus precios de acciones en el último año no han sido pequeños: AMD se duplicó, Intel triplicó, ARM también alcanzó niveles históricos. Después de subir, surge una pregunta sencilla:
¿Todavía se pueden mantener las acciones que ya subieron? ¿Hay oportunidades en las que no han subido?
Para responder a esta pregunta, no se puede evitar una palabra clave: inferencia. En los análisis de esas empresas que subieron, las dos palabras que aparecen repetidamente son estas.
Entonces: ¿qué tan grande es la pista de inferencia? ¿En qué etapa estamos actualmente? ¿Qué empresas se beneficiarán y cómo? ¿Cuáles ya están valoradas por el mercado y cuáles no?
Este es el noveno artículo de la serie de 100 artículos sobre inversión en IA, con una extensión de 15,000 palabras, contenido rico y fácil de leer. Se recomienda guardar primero y luego leer.
1. ¿Qué tan grande es la pista?
El entrenamiento de modelos es "escribir programas", la inferencia es "el proceso en el que se llama a ese programa todos los días". Después de entrenar GPT, millones de personas le hacen preguntas todos los días, y cada interacción consume poder de inferencia. Claude Code realiza una tarea, el agente corre 100 rondas por sí mismo, cada ronda es inferencia.
Diversos estudios de la industria y medios de comunicación apuntan en la misma dirección: después de que el modelo entra en producción, la inferencia se convertirá en la mayor parte del costo del ciclo de vida, con un rango estimado común del 80-90%. Es decir, en la factura de computación en la era de la IA futura, 8 de cada 10 yuanes serán por inferencia.
Pero en los últimos tres años, casi toda la discusión del mercado ha sido sobre entrenamiento, porque el entrenamiento es una historia más "seductora": quién tiene más H100, quién tiene más parámetros, quién entrena primero el próximo modelo. La inferencia se considera una tarea secundaria después del entrenamiento.
Esta percepción errónea está siendo corregida, y esa es la razón fundamental por la que las empresas de semiconductores de este último año han sido reevaluadas.
Entonces, ¿qué tan grande es la pista de inferencia? Específicamente, se puede medir desde cinco ángulos.
Primero, el número de usuarios. ChatGPT tiene 900 millones de usuarios semanales y 50 millones de pagos. La comparación en China es aún más directa: el volumen diario de llamadas a tokens pasó de 1 billón a principios de 2024 a 140 billones en 2026, un aumento de 1,400 veces. Esta área aún no está saturada.
Segundo, la intensidad de uso. El volumen de tokens procesados por OpenAI en octubre de 2025 era de 6 mil millones por minuto, y en abril de 2026 ya alcanzaba 15 mil millones, en solo medio año se multiplicó por 2.5. Los ingresos por versión empresarial representan más del 40%, y los usuarios empresariales usan la plataforma varias decenas de veces más que los consumidores.
Tercero, la longitud de las conversaciones. La longitud del contexto pasó de unos pocos cientos de tokens en los primeros tiempos a los 1 millón de tokens en la API V4 Pro / Flash de DeepSeek, con una salida máxima de 384,000. Cuanto más larga sea la conversación, mayor será el consumo de memoria y poder de cálculo en una sola inferencia.
Cuarto, los modelos en sí mismos cada vez consumen más poder de cálculo. Modelos de inferencia como OpenAI o1, DeepSeek R1, Claude Thinking, antes de responder, primero "piensan" internamente en miles o incluso decenas de miles de tokens. Jensen Huang mencionó, usando DeepSeek R1 como ejemplo, que los modelos de inferencia pueden requerir mucho más cálculo, incluso hasta 100 veces más.
Antes, cuando preguntabas a la IA, ella respondía directamente; ahora, si le haces una pregunta difícil, primero "piensa" medio minuto en su mente antes de dar la respuesta. Ese "pensar medio minuto" es el consumo adicional de poder de cálculo.
Quinto, los agentes. Una tarea de un agente generalmente requiere llamar al modelo de 10 a 100 veces. La actividad semanal de OpenAI Codex ya supera los 4 millones (al 22 de abril de 2026), y esto es solo un producto de una empresa. Un experto en la cadena de la industria de IA estima que el consumo total de poder de cálculo de los agentes inteligentes puede ser más de 10 veces el de modelos de lenguaje de gran escala con parámetros similares.
Multiplicando estas cinco cosas, en tres o cinco años, la demanda total de inferencia experimentará una expansión de magnitud, no es una narrativa exagerada, sino una evaluación cada vez más cercana a la realidad principal.
《¿Dónde están las oportunidades en la segunda etapa de la revolución AI tras la gran caída de cuota de Nvidia en inferencia?》
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado