El experto en inversión en chips de semiconductores Gavin Baker analiza en profundidad las diferencias entre la GPU Hopper, Blackwell y la TPU de Google en la última entrevista, incluyendo aspectos técnicos, rendimiento, costos y colaboración. Señala que la TPU de Google tiene una ventaja temporal a corto plazo, pero a largo plazo, el ecosistema de GPU de NVIDIA sigue teniendo un mayor poder de monopolio.
La GPU es una plataforma de pila completa, mientras que la TPU es un ASIC de punto único
Baker indica que las divergencias en los aceleradores de IA ya aparecen desde la filosofía de diseño más básica. Las GPU de NVIDIA, desde Hopper, Blackwell hasta Rubin en el futuro, enfatizan ser plataformas de pila completa, abarcando desde la GPU en sí, la tecnología de interconexión bidireccional NVLink, tarjetas de red, conmutadores, hasta software como CUDA y TensorRT, todo gestionado por NVIDIA. Cuando las empresas compran GPUs, obtienen un entorno completo listo para entrenamiento y inferencia, sin necesidad de montar redes o reescribir software por cuenta propia.
En comparación, la TPU de Google (v4), v5e, v6, v7( esencialmente son circuitos integrados ASIC especializados, diseñados específicamente para acelerar ciertos cálculos de IA. Google se encargó del diseño lógico frontal, pero la parte posterior es fabricada por Broadcom )Broadcom( y luego producida por TSMC )TSMC(. Otros componentes indispensables de la TPU, como los conmutadores, tarjetas de red y el ecosistema de software, son integrados por Google, lo que hace que la cadena de suministro sea mucho más compleja que la de las GPU.
En general, la ventaja de la GPU no reside en el rendimiento de un solo chip, sino en la integridad de la plataforma y el ecosistema. Este es también el punto de partida para que la diferencia en competencia entre ambos sea cada vez más evidente.
El rendimiento de Blackwell da un gran salto, mientras que la TPU v6/v7 enfrenta una mayor presión
Baker señala que, para 2024-2025, la diferencia en rendimiento entre GPU y TPU será cada vez más clara. La arquitectura GB200 a GB300 de Blackwell representa un salto significativo, con diseño de enfriamiento líquido y consumo de energía en un rack de hasta 130 kW, aumentando la complejidad sin precedentes. La implementación masiva real, sin embargo, aún está a solo tres o cuatro meses, y sigue en una etapa muy temprana.
La próxima generación, GB300, puede insertarse directamente en los racks de GB200, acelerando la expansión de las empresas. La firma xAI, por ser la que más rápido construye centros de datos, se considera uno de los primeros clientes en aprovechar al máximo el rendimiento de Blackwell. Baker hace una analogía:
“Si Hopper se describe como el avión más avanzado al final de la Segunda Guerra Mundial, entonces la TPU v6/v7 sería como el F-4 Phantom, un avión de dos generaciones posteriores. Pero Blackwell sería como el F-35, de una categoría de rendimiento completamente diferente.”
Esto explica que la TPU v6/v7 y Blackwell tienen niveles de hardware diferentes, además de señalar que, en la actualidad, Google Gemini 3 aún usa TPU v6/v7 en lugar de equipos de la categoría Blackwell. Aunque Google puede entrenar modelos de alto nivel como Gemini 3 usando TPU v6/v7, la diferencia en rendimiento entre ambas arquitecturas será más evidente a medida que la serie Blackwell se despliegue en masa.
La TPU fue el rey en costo mínimo, pero GB300 cambiará el panorama
Baker indica que la principal ventaja de la TPU en el pasado era tener los costos de entrenamiento más bajos del mundo. Google aprovechó esa ventaja para reducir las oportunidades de financiación y operación de sus competidores.
Pero Baker advierte que, una vez que GB300 se despliegue a gran escala, las empresas que adopten GB300 en el mercado se convertirán en las plataformas de entrenamiento más económicas, especialmente aquellas como xAI, con capacidad de integración vertical y construcción de sus propios centros de datos. Si OpenAI logra superar las limitaciones de capacidad computacional en el futuro y tiene la capacidad de construir hardware propio, también podría unirse a la campaña GB300.
Esto significa que, si Google deja de mantener su liderazgo en costos, su estrategia de precios bajos será difícil de sostener. El control de los costos de entrenamiento pasará a ser redistribuido, desde el dominio de TPU en el largo plazo hacia GB300.
La expansión y colaboración de GPU es más rápida, mientras que la integración de TPU es más onerosa
Cuanto más avanzan los grandes modelos, mayor es la demanda de colaboración en GPU a gran escala, aspecto en el que GPUs han superado claramente a TPU en los últimos años. Baker indica que los clústeres de GPU, mediante NVLink, pueden escalar hasta 200,000 a 300,000 GPUs, permitiendo que modelos de gran tamaño utilicen presupuestos de entrenamiento mayores. Los centros de datos de gran tamaño construidos rápidamente por XAI fuerzan a NVIDIA a lanzar soluciones de optimización anticipadas, acelerando la evolución del ecosistema GPU.
En contraste, la TPU requiere que Google integre por sí mismo los conmutadores y la red, además de coordinar con Broadcom y TSMC en la cadena de suministro, lo que hace que su ingeniería sea más compleja que la de las GPU.
Las GPU avanzan hacia una generación por año, mientras que la velocidad de iteración de TPU está limitada por la cadena de suministro
Baker menciona que, para hacer frente a la competencia de ASIC, tanto NVIDIA como AMD están acelerando sus ciclos de actualización, con GPUs avanzando hacia una generación anual. Esto es una ventaja clave en la era de los grandes modelos, ya que la expansión del tamaño de los modelos casi no se detiene.
Por otro lado, la velocidad de iteración de TPU es más limitada. Desde v1 hasta v4 y luego v6, cada generación tomó varios años en madurar. Para futuras versiones como v8 y v9, los desarrollos y las iteraciones, que involucran a Google, Broadcom, TSMC y otros, no podrán avanzar tan rápido como las GPUs. Por lo tanto, en los próximos 3 años, la ventaja en velocidad de actualización de las GPU será cada vez más evidente.
)Diferencias tecnológicas entre las GPUs de NVIDIA, las TPU de Google y los chips de IA propios de Amazon AWS y las tendencias futuras del mercado(
Las tres principales empresas están claramente alineándose con NVIDIA, mientras Google mantiene su TPU aislada
Actualmente, las cuatro principales empresas en modelos de frontera son OpenAI, Gemini )Google(, Anthropic y xAI, pero la tendencia general indica un apoyo cada vez mayor a NVIDIA.
Baker indica que Anthropic ya firmó un contrato de compra a largo plazo con NVIDIA por 5 mil millones de dólares, vinculándose oficialmente al ecosistema GPU. xAI es el mayor cliente temprano de Blackwell y ha invertido mucho en construir centros de datos con GPUs. Por otro lado, debido a la necesidad de alquilar capacidad de computación a terceros, OpenAI enfrenta costos elevados y espera resolver su cuello de botella en capacidad con el plan Stargate.
Entre estas cuatro empresas, Google es la única que usa en gran cantidad TPU, pero también enfrenta presión por la disminución de la competitividad en costos y la lentitud en las iteraciones. La situación en la que OpenAI, Anthropic y XAI se agrupan en la comunidad GPU, mientras que Google queda relativamente aislada en TPU, es un patrón que se está consolidando.
)Los ingresos de NVIDIA en sus resultados financieros muestran un impresionante crecimiento en IA y centros de datos, y Huang Renxun afirma que Blackwell se está agotando por ventas(
Este artículo fue originalmente publicado en Chain News ABMedia en la sección de inversión en chips de semiconductores: Google TPU lidera temporalmente, pero la GPU de NVIDIA tiene ventajas a largo plazo
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Expertos en inversión en chips: Google TPU sigue en cabeza, pero las GPU de NVIDIA tienen una ventaja a largo plazo
El experto en inversión en chips de semiconductores Gavin Baker analiza en profundidad las diferencias entre la GPU Hopper, Blackwell y la TPU de Google en la última entrevista, incluyendo aspectos técnicos, rendimiento, costos y colaboración. Señala que la TPU de Google tiene una ventaja temporal a corto plazo, pero a largo plazo, el ecosistema de GPU de NVIDIA sigue teniendo un mayor poder de monopolio.
La GPU es una plataforma de pila completa, mientras que la TPU es un ASIC de punto único
Baker indica que las divergencias en los aceleradores de IA ya aparecen desde la filosofía de diseño más básica. Las GPU de NVIDIA, desde Hopper, Blackwell hasta Rubin en el futuro, enfatizan ser plataformas de pila completa, abarcando desde la GPU en sí, la tecnología de interconexión bidireccional NVLink, tarjetas de red, conmutadores, hasta software como CUDA y TensorRT, todo gestionado por NVIDIA. Cuando las empresas compran GPUs, obtienen un entorno completo listo para entrenamiento y inferencia, sin necesidad de montar redes o reescribir software por cuenta propia.
En comparación, la TPU de Google (v4), v5e, v6, v7( esencialmente son circuitos integrados ASIC especializados, diseñados específicamente para acelerar ciertos cálculos de IA. Google se encargó del diseño lógico frontal, pero la parte posterior es fabricada por Broadcom )Broadcom( y luego producida por TSMC )TSMC(. Otros componentes indispensables de la TPU, como los conmutadores, tarjetas de red y el ecosistema de software, son integrados por Google, lo que hace que la cadena de suministro sea mucho más compleja que la de las GPU.
En general, la ventaja de la GPU no reside en el rendimiento de un solo chip, sino en la integridad de la plataforma y el ecosistema. Este es también el punto de partida para que la diferencia en competencia entre ambos sea cada vez más evidente.
El rendimiento de Blackwell da un gran salto, mientras que la TPU v6/v7 enfrenta una mayor presión
Baker señala que, para 2024-2025, la diferencia en rendimiento entre GPU y TPU será cada vez más clara. La arquitectura GB200 a GB300 de Blackwell representa un salto significativo, con diseño de enfriamiento líquido y consumo de energía en un rack de hasta 130 kW, aumentando la complejidad sin precedentes. La implementación masiva real, sin embargo, aún está a solo tres o cuatro meses, y sigue en una etapa muy temprana.
La próxima generación, GB300, puede insertarse directamente en los racks de GB200, acelerando la expansión de las empresas. La firma xAI, por ser la que más rápido construye centros de datos, se considera uno de los primeros clientes en aprovechar al máximo el rendimiento de Blackwell. Baker hace una analogía:
“Si Hopper se describe como el avión más avanzado al final de la Segunda Guerra Mundial, entonces la TPU v6/v7 sería como el F-4 Phantom, un avión de dos generaciones posteriores. Pero Blackwell sería como el F-35, de una categoría de rendimiento completamente diferente.”
Esto explica que la TPU v6/v7 y Blackwell tienen niveles de hardware diferentes, además de señalar que, en la actualidad, Google Gemini 3 aún usa TPU v6/v7 en lugar de equipos de la categoría Blackwell. Aunque Google puede entrenar modelos de alto nivel como Gemini 3 usando TPU v6/v7, la diferencia en rendimiento entre ambas arquitecturas será más evidente a medida que la serie Blackwell se despliegue en masa.
La TPU fue el rey en costo mínimo, pero GB300 cambiará el panorama
Baker indica que la principal ventaja de la TPU en el pasado era tener los costos de entrenamiento más bajos del mundo. Google aprovechó esa ventaja para reducir las oportunidades de financiación y operación de sus competidores.
Pero Baker advierte que, una vez que GB300 se despliegue a gran escala, las empresas que adopten GB300 en el mercado se convertirán en las plataformas de entrenamiento más económicas, especialmente aquellas como xAI, con capacidad de integración vertical y construcción de sus propios centros de datos. Si OpenAI logra superar las limitaciones de capacidad computacional en el futuro y tiene la capacidad de construir hardware propio, también podría unirse a la campaña GB300.
Esto significa que, si Google deja de mantener su liderazgo en costos, su estrategia de precios bajos será difícil de sostener. El control de los costos de entrenamiento pasará a ser redistribuido, desde el dominio de TPU en el largo plazo hacia GB300.
La expansión y colaboración de GPU es más rápida, mientras que la integración de TPU es más onerosa
Cuanto más avanzan los grandes modelos, mayor es la demanda de colaboración en GPU a gran escala, aspecto en el que GPUs han superado claramente a TPU en los últimos años. Baker indica que los clústeres de GPU, mediante NVLink, pueden escalar hasta 200,000 a 300,000 GPUs, permitiendo que modelos de gran tamaño utilicen presupuestos de entrenamiento mayores. Los centros de datos de gran tamaño construidos rápidamente por XAI fuerzan a NVIDIA a lanzar soluciones de optimización anticipadas, acelerando la evolución del ecosistema GPU.
En contraste, la TPU requiere que Google integre por sí mismo los conmutadores y la red, además de coordinar con Broadcom y TSMC en la cadena de suministro, lo que hace que su ingeniería sea más compleja que la de las GPU.
Las GPU avanzan hacia una generación por año, mientras que la velocidad de iteración de TPU está limitada por la cadena de suministro
Baker menciona que, para hacer frente a la competencia de ASIC, tanto NVIDIA como AMD están acelerando sus ciclos de actualización, con GPUs avanzando hacia una generación anual. Esto es una ventaja clave en la era de los grandes modelos, ya que la expansión del tamaño de los modelos casi no se detiene.
Por otro lado, la velocidad de iteración de TPU es más limitada. Desde v1 hasta v4 y luego v6, cada generación tomó varios años en madurar. Para futuras versiones como v8 y v9, los desarrollos y las iteraciones, que involucran a Google, Broadcom, TSMC y otros, no podrán avanzar tan rápido como las GPUs. Por lo tanto, en los próximos 3 años, la ventaja en velocidad de actualización de las GPU será cada vez más evidente.
)Diferencias tecnológicas entre las GPUs de NVIDIA, las TPU de Google y los chips de IA propios de Amazon AWS y las tendencias futuras del mercado(
Las tres principales empresas están claramente alineándose con NVIDIA, mientras Google mantiene su TPU aislada
Actualmente, las cuatro principales empresas en modelos de frontera son OpenAI, Gemini )Google(, Anthropic y xAI, pero la tendencia general indica un apoyo cada vez mayor a NVIDIA.
Baker indica que Anthropic ya firmó un contrato de compra a largo plazo con NVIDIA por 5 mil millones de dólares, vinculándose oficialmente al ecosistema GPU. xAI es el mayor cliente temprano de Blackwell y ha invertido mucho en construir centros de datos con GPUs. Por otro lado, debido a la necesidad de alquilar capacidad de computación a terceros, OpenAI enfrenta costos elevados y espera resolver su cuello de botella en capacidad con el plan Stargate.
Entre estas cuatro empresas, Google es la única que usa en gran cantidad TPU, pero también enfrenta presión por la disminución de la competitividad en costos y la lentitud en las iteraciones. La situación en la que OpenAI, Anthropic y XAI se agrupan en la comunidad GPU, mientras que Google queda relativamente aislada en TPU, es un patrón que se está consolidando.
)Los ingresos de NVIDIA en sus resultados financieros muestran un impresionante crecimiento en IA y centros de datos, y Huang Renxun afirma que Blackwell se está agotando por ventas(
Este artículo fue originalmente publicado en Chain News ABMedia en la sección de inversión en chips de semiconductores: Google TPU lidera temporalmente, pero la GPU de NVIDIA tiene ventajas a largo plazo