Economía de Token de Huang Renxiong

K-LinePoet · 2026-03-17T13:31:03+00:00

Repórterfla Zhen Ming Zhou, Observador EconómicoA conferência GTC da Nvidia, conhecida como a bússola anual da indústria de IA, realizou-se de 16 a 19 de março deste ano em San Jose, Califórnia, EUA.Às 11h da manhã, hora local do dia 16 de março (02h da manhã de 17 de março, hora de Pequim), o CEO da Nvidia, Jensen Huang, proferiu uma apresentação temática com mais de duas horas no Centro SAP de San Jose.Na sua apresentação, Jensen Huang previu que até 2027, a procura global relacionada com infraestruturas de IA atingirá 1 bilião de dólares. Disse também que a procura real poderá ser muito superior a 1 bilião de dólares, e que os produtos da Nvidia poderão até ter insuficiente oferta.Após a divulgação deste número, as ações da Nvidia no mercado estadounidense dispararam mais de 4%. Contudo, poucas horas depois, com a abertura do mercado A-share, as ações da cadeia industrial de poder computacional caíram coletivamente, com a Tianfo Communications (300394) (300394.SZ) a fechar com uma queda superior a 1

K-LinePoet

2026-03-17 13:31:03

Economia Observador Jornalista Zheng Chenye

Conhecida como o principal indicador de tendências do setor de IA, a conferência GTC da Nvidia realizou-se de 16 a 19 de março, em San José, Califórnia, EUA.

Na manhã de 16 de março, às 11h, ou seja, às 2h de 17 de março, horário de Pequim, o CEO da Nvidia, Huang Renxun, fez uma palestra de mais de duas horas no centro SAP de San José.

Durante a palestra, Huang Renxun previu que, até 2027, a demanda global por infraestrutura de IA atingirá 1 trilhão de dólares. Ele também afirmou que a necessidade real pode ser muito maior, e que os produtos da Nvidia podem até ficar sem estoque.

Após essa previsão, o preço das ações da Nvidia nos EUA subiu instantaneamente mais de 4%. No entanto, algumas horas depois, na abertura do mercado chinês, as ações do setor de computação caíram coletivamente, com a Tianfu Communication (300394.SZ) fechando com uma queda superior a 10%, e a Changguang Huaxin (688048.SH) caindo 9,72%, revertendo quase as últimas cinco sessões de alta.

De um lado, a expectativa de um mercado de trilhões de dólares; do outro, a queda das ações do setor, a diferença vem da escala temporal.

Huang Renxun fala sobre a demanda futura, mas a próxima geração de chips Feynman, que ele anunciou, só será lançada em 2028. Além disso, o relatório de pesquisa da Wanlian Securities de 16 de março aponta que o índice P/E médio do setor de eletrônicos na A-share, até 15 de março, é de aproximadamente 82 vezes, indicando que o mercado pode estar preocupado com o “medo de altura”.

No entanto, o que torna essa palestra de Huang Renxun digna de atenção não é o número de trilhões de dólares em si, mas o fato de ele ter apresentado, em duas horas, uma nova lógica de negócios: os data centers estão mudando de locais de treinamento de modelos para fábricas de produção de Tokens.

Tokens são unidades básicas de processamento de informações em grandes modelos de linguagem, que podem ser entendidos como fragmentos de texto processados ou gerados por IA. Aproximadamente, um caractere chinês corresponde a um ou dois Tokens.

Nos últimos dois anos, o consumo de Tokens teve saltos de várias ordens de magnitude.

Huang Renxun rastreou esses eventos a três pontos: o lançamento do ChatGPT no final de 2022, que ensinou a IA a gerar conteúdo e a consumir Tokens em grande quantidade; o surgimento do modelo ChatGPT-1, que ensinou a IA a raciocinar e refletir, gerando muitos Tokens internos para pensar; e o lançamento do Claude Code (ferramenta de programação de IA desenvolvida pela Anthropic), que permite leitura de arquivos, escrita de código e testes, consumindo Tokens muito mais do que diálogos simples.

Huang mencionou que todos os engenheiros de software da Nvidia usam IA para auxiliar na programação.

O trabalho com IA ocorre em duas fases: o treinamento, que torna o modelo mais inteligente e requer um grande investimento financeiro; e a inferência, que é o trabalho do modelo em si, ocorrendo diariamente, com demanda crescente. No passado, a compra de GPUs (unidades de processamento gráfico, hardware central para cálculos de IA) era principalmente para treinamento, mas o foco agora se desloca para inferência.

Huang afirmou que o volume de negócios dos provedores de serviços de inferência cresceu 100 vezes no último ano. O analista Du Yunlong, da IDC China, também disse ao jornal que, atualmente, os servidores de inferência na China superam o treinamento em velocidade de crescimento e participação de mercado; em termos de receita de envio de servidores, a inferência já representa cerca de 60%.

A demanda por inferência está explodindo, mas ainda não há um sistema de precificação de mercado para Tokens.

Huang apresentou cinco faixas de preços que acredita que surgirão no futuro: camada gratuita, com grande produção de Tokens, mas resposta lenta; camada média, cerca de 3 dólares por milhão de Tokens; camada avançada, cerca de 6 dólares por milhão de Tokens; camada de alta velocidade, cerca de 45 dólares por milhão de Tokens; camada de topo, cerca de 150 dólares por milhão de Tokens. Quanto maior o modelo, maior o contexto e mais rápida a resposta, mais caro será o Token.

Ele exemplificou com a camada de topo: uma equipe de pesquisa usando 50 milhões de Tokens por dia, a 150 dólares por milhão, gastaria apenas 7.500 dólares, o que não é muito para uma empresa. Após ampliar a janela de contexto de 32K para 400K Tokens, a IA consegue ler um contrato inteiro ou um grande código de uma só vez, com um custo que antes não era possível.

Com a precificação em camadas, o modelo econômico dos data centers muda.

Huang explicou que cada data center é limitado pela energia; um data center de 1 GW (gigawatt, unidade de medida de energia) nunca se tornará 2 GW, devido às restrições de energia e terra. Com potência fixa, quem consome mais Tokens por watt de energia tem menor custo de produção. Ou seja, com a mesma quantidade de energia, quem produz mais Tokens ganha mais dinheiro.

Ele mostrou uma série de números: um data center de 1 GW, com diferentes níveis de preço, usando a arquitetura Blackwell da Nvidia, gera cerca de 30 bilhões de dólares por ano; com a nova Vera Rubin, esse valor sobe para aproximadamente 150 bilhões; e com o acelerador de inferência Groq LPU, chega a cerca de 300 bilhões de dólares. Com o mesmo data center, trocar os equipamentos pode resultar em uma diferença de até 10 vezes na receita.

A Nvidia projeta uma receita total de 215,9 bilhões de dólares em seu ano fiscal de 2026, sendo que a divisão de data centers contribui com 193,7 bilhões.

Segundo Huang, os data centers atuais ainda não estão totalmente aproveitados; trocar por equipamentos de nova geração, sob as mesmas condições de energia, pode multiplicar a receita várias vezes. A previsão de trilhões de dólares vem daí: não é uma questão de aumento de preços de chips, mas de produzir mais e mais caro Tokens com a mesma energia.

Huang afirmou que, no futuro, cada CEO acompanhará a eficiência de sua fábrica de Tokens, pois isso determinará sua receita.

Ele também descreveu uma mudança que ocorre no Vale do Silício: cada vez mais engenheiros usam IA para escrever código, fazer pesquisa e processar documentos, operações que consomem Tokens, e as empresas precisarão pagar por esse uso.

Huang prevê que esses custos serão tão altos que precisarão ser orçados separadamente, assim como as empresas já fazem com computadores e softwares para seus funcionários.

Ele também disse que, no futuro, cada engenheiro receberá uma cota anual de Tokens ao ingressar na empresa, aproximadamente metade do seu salário base.

Dois tipos de chips

A economia de Tokens apresentada por Huang está relacionada ao hardware Vera Rubin, lançado oficialmente na GTC.

Ele afirmou que, no passado, ao falar da arquitetura Hopper, mostrava um chip; mas o Vera Rubin não é apenas um chip, é um sistema completo. Esse sistema é totalmente líquido em resfriamento, com instalação que passou de dois dias para duas horas.

O Vera Rubin é composto por sete chips. A estrutura principal, NVL72, integra 72 GPUs Rubin e 36 CPUs Vera, conectados por NVLink 6 (tecnologia de interconexão de alta velocidade da Nvidia). Em comparação com a geração anterior, Blackwell, a eficiência por watt na inferência aumentou até 10 vezes, e o custo por Token caiu para um décimo.

A Nvidia também lançou uma nova CPU Vera de 88 núcleos, otimizada para cenários de agentes inteligentes, chamadas de ferramentas de processamento de dados e chamadas de APIs.

Huang afirmou que Satya Nadella, CEO da Microsoft, confirmou que os primeiros racks Vera Rubin já estão operando na Azure, a plataforma de nuvem da Microsoft.

Porém, há uma limitação: quando cada usuário precisa gerar mais de 400 Tokens por segundo, a largura de banda do NVL72 não é suficiente. Para preencher essa lacuna, a Nvidia adquiriu a Groq, uma empresa americana de chips de aceleração de IA fundada em 2016, cuja tecnologia foi licenciada e integrada à Nvidia.

Os chips LPU (unidade de processamento de linguagem) da Groq são completamente diferentes dos GPUs. Os GPUs têm grande memória e alta capacidade de cálculo, com um GPU Rubin tendo 288 GB de memória, ideal para cálculos complexos. Os LPUs têm memória pequena, mas velocidade de leitura/gravação extremamente rápida, com apenas 500 MB de armazenamento, incapazes de conter todos os parâmetros de um grande modelo, mas gerando Tokens com maior velocidade e menor latência do que GPUs.

A Nvidia usa um software chamado Dynamo para dividir o processo de inferência em duas etapas: tarefas que exigem muita capacidade de cálculo e memória, como compreensão de contexto, são tratadas pelo Vera Rubin; tarefas sensíveis à latência, como geração de Tokens, são feitas pelo Groq LPU. Esses dois chips se conectam por Ethernet de alta velocidade, colaborando para reduzir a latência em cerca de metade.

Huang chama essa abordagem de inferência desacoplada (dividir o processo entre diferentes chips), reconhecendo que alta taxa de transferência e baixa latência são inerentemente conflitantes, e que é melhor deixar cada chip fazer o que faz de melhor.

Ele afirmou que essa combinação oferece um aumento de desempenho de 35 vezes em relação à geração anterior, com preços de 45 e 150 dólares por Token, respectivamente.

Em uma perspectiva de longo prazo, um mesmo data center de 1 GW pode aumentar sua taxa de geração de Tokens de 22 milhões por segundo para 700 milhões em dois anos.

A recomendação de Huang para os clientes é: se o trabalho for principalmente inferência em lote de alta taxa, usar exclusivamente Vera Rubin; se houver muitas tarefas de programação e interação em tempo real, reservar cerca de 25% da capacidade do data center para o Groq LPU.

Ele afirmou que o Groq 3 LPU, terceirizado pela Samsung, já está em produção e deve ser enviado no terceiro trimestre deste ano.

No aspecto de software, a Nvidia lançou a plataforma de agentes inteligentes NemoClaw, que suporta o projeto de código aberto OpenClaw, que se tornou uma das mais rápidas a crescer no GitHub nas últimas semanas. Huang comparou sua importância à do Linux, chamando-o de sistema operacional para computadores de agentes inteligentes.

No entanto, usar o OpenClaw diretamente em ambientes empresariais apresenta riscos de segurança, pois os agentes podem acessar dados sensíveis, executar códigos e se comunicar externamente. O NemoClaw é uma camada de segurança empresarial adicionada ao OpenClaw. Empresas como Adobe, Salesforce e SAP já anunciaram adoção do Agent Toolkit da Nvidia, uma ferramenta de desenvolvimento de agentes.

Quanto ao roteiro, a Nvidia anunciou que sua próxima geração, a arquitetura Feynman, prevista para 2028, suportará pela primeira vez duas tecnologias de interconexão: cabos de cobre e CPO (tecnologia que integra componentes de comunicação óptica diretamente no chip).

Este ano também marca o 20º aniversário do CUDA, plataforma de computação geral da Nvidia, considerada a base do ecossistema de software da Nvidia. Huang revelou que 60% dos negócios da Nvidia vêm dos cinco maiores provedores de nuvem globais, enquanto os outros 40% estão distribuídos por setores como IA soberana, empresas, indústria e robótica.

Na GTC, a Nvidia também anunciou parcerias com Uber, BYD (002594), Geely, Hyundai, Nissan e Isuzu na área de condução autônoma. Como resultado, o setor de automóveis de Hong Kong teve uma forte alta em 17 de março, com a Geely Auto (00175.HK) atingindo uma alta intradiária de mais de 5%, fechando com alta de 4,55%.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.