Acabei de perceber algo interessante que a maioria das pessoas ainda não notou. Todos têm estado obcecados com o fornecimento de GPUs há anos, mas silenciosamente, os CPUs tornaram-se a verdadeira limitação na infraestrutura de IA. E essa mudança está a acontecer mais rápido do que a maioria percebe.



No mês passado, Google e Intel anunciaram um acordo multianual massivo especificamente para resolver esse gargalo de CPU. A mensagem da Intel foi clara: a IA não funciona apenas com GPUs—os CPUs e a orquestração do sistema são agora o fator limitador. Entretanto, os preços dos CPUs de servidores subiram cerca de 30% no quarto trimestre do ano passado, o que é impressionante para um mercado maduro. Os tempos de entrega da AMD passaram de 8 semanas para mais de 10 semanas, com algumas peças enfrentando atrasos de 6 meses. Isto não é hype—é uma pressão real de fornecimento.

A ironia é brutal: os laboratórios de IA têm muitas GPUs paradas, mas não conseguem obter CPUs de alta gama suficientes para realmente executá-las. A capacidade de 3nm da TSMC está sendo pressionada pelos pedidos de GPUs, então a alocação de wafers de CPU continua a ser realocada. Até Elon Musk entrou na corrida de CPUs, encomendando à Intel o design de chips personalizados para seu projeto Terafab no Texas. É assim que as coisas ficaram apertadas.

Por que a mudança repentina? É porque as cargas de trabalho de agentes são completamente diferentes da inferência tradicional. Os chatbots geralmente descarregam o cálculo para GPUs. Mas os agentes? Precisam orquestrar APIs, gerenciar bancos de dados, executar código e coordenar resultados—tarefas todas intensivas em CPU. Pesquisadores do Georgia Tech descobriram que o trabalho do lado da CPU agora representa de 50% a 90% da latência total em sistemas de agentes. A GPU fica lá, pronta para usar, enquanto a CPU ainda lida com chamadas de ferramentas.

O aumento das janelas de contexto também não ajuda. Os modelos agora suportam mais de 1 milhão de tokens, e o cache KV sozinho atinge cerca de 200GB—muito além do que um único H100 pode armazenar. Os CPUs precisam descarregar e gerenciar essa memória, então agora eles não estão apenas a orquestrar; estão a fazer uma gestão séria de dados.

Veja como os fabricantes estão a responder. A CEO da AMD, Lisa Su, tem sido bastante direta: as cargas de trabalho de agentes estão a empurrar tarefas de volta para CPUs tradicionais, e isso está a impulsionar o crescimento deles. A receita de data center da AMD atingiu 5,4 bilhões de dólares no quarto trimestre, um aumento de 39% em relação ao ano anterior, com CPUs EPYC a fazerem o trabalho pesado. A quota de mercado da AMD em CPUs de servidor ultrapassou 40% pela primeira vez. Mas a AMD ainda não possui as capacidades de interconexão CPU-GPU tão avançadas que a NVIDIA está a construir com NVLink.

A NVIDIA adotou uma abordagem diferente. A sua CPU Grace tem apenas 72 núcleos, contra os 128 da AMD ou as configurações típicas da Intel. Em vez de perseguir contagens de núcleos, a NVIDIA otimizou para colaboração—NVLink C2C aumenta a largura de banda para 1,8TB/s, permitindo que a CPU acesse diretamente a memória da GPU. Começaram a vender o Grace como produto independente, e a Meta acabou de fazer uma implementação massiva de "puro Grace" sem emparelhá-lo com GPUs. Isso é um sinal.

A Intel está a jogar dos dois lados—empurrando os processadores Xeon profundamente em parcerias com hyperscalers, enquanto também colabora com a SambaNova em soluções híbridas que executam inferência de agentes sem GPUs. O processo de 18A e o roadmap do Xeon 6 Granite Rapids serão cruciais para eles.

Aqui está a visão mais ampla: a parceria da Amazon com a $38B OpenAI menciona explicitamente a implantação de "dezenas de milhões de CPUs". Isso representa uma mudança do antigo padrão de "centenas de milhares de GPUs". O Bank of America projeta que o mercado de CPUs pode dobrar até $27B e até $60B até 2030, quase inteiramente impulsionado pela IA.

O que estamos realmente a ver é uma reconstrução completa da infraestrutura. As empresas já não estão apenas a escalar GPUs—estão a construir uma camada inteira de infraestrutura de orquestração de CPUs especificamente desenhada para agentes de IA. Quando o cálculo se torna abundante, a eficiência ao nível do sistema torna-se o fator diferenciador. Os próximos vencedores na IA não serão determinados pelo número bruto de GPUs; serão aqueles que resolverem primeiro o gargalo de CPU.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar