Inception Labs Lança Mercury 2, Modelo de Raciocínio Baseado em Difusão que Alcança Mais de 1.000 Tokens Por Segundo

2026-02-26 09:42:03

Em Resumo

Inception Labs lançou o Mercury 2, um modelo de raciocínio baseado em difusão capaz de gerar mais de 1.000 tokens por segundo, três vezes mais rápido do que modelos comparáveis.

A Inception Labs, uma startup de IA, lançou o Mercury 2, um Modelo de Linguagem Grande (LLM) baseado em difusão, projetado para acelerar significativamente as tarefas de raciocínio em aplicações de IA em produção.

Ao contrário dos modelos autoregressivos tradicionais que geram texto sequencialmente, o Mercury 2 utiliza um processo de refinamento paralelo, produzindo múltiplos tokens simultaneamente e convergindo em um pequeno número de passos, permitindo velocidades superiores a 1.000 tokens por segundo em GPUs NVIDIA Blackwell — aproximadamente três vezes mais rápido do que modelos concorrentes na mesma faixa de preço.

O modelo é otimizado para resposta em tempo real em fluxos de trabalho complexos de IA, onde a latência se acumula em várias chamadas de inferência, pipelines de recuperação e ciclos de agentes. O Mercury 2 mantém alta qualidade de raciocínio enquanto reduz a latência, permitindo que desenvolvedores, sistemas de IA de voz, motores de busca e outras aplicações interativas operem com desempenho de nível de raciocínio, sem os atrasos associados à geração sequencial. Ele suporta recursos como raciocínio ajustável, janelas de contexto de 128K tokens, saída JSON alinhada ao esquema e integração nativa de ferramentas, oferecendo flexibilidade para diversas implantações em produção.

Mercury 2 Permite IA de Baixa Latência em Fluxos de Trabalho de Codificação, Voz e Busca

O relatório destaca vários casos de uso onde a baixa latência no raciocínio é fundamental. Em fluxos de trabalho de codificação e edição, o Mercury 2 oferece sugestões rápidas de autocompletar e próximas edições que se integram perfeitamente aos processos de pensamento dos desenvolvedores. Em fluxos de trabalho agentes, o modelo permite mais passos de inferência sem ultrapassar os limites de latência, melhorando a qualidade e profundidade das decisões automatizadas. Aplicações de IA baseada em voz e interativas beneficiam-se da sua capacidade de gerar respostas de raciocínio de alta qualidade dentro de cadências de fala natural, aprimorando a experiência do usuário em cenários de conversação em tempo real. Além disso, o Mercury 2 suporta pipelines de busca e recuperação multi-hop, possibilitando resumos rápidos, reclassificações e raciocínio sem comprometer os tempos de resposta.

Os primeiros utilizadores notaram melhorias significativas na taxa de processamento e na experiência do usuário. O Mercury 2 foi descrito como pelo menos duas vezes mais rápido que o GPT-5.2, mantendo uma qualidade competitiva, com aplicações que vão desde limpeza de transcrições em tempo real, interfaces interativas homem-máquina, otimização autônoma de publicidade e avatares de IA ativados por voz.

O modelo é compatível com a API da OpenAI, permitindo integração em stacks existentes sem modificações extensas, e a Inception Labs oferece suporte para avaliações empresariais, validação de desempenho e orientações específicas para implantação de cargas de trabalho. O Mercury 2 representa um avanço nos LLMs baseados em difusão, redefinindo o equilíbrio entre qualidade de raciocínio e latência em ambientes de IA em produção.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.