Mercury 2: LLM de inferência ultrarrápida baseado em difusão

(inceptionlabs.ai)

7 pontos por GN⁺ 2026-02-26 | 1 comentários | Compartilhar no WhatsApp

Modelo de linguagem baseado em difusão (diffusion) que supera o limite de velocidade dos LLMs com decodificação sequencial ao usar geração paralela
Com uma estrutura de refinamento paralelo (parallel refinement) que gera e corrige vários tokens de uma vez, alcança velocidade de resposta mais de 5 vezes maior
1.009 tokens/segundo, contexto de 128K, saída em JSON e uso de ferramentas, otimizado para aplicações em tempo real
Eficiência comprovada em ambientes sensíveis à latência, como assistência de programação, loops de agentes, interfaces de voz e pipelines de busca/RAG
Totalmente compatível com a OpenAI API, permitindo integração imediata sem alterar a infraestrutura existente

Visão geral do Mercury 2

O Mercury 2 é o modelo de linguagem de inferência mais rápido do mundo
- O objetivo é oferecer responsividade imediata em ambientes de AI em produção
O gargalo dos LLMs tradicionais está na estrutura de decodificação sequencial autorregressiva (one token at a time)
- Isso faz com que a latência se acumule em workflows de AI baseados em loops iterativos

Arquitetura de inferência em tempo real baseada em difusão

O Mercury 2 adota refinamento paralelo (parallel refinement) em vez de decodificação sequencial
- Gera vários tokens simultaneamente e converge em poucas etapas
- Em vez de funcionar como uma “máquina de escrever”, atua como um “editor”, revisando repetidamente um rascunho completo
Como resultado, entrega velocidade de geração mais de 5 vezes maior e uma nova curva de velocidade
A inferência baseada em difusão possibilita inferência de alta qualidade minimizando latência e custo

Desempenho e especificações

Velocidade: 1.009 tokens/segundo em GPUs NVIDIA Blackwell
Preço: $0,25 por 1 milhão de tokens de entrada e $0,75 por 1 milhão de tokens de saída
Qualidade: nível competitivo com os principais modelos otimizados para velocidade
Recursos: raciocínio ajustável (tunable reasoning), contexto de 128K, uso de ferramentas e saída alinhada a esquema JSON
Otimização de latência: latência p95, responsividade consistente em ambientes de alta concorrência e manutenção de throughput estável
Um representante da NVIDIA mencionou que o Mercury 2, combinado com a infraestrutura de AI da NVIDIA, ultrapassou 1.000 tokens/segundo

Casos de uso em produção

1. Programação e edição

Oferece resposta imediata em loops de desenvolvedor, como autocompletar, refatoração e agentes de código
O cofundador da Zed, Max Brunsfeld, destacou a “velocidade de sugestões como se fossem parte do pensamento”

2. Loops de agentes

Reduz a latência de chamadas em workflows de agentes que exigem múltiplas chamadas de raciocínio em etapas
A Viant usa o Mercury 2 para otimização de campanhas em tempo real e fortalecimento de sistemas autônomos de publicidade
A Wispr Flow está avaliando a velocidade do Mercury 2 em conversação em tempo real e refinamento de transcrições
A Skyvern afirmou que ele é “pelo menos duas vezes mais rápido que o GPT-5.2”

3. Voz em tempo real e interação

Interfaces de voz têm os limites de latência mais rígidos
A Happyverse AI implementou avatares conversacionais naturais em tempo real com o Mercury 2
A OpenCall mencionou a possibilidade de criar agentes de voz mais responsivos com baixa latência e alta qualidade

4. Busca e pipelines de RAG

Permite inferência em tempo real ao reduzir a latência acumulada de múltiplas etapas de busca, reranking e sumarização
Em colaboração com o Mercury 2, a SearchBlox implementou AI de busca em tempo real,
oferecendo inteligência em segundos para áreas como suporte ao cliente, risco e comércio eletrônico

Implantação e integração

O Mercury 2 está disponível para uso imediato e é totalmente compatível com a OpenAI API
Pode ser integrado aos sistemas existentes sem alterações no código
Em avaliações corporativas, oferece suporte para adequação de workload, validação de desempenho e desenho de avaliação
Frase oficial: “Mercury 2 is live. Welcome to diffusion.”

1 comentários

GN⁺ 2026-02-26

Comentários do Hacker News

O conceito de medir inteligência (métrica) por segundo é interessante
Por exemplo, é uma forma de considerar junto a inteligência por token e o número de tokens por segundo
Pessoalmente, se o Sonnet 4.6 for 5 vezes mais rápido que o Opus 4.6, eu provavelmente usaria principalmente o Sonnet
Na geração anterior, a linha Sonnet não era boa o suficiente, mas agora a vantagem de iteração proporcionada pela velocidade é grande, então o cenário mudou
Antes eu usava o OpenAI Deep Research, mas o o3-thinking + busca na web era muito mais rápido e inteligente o bastante
- Acho que “velocidade em si é um eixo de qualidade”
  Se você desenvolve APIs com hardware como Cereberas ou Groq, a velocidade de iteração e o custo ficam em outro patamar
  Em uma nota de pesquisa que escrevi recentemente, também mostro que separar planejamento em um modelo AR e geração em um modelo de diffusion melhora bastante o desempenho
- Acho que seria mais realista adicionar a essa métrica a eficiência por unidade de hardware
  Por exemplo, se 5 toneladas de carvão bastam, mas você usa 30 para obter uma melhora de 0.0000000001%, isso não é progresso de verdade
- Está surgindo uma nova família de modelos voltados para iteração rápida de agentes
  Modelos como Composer e versões Flash são exemplos disso, e o Mercury 2 também se posiciona fortemente nessa categoria
- Parece que em breve será possível fazer benchmarks reais
  Modelos rápidos iteram mais depressa, e modelos grandes tendem a ser mais corretos já na primeira tentativa
  No momento eu gosto do Opus 4.6, mas queria ver em dados a diferença de eficiência em relação ao Sonnet
- Gosto muito do conceito de “Intelligence per second”
  Esse é exatamente o motivo de eu gostar do Gemini 3 Flash — inteligente o suficiente e inacreditavelmente rápido
Fiz um teste simples e, ao perguntar sobre “as conquistas de Maradona”, o Mercury 2 cometeu o erro de digitar “Dieadona”
É uma pergunta que até um modelo local 3B responderia perfeitamente, mas o Mercury 2 é lento e comete muitos erros
O Mercury 2 gera respostas com um método de refinamento paralelo
É uma estrutura em que vários tokens são gerados ao mesmo tempo e convergem em algumas etapas; em vez de ser como uma máquina de escrever, é mais como um editor refinando um rascunho inteiro
Há pesquisas em andamento para unificar DDPM e SGM via SDE, e fico curioso se cada camada do transformer poderia ser vista como uma etapa de diffusion
Se as L camadas do transformer corresponderem às L etapas de refinamento da diffusion, talvez seja possível algum tipo de ajuste mútuo entre os dois modelos
Como cofundador e Chief Scientist da Inception, fico feliz em receber perguntas técnicas sobre o Mercury 2 ou diffusion LM
- Tenho curiosidade sobre como o cache KV funciona em modelos de diffusion
  Queria saber se há redução de latência ou custo, se existe uma curva parecida com o cache autoregressivo, ou se isso simplesmente não se aplica
- Modelos de diffusion parecem fazer reasoning em blocos de texto, então fico curioso sobre como lidam com dependências de informação entre blocos
  Também seria interessante saber se dá para aplicar comprimento dinâmico de bloco
- Tenho curiosidade sobre o funcionamento real do Voice AI mencionado no anúncio
  Na maioria dos sistemas de voz, TTFT (time-to-first-token) importa mais do que a latência total da resposta
  Gostaria de saber quanto o TTFT do Mercury 2 melhora em relação a outros modelos de reasoning
- Enfrentei um fenômeno de loop, parecido com modelos transformer fracos
  Veja este link do caso
  Tenho curiosidade sobre a causa desse comportamento
- Também queria saber se há planos de evoluir para um modelo drifting em busca de ainda mais velocidade
O mais interessante é que surgiram modelos gerando milhares de tokens por segundo
Com isso, mesmo usando multi-shot prompting ou nudging, o usuário talvez nem perceba, o que pode reduzir problemas de alucinação e respostas não determinísticas
- Nós pensamos da mesma forma
  O Mercury 2 permite iteração rápida em tarefas de agentes
  Uma tentativa isolada pode ser menos precisa, mas graças ao tempo de execução curto é possível melhorar muito mais rápido
- Modelos gerais também ficam bem rápidos com batch inference
  Por exemplo, o GPT-OSS 20B chega a cerca de 2k tok/s com bs=64 em uma única 3090
Ainda não estou convencido pelos modelos de diffusion
O Google e outros também tentaram, mas na maioria dos casos ficaram atrás na fronteira de Pareto
Veja este link de comparação de preço/desempenho
- Há uma contestação a essa visão sob a ótica de Pareto
  No mesmo nível de qualidade, o Mercury é mais de 5 vezes mais rápido que modelos AR semelhantes
  A inteligência absoluta ainda fica abaixo de Opus ou Gemini Pro, mas há uma grande vantagem em velocidade de inferência
- A diffusion em texto ainda tem muito espaço para evoluir
  É uma área bem menos explorada do que transformers autoregressivos, então há bastante headroom técnico
- Este modelo parece perfeito para casos de uso de edição rápida
  Se existisse uma versão “Mercury Edit”, como o Fast Apply da Morph, eu certamente gostaria de testar
A abordagem baseada em diffusion é muito interessante
Transformers tradicionais geram tokens sequencialmente, mas a diffusion pode refinar iterativamente a saída inteira
Se o problema de latência foi resolvido, isso pode abrir novas possibilidades para tarefas complexas de reasoning
Tenho curiosidade se existe algum LLM de diffusion com pesos abertos que rode em hardware local
Gostaria de ver diretamente a diferença de desempenho em GPUs para consumidores
O Mercury 2 falhou no Car Wash Test
Em vez de um modelo de reasoning geral, talvez seja melhor focar em casos de uso específicos (por exemplo, agentes de código) e compará-lo com modelos SOTA desse domínio, como o Qwen3-Coder-Next
- Pessoalmente, prefiro um modelo lento, mas preciso, a um modelo rápido, porém cheio de erros
  Mesmo em sessões longas, a precisão é mais importante
Se esse modelo fosse embarcado em um chip Talaas, será que poderia gerar mais de 50.000 tokens por segundo?
- Se fosse incorporado como um circuito em estilo ASIC sem latência de memória, parece que qualquer modelo poderia ganhar uma velocidade enorme

Mercury 2: LLM de inferência ultrarrápida baseado em difusão

Visão geral do Mercury 2

Arquitetura de inferência em tempo real baseada em difusão

Desempenho e especificações

Casos de uso em produção

1. Programação e edição

2. Loops de agentes

3. Voz em tempo real e interação

4. Busca e pipelines de RAG

Implantação e integração

Leituras relacionadas

1 comentários

Comentários do Hacker News