- Modelo de linguagem baseado em difusão (diffusion) que supera o limite de velocidade dos LLMs com decodificação sequencial ao usar geração paralela
- Com uma estrutura de refinamento paralelo (parallel refinement) que gera e corrige vários tokens de uma vez, alcança velocidade de resposta mais de 5 vezes maior
- 1.009 tokens/segundo, contexto de 128K, saída em JSON e uso de ferramentas, otimizado para aplicações em tempo real
- Eficiência comprovada em ambientes sensíveis à latência, como assistência de programação, loops de agentes, interfaces de voz e pipelines de busca/RAG
- Totalmente compatível com a OpenAI API, permitindo integração imediata sem alterar a infraestrutura existente
Visão geral do Mercury 2
- O Mercury 2 é o modelo de linguagem de inferência mais rápido do mundo
- O objetivo é oferecer responsividade imediata em ambientes de AI em produção
- O gargalo dos LLMs tradicionais está na estrutura de decodificação sequencial autorregressiva (one token at a time)
- Isso faz com que a latência se acumule em workflows de AI baseados em loops iterativos
Arquitetura de inferência em tempo real baseada em difusão
- O Mercury 2 adota refinamento paralelo (parallel refinement) em vez de decodificação sequencial
- Gera vários tokens simultaneamente e converge em poucas etapas
- Em vez de funcionar como uma “máquina de escrever”, atua como um “editor”, revisando repetidamente um rascunho completo
- Como resultado, entrega velocidade de geração mais de 5 vezes maior e uma nova curva de velocidade
- A inferência baseada em difusão possibilita inferência de alta qualidade minimizando latência e custo
Desempenho e especificações
- Velocidade: 1.009 tokens/segundo em GPUs NVIDIA Blackwell
- Preço: $0,25 por 1 milhão de tokens de entrada e $0,75 por 1 milhão de tokens de saída
- Qualidade: nível competitivo com os principais modelos otimizados para velocidade
- Recursos: raciocínio ajustável (tunable reasoning), contexto de 128K, uso de ferramentas e saída alinhada a esquema JSON
- Otimização de latência: latência p95, responsividade consistente em ambientes de alta concorrência e manutenção de throughput estável
- Um representante da NVIDIA mencionou que o Mercury 2, combinado com a infraestrutura de AI da NVIDIA, ultrapassou 1.000 tokens/segundo
Casos de uso em produção
1. Programação e edição
- Oferece resposta imediata em loops de desenvolvedor, como autocompletar, refatoração e agentes de código
- O cofundador da Zed, Max Brunsfeld, destacou a “velocidade de sugestões como se fossem parte do pensamento”
2. Loops de agentes
- Reduz a latência de chamadas em workflows de agentes que exigem múltiplas chamadas de raciocínio em etapas
- A Viant usa o Mercury 2 para otimização de campanhas em tempo real e fortalecimento de sistemas autônomos de publicidade
- A Wispr Flow está avaliando a velocidade do Mercury 2 em conversação em tempo real e refinamento de transcrições
- A Skyvern afirmou que ele é “pelo menos duas vezes mais rápido que o GPT-5.2”
3. Voz em tempo real e interação
- Interfaces de voz têm os limites de latência mais rígidos
- A Happyverse AI implementou avatares conversacionais naturais em tempo real com o Mercury 2
- A OpenCall mencionou a possibilidade de criar agentes de voz mais responsivos com baixa latência e alta qualidade
4. Busca e pipelines de RAG
- Permite inferência em tempo real ao reduzir a latência acumulada de múltiplas etapas de busca, reranking e sumarização
- Em colaboração com o Mercury 2, a SearchBlox implementou AI de busca em tempo real,
oferecendo inteligência em segundos para áreas como suporte ao cliente, risco e comércio eletrônico
Implantação e integração
- O Mercury 2 está disponível para uso imediato e é totalmente compatível com a OpenAI API
- Pode ser integrado aos sistemas existentes sem alterações no código
- Em avaliações corporativas, oferece suporte para adequação de workload, validação de desempenho e desenho de avaliação
- Frase oficial: “Mercury 2 is live. Welcome to diffusion.”
1 comentários
Comentários do Hacker News
O conceito de medir inteligência (métrica) por segundo é interessante
Por exemplo, é uma forma de considerar junto a inteligência por token e o número de tokens por segundo
Pessoalmente, se o Sonnet 4.6 for 5 vezes mais rápido que o Opus 4.6, eu provavelmente usaria principalmente o Sonnet
Na geração anterior, a linha Sonnet não era boa o suficiente, mas agora a vantagem de iteração proporcionada pela velocidade é grande, então o cenário mudou
Antes eu usava o OpenAI Deep Research, mas o o3-thinking + busca na web era muito mais rápido e inteligente o bastante
Se você desenvolve APIs com hardware como Cereberas ou Groq, a velocidade de iteração e o custo ficam em outro patamar
Em uma nota de pesquisa que escrevi recentemente, também mostro que separar planejamento em um modelo AR e geração em um modelo de diffusion melhora bastante o desempenho
Por exemplo, se 5 toneladas de carvão bastam, mas você usa 30 para obter uma melhora de 0.0000000001%, isso não é progresso de verdade
Modelos como Composer e versões Flash são exemplos disso, e o Mercury 2 também se posiciona fortemente nessa categoria
Modelos rápidos iteram mais depressa, e modelos grandes tendem a ser mais corretos já na primeira tentativa
No momento eu gosto do Opus 4.6, mas queria ver em dados a diferença de eficiência em relação ao Sonnet
Esse é exatamente o motivo de eu gostar do Gemini 3 Flash — inteligente o suficiente e inacreditavelmente rápido
Fiz um teste simples e, ao perguntar sobre “as conquistas de Maradona”, o Mercury 2 cometeu o erro de digitar “Dieadona”
É uma pergunta que até um modelo local 3B responderia perfeitamente, mas o Mercury 2 é lento e comete muitos erros
O Mercury 2 gera respostas com um método de refinamento paralelo
É uma estrutura em que vários tokens são gerados ao mesmo tempo e convergem em algumas etapas; em vez de ser como uma máquina de escrever, é mais como um editor refinando um rascunho inteiro
Há pesquisas em andamento para unificar DDPM e SGM via SDE, e fico curioso se cada camada do transformer poderia ser vista como uma etapa de diffusion
Se as L camadas do transformer corresponderem às L etapas de refinamento da diffusion, talvez seja possível algum tipo de ajuste mútuo entre os dois modelos
Como cofundador e Chief Scientist da Inception, fico feliz em receber perguntas técnicas sobre o Mercury 2 ou diffusion LM
Queria saber se há redução de latência ou custo, se existe uma curva parecida com o cache autoregressivo, ou se isso simplesmente não se aplica
Também seria interessante saber se dá para aplicar comprimento dinâmico de bloco
Na maioria dos sistemas de voz, TTFT (time-to-first-token) importa mais do que a latência total da resposta
Gostaria de saber quanto o TTFT do Mercury 2 melhora em relação a outros modelos de reasoning
Veja este link do caso
Tenho curiosidade sobre a causa desse comportamento
O mais interessante é que surgiram modelos gerando milhares de tokens por segundo
Com isso, mesmo usando multi-shot prompting ou nudging, o usuário talvez nem perceba, o que pode reduzir problemas de alucinação e respostas não determinísticas
O Mercury 2 permite iteração rápida em tarefas de agentes
Uma tentativa isolada pode ser menos precisa, mas graças ao tempo de execução curto é possível melhorar muito mais rápido
Por exemplo, o GPT-OSS 20B chega a cerca de 2k tok/s com bs=64 em uma única 3090
Ainda não estou convencido pelos modelos de diffusion
O Google e outros também tentaram, mas na maioria dos casos ficaram atrás na fronteira de Pareto
Veja este link de comparação de preço/desempenho
No mesmo nível de qualidade, o Mercury é mais de 5 vezes mais rápido que modelos AR semelhantes
A inteligência absoluta ainda fica abaixo de Opus ou Gemini Pro, mas há uma grande vantagem em velocidade de inferência
É uma área bem menos explorada do que transformers autoregressivos, então há bastante headroom técnico
Se existisse uma versão “Mercury Edit”, como o Fast Apply da Morph, eu certamente gostaria de testar
A abordagem baseada em diffusion é muito interessante
Transformers tradicionais geram tokens sequencialmente, mas a diffusion pode refinar iterativamente a saída inteira
Se o problema de latência foi resolvido, isso pode abrir novas possibilidades para tarefas complexas de reasoning
Tenho curiosidade se existe algum LLM de diffusion com pesos abertos que rode em hardware local
Gostaria de ver diretamente a diferença de desempenho em GPUs para consumidores
O Mercury 2 falhou no Car Wash Test
Em vez de um modelo de reasoning geral, talvez seja melhor focar em casos de uso específicos (por exemplo, agentes de código) e compará-lo com modelos SOTA desse domínio, como o Qwen3-Coder-Next
Mesmo em sessões longas, a precisão é mais importante
Se esse modelo fosse embarcado em um chip Talaas, será que poderia gerar mais de 50.000 tokens por segundo?