7 pontos por GN⁺ 2026-02-26 | 1 comentários | Compartilhar no WhatsApp
  • Modelo de linguagem baseado em difusão (diffusion) que supera o limite de velocidade dos LLMs com decodificação sequencial ao usar geração paralela
  • Com uma estrutura de refinamento paralelo (parallel refinement) que gera e corrige vários tokens de uma vez, alcança velocidade de resposta mais de 5 vezes maior
  • 1.009 tokens/segundo, contexto de 128K, saída em JSON e uso de ferramentas, otimizado para aplicações em tempo real
  • Eficiência comprovada em ambientes sensíveis à latência, como assistência de programação, loops de agentes, interfaces de voz e pipelines de busca/RAG
  • Totalmente compatível com a OpenAI API, permitindo integração imediata sem alterar a infraestrutura existente

Visão geral do Mercury 2

  • O Mercury 2 é o modelo de linguagem de inferência mais rápido do mundo
    • O objetivo é oferecer responsividade imediata em ambientes de AI em produção
  • O gargalo dos LLMs tradicionais está na estrutura de decodificação sequencial autorregressiva (one token at a time)
    • Isso faz com que a latência se acumule em workflows de AI baseados em loops iterativos

Arquitetura de inferência em tempo real baseada em difusão

  • O Mercury 2 adota refinamento paralelo (parallel refinement) em vez de decodificação sequencial
    • Gera vários tokens simultaneamente e converge em poucas etapas
    • Em vez de funcionar como uma “máquina de escrever”, atua como um “editor”, revisando repetidamente um rascunho completo
  • Como resultado, entrega velocidade de geração mais de 5 vezes maior e uma nova curva de velocidade
  • A inferência baseada em difusão possibilita inferência de alta qualidade minimizando latência e custo

Desempenho e especificações

  • Velocidade: 1.009 tokens/segundo em GPUs NVIDIA Blackwell
  • Preço: $0,25 por 1 milhão de tokens de entrada e $0,75 por 1 milhão de tokens de saída
  • Qualidade: nível competitivo com os principais modelos otimizados para velocidade
  • Recursos: raciocínio ajustável (tunable reasoning), contexto de 128K, uso de ferramentas e saída alinhada a esquema JSON
  • Otimização de latência: latência p95, responsividade consistente em ambientes de alta concorrência e manutenção de throughput estável
  • Um representante da NVIDIA mencionou que o Mercury 2, combinado com a infraestrutura de AI da NVIDIA, ultrapassou 1.000 tokens/segundo

Casos de uso em produção

1. Programação e edição

  • Oferece resposta imediata em loops de desenvolvedor, como autocompletar, refatoração e agentes de código
  • O cofundador da Zed, Max Brunsfeld, destacou a “velocidade de sugestões como se fossem parte do pensamento

2. Loops de agentes

  • Reduz a latência de chamadas em workflows de agentes que exigem múltiplas chamadas de raciocínio em etapas
  • A Viant usa o Mercury 2 para otimização de campanhas em tempo real e fortalecimento de sistemas autônomos de publicidade
  • A Wispr Flow está avaliando a velocidade do Mercury 2 em conversação em tempo real e refinamento de transcrições
  • A Skyvern afirmou que ele é “pelo menos duas vezes mais rápido que o GPT-5.2

3. Voz em tempo real e interação

  • Interfaces de voz têm os limites de latência mais rígidos
  • A Happyverse AI implementou avatares conversacionais naturais em tempo real com o Mercury 2
  • A OpenCall mencionou a possibilidade de criar agentes de voz mais responsivos com baixa latência e alta qualidade

4. Busca e pipelines de RAG

  • Permite inferência em tempo real ao reduzir a latência acumulada de múltiplas etapas de busca, reranking e sumarização
  • Em colaboração com o Mercury 2, a SearchBlox implementou AI de busca em tempo real,
    oferecendo inteligência em segundos para áreas como suporte ao cliente, risco e comércio eletrônico

Implantação e integração

  • O Mercury 2 está disponível para uso imediato e é totalmente compatível com a OpenAI API
  • Pode ser integrado aos sistemas existentes sem alterações no código
  • Em avaliações corporativas, oferece suporte para adequação de workload, validação de desempenho e desenho de avaliação
  • Frase oficial: “Mercury 2 is live. Welcome to diffusion.

1 comentários

 
GN⁺ 2026-02-26
Comentários do Hacker News
  • O conceito de medir inteligência (métrica) por segundo é interessante
    Por exemplo, é uma forma de considerar junto a inteligência por token e o número de tokens por segundo
    Pessoalmente, se o Sonnet 4.6 for 5 vezes mais rápido que o Opus 4.6, eu provavelmente usaria principalmente o Sonnet
    Na geração anterior, a linha Sonnet não era boa o suficiente, mas agora a vantagem de iteração proporcionada pela velocidade é grande, então o cenário mudou
    Antes eu usava o OpenAI Deep Research, mas o o3-thinking + busca na web era muito mais rápido e inteligente o bastante

    • Acho que “velocidade em si é um eixo de qualidade
      Se você desenvolve APIs com hardware como Cereberas ou Groq, a velocidade de iteração e o custo ficam em outro patamar
      Em uma nota de pesquisa que escrevi recentemente, também mostro que separar planejamento em um modelo AR e geração em um modelo de diffusion melhora bastante o desempenho
    • Acho que seria mais realista adicionar a essa métrica a eficiência por unidade de hardware
      Por exemplo, se 5 toneladas de carvão bastam, mas você usa 30 para obter uma melhora de 0.0000000001%, isso não é progresso de verdade
    • Está surgindo uma nova família de modelos voltados para iteração rápida de agentes
      Modelos como Composer e versões Flash são exemplos disso, e o Mercury 2 também se posiciona fortemente nessa categoria
    • Parece que em breve será possível fazer benchmarks reais
      Modelos rápidos iteram mais depressa, e modelos grandes tendem a ser mais corretos já na primeira tentativa
      No momento eu gosto do Opus 4.6, mas queria ver em dados a diferença de eficiência em relação ao Sonnet
    • Gosto muito do conceito de “Intelligence per second”
      Esse é exatamente o motivo de eu gostar do Gemini 3 Flash — inteligente o suficiente e inacreditavelmente rápido
  • Fiz um teste simples e, ao perguntar sobre “as conquistas de Maradona”, o Mercury 2 cometeu o erro de digitar “Dieadona”
    É uma pergunta que até um modelo local 3B responderia perfeitamente, mas o Mercury 2 é lento e comete muitos erros

  • O Mercury 2 gera respostas com um método de refinamento paralelo
    É uma estrutura em que vários tokens são gerados ao mesmo tempo e convergem em algumas etapas; em vez de ser como uma máquina de escrever, é mais como um editor refinando um rascunho inteiro
    Há pesquisas em andamento para unificar DDPM e SGM via SDE, e fico curioso se cada camada do transformer poderia ser vista como uma etapa de diffusion
    Se as L camadas do transformer corresponderem às L etapas de refinamento da diffusion, talvez seja possível algum tipo de ajuste mútuo entre os dois modelos

  • Como cofundador e Chief Scientist da Inception, fico feliz em receber perguntas técnicas sobre o Mercury 2 ou diffusion LM

    • Tenho curiosidade sobre como o cache KV funciona em modelos de diffusion
      Queria saber se há redução de latência ou custo, se existe uma curva parecida com o cache autoregressivo, ou se isso simplesmente não se aplica
    • Modelos de diffusion parecem fazer reasoning em blocos de texto, então fico curioso sobre como lidam com dependências de informação entre blocos
      Também seria interessante saber se dá para aplicar comprimento dinâmico de bloco
    • Tenho curiosidade sobre o funcionamento real do Voice AI mencionado no anúncio
      Na maioria dos sistemas de voz, TTFT (time-to-first-token) importa mais do que a latência total da resposta
      Gostaria de saber quanto o TTFT do Mercury 2 melhora em relação a outros modelos de reasoning
    • Enfrentei um fenômeno de loop, parecido com modelos transformer fracos
      Veja este link do caso
      Tenho curiosidade sobre a causa desse comportamento
    • Também queria saber se há planos de evoluir para um modelo drifting em busca de ainda mais velocidade
  • O mais interessante é que surgiram modelos gerando milhares de tokens por segundo
    Com isso, mesmo usando multi-shot prompting ou nudging, o usuário talvez nem perceba, o que pode reduzir problemas de alucinação e respostas não determinísticas

    • Nós pensamos da mesma forma
      O Mercury 2 permite iteração rápida em tarefas de agentes
      Uma tentativa isolada pode ser menos precisa, mas graças ao tempo de execução curto é possível melhorar muito mais rápido
    • Modelos gerais também ficam bem rápidos com batch inference
      Por exemplo, o GPT-OSS 20B chega a cerca de 2k tok/s com bs=64 em uma única 3090
  • Ainda não estou convencido pelos modelos de diffusion
    O Google e outros também tentaram, mas na maioria dos casos ficaram atrás na fronteira de Pareto
    Veja este link de comparação de preço/desempenho

    • Há uma contestação a essa visão sob a ótica de Pareto
      No mesmo nível de qualidade, o Mercury é mais de 5 vezes mais rápido que modelos AR semelhantes
      A inteligência absoluta ainda fica abaixo de Opus ou Gemini Pro, mas há uma grande vantagem em velocidade de inferência
    • A diffusion em texto ainda tem muito espaço para evoluir
      É uma área bem menos explorada do que transformers autoregressivos, então há bastante headroom técnico
    • Este modelo parece perfeito para casos de uso de edição rápida
      Se existisse uma versão “Mercury Edit”, como o Fast Apply da Morph, eu certamente gostaria de testar
  • A abordagem baseada em diffusion é muito interessante
    Transformers tradicionais geram tokens sequencialmente, mas a diffusion pode refinar iterativamente a saída inteira
    Se o problema de latência foi resolvido, isso pode abrir novas possibilidades para tarefas complexas de reasoning

  • Tenho curiosidade se existe algum LLM de diffusion com pesos abertos que rode em hardware local
    Gostaria de ver diretamente a diferença de desempenho em GPUs para consumidores

  • O Mercury 2 falhou no Car Wash Test
    Em vez de um modelo de reasoning geral, talvez seja melhor focar em casos de uso específicos (por exemplo, agentes de código) e compará-lo com modelos SOTA desse domínio, como o Qwen3-Coder-Next

    • Pessoalmente, prefiro um modelo lento, mas preciso, a um modelo rápido, porém cheio de erros
      Mesmo em sessões longas, a precisão é mais importante
  • Se esse modelo fosse embarcado em um chip Talaas, será que poderia gerar mais de 50.000 tokens por segundo?

    • Se fosse incorporado como um circuito em estilo ASIC sem latência de memória, parece que qualquer modelo poderia ganhar uma velocidade enorme