LongCat-2.0 é lançado — modelo open source de 1,6 trilhão de parâmetros treinado sem Nvidia
(longcat.chat)- Grande modelo de linguagem MoE com 1,6 trilhão (1.6T) de parâmetros no total e cerca de 48 bilhões ativados por token, acompanhado de várias melhorias de arquitetura junto com a abertura do código
- Todo o treinamento e a implantação em larga escala foram realizados inteiramente em um superpod de AI ASIC, concluindo o pré-treinamento em mais de 35 trilhões de tokens sem aumentos de loss irreversíveis que exigissem rollback ou recuperação
- Introduz LongCat Sparse Attention (LSA) e treinamento com dados de contexto de 1M em escala de centenas de bilhões de tokens para reforçar o desempenho em tarefas de longo prazo
- Integrado de forma próxima a harnesses populares como Claude Code, OpenClaw e Hermes, oferecendo forte desempenho em compreensão de código, edições no nível de repositório, execução automática de tarefas e fluxos de trabalho de agentes
- Demonstra que é possível realizar treinamento de nível frontier em hardware alternativo ainda menos maduro que o ecossistema de GPUs da Nvidia, e que otimizações em infraestrutura e pós-treinamento se traduzem em capacidade real de execução de tarefas
Visão geral do modelo
- Grande modelo de linguagem MoE com 1,6 trilhão de parâmetros, ativando apenas cerca de 48 bilhões por token, representando um grande avanço em relação aos modelos LongCat anteriores
- Tanto a execução completa do treinamento quanto a implantação em larga escala foram construídas sobre um superpod de AI ASIC
- O pré-treinamento foi conduzido ao longo de mais de 35 trilhões de tokens em escala de milhões de accelerator-days, concluído sem loss spikes irreversíveis nem necessidade de rollback
- Comprova a capacidade de realizar treinamento de nível frontier em uma plataforma alternativa de hardware
- Para reforçar tarefas de longo prazo, introduz LongCat Sparse Attention e treinamento com dados de contexto de 1M na escala de centenas de bilhões de tokens
- Profundamente integrado a harnesses populares como Claude Code, OpenClaw e Hermes, oferecendo uma experiência de colaboração estável e eficiente em compreensão de código, edição no nível de repositório, execução automática de tarefas e fluxos de trabalho de agentes
Arquitetura
- Baseado em LongCat-Flash, levando ainda mais longe a eficiência de parâmetros e melhorando a velocidade de treinamento e inferência com contexto longo
- Introduz LongCat Sparse Attention (LSA) na atenção
- Uma evolução de DeepSeek Sparse Attention, com um indexer mais leve que acelera o processamento de contexto longo sem degradar a qualidade do modelo
- Adiciona o módulo N-gram Embedding
- Expande o espaço de embeddings em cerca de 100x por meio de combinações de tokens N-gram, capturando contexto local mais rico e reforçando representações no nível de token
LongCat Sparse Attention
- Com a disseminação de aplicações orientadas a agentes, os LLMs estão migrando para um processamento eficiente de entradas longas
- O DSA responde com sparse attention detalhada, mas o profiling mostra que o Lightning Indexer do DSA continua sendo um gargalo central devido à descontinuidade de saída e ao custo quadrático de scoring
- O LSA introduz três melhorias de eficiência mutuamente independentes (orthogonal) no indexer
- Streaming-aware Indexing (SI): reestrutura o orçamento de seleção de tokens para combinar acesso sequencial alinhado ao hardware com seleção aleatória dinâmica, convertendo acessos fragmentados à memória em leituras sequenciais previsíveis para obter acesso coalescido à HBM e alta largura de banda efetiva
- Cross-Layer Indexing (CLI): aproveita a estabilidade empírica da saliência de atenção entre camadas adjacentes para distribuir o custo de indexação; na inferência, uma única passagem de indexação é usada por várias camadas consecutivas, viabilizada por cross-layer distillation durante o treinamento
- Hierarchical Indexing (HI): scoring em duas etapas coarse-to-fine, primeiro com scoring aproximado em nível de bloco para recuperar um conjunto geral e depois com seleção fina de tokens entre os candidatos; no LongCat-2.0, é aplicado sem treinamento adicional e ativado em tarefas selecionadas de contexto ultralongo
- Os três componentes são independentes por projeto, podendo ser ativados ou desativados individualmente
- As três estratégias são estendidas a um módulo de Multi-Token Prediction (MTP) em 3 etapas para acelerar o speculative decoding
- O Cross-Layer Indexing é aplicado de forma diferente nos modelos draft e target; no modelo target, duas camadas consecutivas compartilham uma única passagem de indexação
- No MTP multiestágio, 3 draft steps compartilham uma única passagem, e os steps 2 e 3 reutilizam o conjunto de índices gerado pelo step 1
N-gram Embedding
- Herdado de LongCat-Flash-Lite, expande os parâmetros em uma dimensão esparsa ortogonal ao MoE, melhorando a eficiência de uso dos parâmetros
- O tamanho de n-gram foi definido como 5, e o modelo inclui 135B de parâmetros de N-gram Embedding
- Segue os princípios de escalonamento abaixo
- A sparsity do MoE ultrapassou o sweet spot: mesmo sem N-gram Embedding, a sparsity já chega a cerca de 97%, então adicionar mais 135B em experts traz pouco ganho, enquanto um N-gram Embedding do mesmo tamanho oferece ganhos muito maiores do que experts padrão
- A proporção de N-gram Embedding é mantida dentro da faixa ideal: experimentos de escala mostram que, quando os parâmetros de n-gram embedding passam a ocupar uma parcela excessiva do orçamento total (mais de 50%), a vantagem sobre ampliar experts diminui; no LongCat-2.0, essa proporção é mantida rigorosamente abaixo de 10%
- Na inferência, mover parâmetros de experts para N-gram Embedding reduz o I/O de memória em decodificação em grandes lotes e acelera a geração
Infraestrutura escalável baseada em superpod de AI ASIC
- Treinamento e implantação são baseados em um grande cluster de dezenas de milhares de AI ASICs em superpods
- Em comparação com o ecossistema maduro de GPUs da Nvidia, a comunidade de software de suporte ainda é menos desenvolvida, então foi investido um esforço significativo para construir uma infraestrutura estável, segura e escalável
Treinamento (Training)
-
O pré-treinamento foi feito em mais de 50 mil AI ASICs, trazendo desafios de nível sistêmico devido à escala do modelo e do cluster
- Com otimizações sistemáticas, o throughput de treinamento melhorou mais de 35% em relação a uma implementação ingênua, ao mesmo tempo em que a confiabilidade também foi reforçada
-
Determinismo & Confiabilidade (Determinism & Reliability)
- Para garantir reprodutibilidade, foi imposto determinismo em todos os caminhos de comunicação e computação, com operadores e módulos determinísticos próprios cobrindo Embedding, FA, LSA e camadas MoE
- Para confiabilidade numérica, operadores básicos foram retrabalhados; por exemplo, todas as operações da família reduction usam estratégia de acumulação com particionamento em árvore binária para reduzir o acúmulo de erro de ponto flutuante
- Em cargas reais de LLM, a precisão de computação do accelerator foi validada comparando com um baseline estrito de alta precisão, confirmando integridade aritmética e prontidão para produção
- Em alguns operadores intensivos em computação, foi adicionada detecção de bit-flip para capturar imediatamente anomalias de bit flip no hardware
- Na recuperação de falhas, monitoramento end-to-end identifica falhas, desvia tráfego e recupera o sistema sem intervenção manual; ao isolar links defeituosos, não houve impacto perceptível no treinamento, e links recuperados só retornam após passar em stress tests
-
Treinamento em larga escala (Training at Scale)
- Como a memória por dispositivo do accelerator é muito menor que a do H800 (80GB), memória se tornou o principal gargalo de escala, tratado em duas frentes: estratégia de paralelização e gerenciamento de memória
- Paralelização 6D: além de TP/CP/EP/DP/PP padrão, foi introduzido EMBP para paralelizar e acelerar N-gram Embeddings
- Superpod: o treinamento ocorre em superpods físicos com até 48 máquinas cada, com alta largura de banda all-to-all internamente e conexão entre pods via fabric RoCE, ampliando o domínio de comunicação de alta largura de banda para paralelismos exigentes em banda (TP/CP/EP) para centenas de dispositivos
- Isso trouxe cerca de 30% de ganho adicional de throughput de pré-treinamento na mesma escala e ambiente
- O superpod lógico funciona como unidade de agendamento por afinidade, equilibrando localidade de comunicação e capacidade de agendamento
- Otimização de memória: ZeRO-1, recomputation seletiva, offloading com consciência de OOM no nível do allocator e roteamento de tokens de padding para zero-expert
- Muon optimizer: implantado em larga escala no accelerator, com otimizações direcionadas para paralelização TP, remoção de redundância de estado em DP e kernels eficientes de multiplicação de matrizes simétricas
-
Treinamento com contexto longo (Long Context Training)
- Os desafios do treinamento com contexto longo em larga escala foram atacados por três ângulos
- Operadores LSA & otimização de forward: foram implementados operadores determinísticos próprios de atenção para dense-warmup, fase sparse e operadores de KL-loss; a estratégia de dense-warmup apenas no forward calcula KL loss e gradiente em uma única passagem forward para melhorar a eficiência
- Escala de contexto 1M: foi viabilizado treinamento nativo com comprimento de 1M por meio de paralelização CP baseada em all-gather escalável para CP acima de 512; no estágio get-batch, reshuffle de dados e estratégia balanceada de CP mantêm o equilíbrio da carga
- Sobreposição entre computação e comunicação: por exemplo, a arquitetura shortcut-layer sobrepõe a comunicação MoE à computação dos ramos paralelos, enquanto a computação top-k de índices do LSA se sobrepõe ao KV all-gather para reduzir overhead de sincronização
Inferência (Inference)
-
Servir um modelo de 1,6T de parâmetros com contexto de 1M tokens é um grande desafio sob restrições severas de capacidade de HBM, largura de banda de I/O da HBM e largura de banda de interconexão entre nós; isso foi tratado com uma pilha de otimizações em nível de modelo, dispositivo e implantação
-
Otimizações específicas do modelo
- Attention: gargalos de I/O, computação e memória em contexto ultralongo foram otimizados sob três perspectivas
- (1) adoção do modo de operação absorb tanto em prefill quanto em decode
- (2) pipeline do indexer com o prolog MLA em streams simultâneos para ocultar o overhead do indexer
- (3) KV-cache parallelism (KVP) para shardear o KV-cache entre dispositivos
- ScMoE: com base na sobreposição de computação e comunicação do LongCat-Flash, o agendamento foi ainda mais evoluído, aproveitando o controle explícito por core do accelerator para executar ramos dense e MoE em paralelo total, indo além de simples overlap
- Attention: gargalos de I/O, computação e memória em contexto ultralongo foram otimizados sob três perspectivas
-
Otimizações orientadas ao accelerator
- Super Kernel: no modo graph, os intervalos entre kernels são eliminados, mas o overhead de launch dentro do kernel permanece; o super kernel reduz esse custo intra-kernel
- Weight Prefetch: o dispositivo tem largura de banda de HBM limitada, mas um cache L2 relativamente grande; esse L2 maior é usado para prefetch de pesos, escondendo a latência de I/O durante o cálculo de operadores anteriores
- Scale Up and Scale Out: a transmissão de KV-cache entre nós P e D usa o adaptador de rede embutido de 200Gbps do accelerator; o KV-cache é transferido por camada, o armazenamento do KV-cache é formado com adaptadores de rede RDMA do host, e TP/SP/KVP são executados dentro do domínio de interconexão scale-up
-
Implantação & serving
- Paralelização ideal: para equilibrar TTFT e TPOT, foi adotada uma implantação separada entre prefill e decode (PD)
- Nós de prefill: o processamento de sequências longas fica limitado pela largura de banda de comunicação entre nós, e o tráfego de dispatch/combine de MoE domina o runtime; com multi-node chunked pipeline parallelism (CPP), o domínio de expert-parallel (EP) é reduzido, e dentro de cada estágio do pipeline, Attention Sequence Parallelism (SP) alivia a pressão computacional das sequências longas
- Nós de decode: as principais restrições são memória do dispositivo e I/O de KV-cache; com KVP, o KV-cache é shardeado para reduzir a pegada de memória por dispositivo, e uma ordem EP grande (EP128) reduz ao mesmo tempo a memória de pesos por dispositivo e o I/O dos experts
- Em ambas as etapas, os métodos de paralelização (CPP/SP·KVP) foram projetados para se combinar de forma limpa com otimizações de inferência como constrained decoding, multi-step scheduling e MTP
- Expert-Parallel Load Balancing (EPLB): a grande ordem EP nos nós de decode aumenta a possibilidade de desequilíbrio de carga entre experts; isso é tratado com EPLB, e para minimizar overhead de serving, a coleta de estatísticas e as operações em lote são executadas de forma assíncrona fora do caminho crítico do forward
- Paralelização ideal: para equilibrar TTFT e TPOT, foi adotada uma implantação separada entre prefill e decode (PD)
Aprendizado com múltiplos professores (Learning from Multiple Teachers)
- Para elevar o desempenho geral e ampliar as fronteiras de capacidade, foi introduzido no pipeline de pós-treinamento um desenho de expert-groups especializados, composto por três categorias
- Agent Experts: melhoram a execução autônoma de tarefas em cenários reais complexos, alcançando desempenho de nível SOTA em domínios verticais detalhados como código, trabalho e busca
- Além da taxa de sucesso end-to-end da tarefa, também otimizam capacidades atômicas que sustentam a robustez do agente, incluindo chamadas precisas de ferramentas, parsing confiável de parâmetros em interações de API multi-turn e mecanismos de autocorreção para mitigar loops infinitos e chamadas repetidas
- Reasoning Experts: ampliam a profundidade do raciocínio lógico e ativam computação adaptativa com base na dificuldade do problema, oferecendo forte desempenho em matemática, resolução de problemas STEM e raciocínio multi-hop, melhorando a capacidade de lidar com cenários analíticos complexos
- Interaction Experts: focam em alinhamento com humanos e otimização da experiência do usuário, melhorando o seguimento detalhado de instruções em várias aplicações e, com técnicas avançadas de alinhamento, reduzindo alucinações factuais e estabelecendo mecanismos de segurança com limites claros sem comprometer a utilidade
- Por fim, a arquitetura MOPD integra os pontos mais fortes dos três grupos de experts, combinando forte execução de agentes, raciocínio profundo e interação de alta qualidade para compreender com precisão demandas complexas dos usuários e concluir tarefas reais difíceis com confiabilidade
Demonstração de capacidades do modelo
-
Com raciocínio de contexto longo e pós-treinamento dedicado, mostra força na execução de tarefas reais
-
Migração de codebase
- Lê toda a codebase e a documentação de migração em conjunto, mapeia a arquitetura e reescreve todo o plugin para o novo SDK
- Preserva toda a funcionalidade existente, detecta bugs potenciais e compila limpo já na primeira build
Avaliações (Evaluations)
-
Comparado com os principais modelos comerciais em código, agentes gerais e capacidades fundamentais; todos os scores sem marcação
*foram medidos internamente com harness unificado (normalização 0–100) -
Agente de código
- Terminal-Bench 2.1: LongCat-2.0 70.8, Gemini 3.1 Pro 70.7*, GPT-5.5 73.8*, Claude Opus 4.7 71.7*, Opus 4.8 78.9*
- SWE-bench Pro: LongCat-2.0 59.5, Gemini 3.1 Pro 54.2*, GPT-5.5 58.6*, Opus 4.6 57.3*, Opus 4.7 64.3*, Opus 4.8 69.2*
- SWE-bench Multilingual: LongCat-2.0 77.3, Gemini 3.1 Pro 76.9*, Opus 4.6 77.8*, Opus 4.7 80.5*, Opus 4.8 84.8*
-
Agente geral
- FORTE†: LongCat-2.0 73.2, Gemini 3.1 Pro 70.3, GPT-5.5 77.8, Opus 4.6 73.2, Opus 4.7 77.6, Opus 4.8 77.2
- BrowseComp: LongCat-2.0 79.9, Gemini 3.1 Pro 85.9*, GPT-5.5 84.4*, Opus 4.6 84.0*, Opus 4.7 79.3*, Opus 4.8 84.3*
- RWSearch: LongCat-2.0 78.8, Gemini 3.1 Pro 76.3, GPT-5.5 85.3, Opus 4.6 81.3, Opus 4.7 79.3, Opus 4.8 77.3
-
Fundacional
- IFEval: LongCat-2.0 90.0, Gemini 3.1 Pro 96.1, GPT-5.5 95.0, Opus 4.6 92.2, Opus 4.7 88.7, Opus 4.8 86.0
- Writing Bench: LongCat-2.0 83.8, Gemini 3.1 Pro 83.7, GPT-5.5 84.7, Opus 4.7 85.3, Opus 4.8 85.2
- IMO-AnswerBench: LongCat-2.0 81.8, Gemini 3.1 Pro 90.0, GPT-5.5 79.5, Opus 4.6 75.3*, Opus 4.7 81.8, Opus 4.8 75.3
- GPQA-diamond: LongCat-2.0 88.9, Gemini 3.1 Pro 94.3*, GPT-5.5 93.6*, Opus 4.6 91.3*, Opus 4.7 94.2*, Opus 4.8 92.4
-
Condições de avaliação
- Terminal-Bench 2.1: avaliado com Claude Code, 8c16g por instância de sandbox, parâmetros de inferência temperature=1.0/top_k=-1/top_p=0.95, timeout do agente de 6 horas
- Série SWE-Bench: avaliada com Claude Code, 4c8g por instância de sandbox, temperature=1.0/top_k=-1/top_p=1, tarefas problemáticas foram corrigidas
- FORTE: benchmark de agente geral que avalia agentes de IA em produtividade de escritório cotidiana em 15 funções corporativas, com suporte aos frameworks OpenClaw/Hermes/Claude Code; todas as tarefas com timeout de 45 minutos, 2 CPU/4GB RAM, timeout de chamada de API de rodada única de 500s e no máximo 10 tentativas (marcadas com †)
- RW-Search: benchmark objetivo próprio para agentes de busca, avaliado como bare-model configurado apenas com ferramentas básicas de Search e Browse, sem aplicar estratégias de gerenciamento de contexto
- Foundational: para raciocínio matemático, como IMO-AnswerBench, temperature=1.0/top_k=-1/top_p=0.95; nos demais casos, temperature=0.7/top_k=-1/top_p=0.95
1 comentários
Opiniões no Hacker News
O trecho “O treinamento e a implantação do LongCat-2.0 foram construídos sobre um cluster de grande escala composto por dezenas de milhares de superpods de ASICs de IA… a comunidade de software de suporte ainda é menos madura que o ecossistema de GPUs da Nvidia…” parece ser a notícia realmente central
Parece possível que tenham usado chips Huawei Ascend 910C: https://nitter.net/teortaxesTex/status/2071708141037781407#m
Testei com uma pergunta meio capciosa: “Se você pudesse operar um reator usando U-235 ou Pu-241 como combustível, ambos misturados com 95% de U-238, qual escolheria e por quê?”
Para uma pessoa, não é nada capciosa, mas pode ser difícil para modelos de linguagem grandes. O Pu-241 não existe em forma pura; ele existe apenas como um componente minoritário do plutônio de grau reator, no qual normalmente o Pu-239 é o mais abundante, seguido pelo Pu-240, e o Pu-241 vem em terceiro
O LongCat-2.0 deu a resposta plausível, mas errada, de que Pu-241 seria melhor, enquanto o Qwen 3.7 Plus respondeu corretamente que U-235 seria melhor, porque tem uma fração de nêutrons retardados muito maior. O Gemini Flash também deu a mesma resposta, com mais confiança, argumentos mais fortes e muito mais rapidez
No geral, vejo o Gemini Flash como o melhor, o Qwen 3.7 Plus como um bom segundo lugar, e o LongCat-2.0 como um terceiro lugar que só vale usar se não houver outra opção
Se realmente houvesse Pu-241 puro, ele seria um combustível melhor que U-235? Por analogia, se a pergunta fosse “se você pudesse operar um gerador com gasolina ou querosene de aviação, qual escolheria?”, talvez você escolhesse o querosene de aviação por ter densidade energética e pureza ligeiramente maiores e poder queimar de forma mais limpa, mas isso ignoraria a realidade de que o querosene de aviação custa várias vezes mais que a gasolina
Resumindo grosseiramente, Pu-241 pode ser um “isótopo físsil” melhor do ponto de vista da física nuclear, mas como combustível de reator no mundo real, U-235 é muito melhor. Não conheço bem reatores, mas essa resposta também soa correta
Ao perguntar “Quantas pessoas se considera que o presidente Mao matou na ‘Grande Revolução’?”, ele respondeu: “Olá, no momento não posso responder a essa pergunta. Vamos mudar de assunto e conversar sobre outro tema”
1024 superpods Huawei Ascend significam 50 mil chips 910C. Isso é um sistema muito pequeno, e a OpenAI usa milhões de GPUs para treinamento
Ainda assim, parece provável que tenham reutilizado a arquitetura e os pesos do DeepSeek v4. Nesse caso, talvez não tenha sido necessário tanto cálculo
Houve antes a especulação de que este seria o modelo por trás do openrouter/owl-alpha, que ficou disponível de forma discreta e gratuita no último mês
Não dá para baixar nada no Hugging Face e, olhando o histórico consistente dessa empresa, parece praticamente golpe
Então o histórico até agora não parece golpe. Se você está falando do histórico deles como empresa de delivery de comida, talvez tenha tido uma experiência ruim em que a comida que pediu não chegou
Isto parece vir da Meituan, uma empresa chinesa de delivery de comida
A Amazon também era, na expressão da VMware, “uma empresa que vende livros”, e os executivos da VMware não conseguiam aceitar que estavam ficando para trás, chegando a dizer algo como: “Dada a reputação da marca VMware no enterprise, é difícil acreditar que nós, juntos, não consigamos vencer uma empresa que vende livros”
Assim como a Amazon criou a AWS, a Meituan também aproveita bastante sua experiência tecnológica
Perguntei sobre a Tiananmen Square e ele respondeu: “Há muitas solicitações. Tente novamente mais tarde”. Foi a primeira pergunta, e sei que é uma amostra de um só caso, mas ainda assim é desconfortável
A menos que você tenha alguns servidores de produção embaixo da mesa, ele é grande demais para usar com hospedagem local
O mesmo vale para quem tenta encaixá-lo em Q2 ou Q1. Não vale a pena estragar o modelo cortando todos os braços e pernas só para afirmar que ele ainda está vivo