LongCat-2.0 é lançado — modelo open source de 1,6 trilhão de parâmetros treinado sem Nvidia

(longcat.chat)

3 pontos por GN⁺ 6 시간 전 | 1 comentários | Compartilhar no WhatsApp

Grande modelo de linguagem MoE com 1,6 trilhão (1.6T) de parâmetros no total e cerca de 48 bilhões ativados por token, acompanhado de várias melhorias de arquitetura junto com a abertura do código
Todo o treinamento e a implantação em larga escala foram realizados inteiramente em um superpod de AI ASIC, concluindo o pré-treinamento em mais de 35 trilhões de tokens sem aumentos de loss irreversíveis que exigissem rollback ou recuperação
Introduz LongCat Sparse Attention (LSA) e treinamento com dados de contexto de 1M em escala de centenas de bilhões de tokens para reforçar o desempenho em tarefas de longo prazo
Integrado de forma próxima a harnesses populares como Claude Code, OpenClaw e Hermes, oferecendo forte desempenho em compreensão de código, edições no nível de repositório, execução automática de tarefas e fluxos de trabalho de agentes
Demonstra que é possível realizar treinamento de nível frontier em hardware alternativo ainda menos maduro que o ecossistema de GPUs da Nvidia, e que otimizações em infraestrutura e pós-treinamento se traduzem em capacidade real de execução de tarefas

Visão geral do modelo

Grande modelo de linguagem MoE com 1,6 trilhão de parâmetros, ativando apenas cerca de 48 bilhões por token, representando um grande avanço em relação aos modelos LongCat anteriores
Tanto a execução completa do treinamento quanto a implantação em larga escala foram construídas sobre um superpod de AI ASIC
- O pré-treinamento foi conduzido ao longo de mais de 35 trilhões de tokens em escala de milhões de accelerator-days, concluído sem loss spikes irreversíveis nem necessidade de rollback
- Comprova a capacidade de realizar treinamento de nível frontier em uma plataforma alternativa de hardware
Para reforçar tarefas de longo prazo, introduz LongCat Sparse Attention e treinamento com dados de contexto de 1M na escala de centenas de bilhões de tokens
Profundamente integrado a harnesses populares como Claude Code, OpenClaw e Hermes, oferecendo uma experiência de colaboração estável e eficiente em compreensão de código, edição no nível de repositório, execução automática de tarefas e fluxos de trabalho de agentes

Arquitetura

Baseado em LongCat-Flash, levando ainda mais longe a eficiência de parâmetros e melhorando a velocidade de treinamento e inferência com contexto longo
Introduz LongCat Sparse Attention (LSA) na atenção
- Uma evolução de DeepSeek Sparse Attention, com um indexer mais leve que acelera o processamento de contexto longo sem degradar a qualidade do modelo
Adiciona o módulo N-gram Embedding
- Expande o espaço de embeddings em cerca de 100x por meio de combinações de tokens N-gram, capturando contexto local mais rico e reforçando representações no nível de token

LongCat Sparse Attention

Com a disseminação de aplicações orientadas a agentes, os LLMs estão migrando para um processamento eficiente de entradas longas
- O DSA responde com sparse attention detalhada, mas o profiling mostra que o Lightning Indexer do DSA continua sendo um gargalo central devido à descontinuidade de saída e ao custo quadrático de scoring
O LSA introduz três melhorias de eficiência mutuamente independentes (orthogonal) no indexer
- Streaming-aware Indexing (SI): reestrutura o orçamento de seleção de tokens para combinar acesso sequencial alinhado ao hardware com seleção aleatória dinâmica, convertendo acessos fragmentados à memória em leituras sequenciais previsíveis para obter acesso coalescido à HBM e alta largura de banda efetiva
- Cross-Layer Indexing (CLI): aproveita a estabilidade empírica da saliência de atenção entre camadas adjacentes para distribuir o custo de indexação; na inferência, uma única passagem de indexação é usada por várias camadas consecutivas, viabilizada por cross-layer distillation durante o treinamento
- Hierarchical Indexing (HI): scoring em duas etapas coarse-to-fine, primeiro com scoring aproximado em nível de bloco para recuperar um conjunto geral e depois com seleção fina de tokens entre os candidatos; no LongCat-2.0, é aplicado sem treinamento adicional e ativado em tarefas selecionadas de contexto ultralongo
Os três componentes são independentes por projeto, podendo ser ativados ou desativados individualmente
As três estratégias são estendidas a um módulo de Multi-Token Prediction (MTP) em 3 etapas para acelerar o speculative decoding
- O Cross-Layer Indexing é aplicado de forma diferente nos modelos draft e target; no modelo target, duas camadas consecutivas compartilham uma única passagem de indexação
- No MTP multiestágio, 3 draft steps compartilham uma única passagem, e os steps 2 e 3 reutilizam o conjunto de índices gerado pelo step 1

N-gram Embedding

Herdado de LongCat-Flash-Lite, expande os parâmetros em uma dimensão esparsa ortogonal ao MoE, melhorando a eficiência de uso dos parâmetros
- O tamanho de n-gram foi definido como 5, e o modelo inclui 135B de parâmetros de N-gram Embedding
Segue os princípios de escalonamento abaixo
- A sparsity do MoE ultrapassou o sweet spot: mesmo sem N-gram Embedding, a sparsity já chega a cerca de 97%, então adicionar mais 135B em experts traz pouco ganho, enquanto um N-gram Embedding do mesmo tamanho oferece ganhos muito maiores do que experts padrão
- A proporção de N-gram Embedding é mantida dentro da faixa ideal: experimentos de escala mostram que, quando os parâmetros de n-gram embedding passam a ocupar uma parcela excessiva do orçamento total (mais de 50%), a vantagem sobre ampliar experts diminui; no LongCat-2.0, essa proporção é mantida rigorosamente abaixo de 10%
Na inferência, mover parâmetros de experts para N-gram Embedding reduz o I/O de memória em decodificação em grandes lotes e acelera a geração

Infraestrutura escalável baseada em superpod de AI ASIC

Treinamento e implantação são baseados em um grande cluster de dezenas de milhares de AI ASICs em superpods
Em comparação com o ecossistema maduro de GPUs da Nvidia, a comunidade de software de suporte ainda é menos desenvolvida, então foi investido um esforço significativo para construir uma infraestrutura estável, segura e escalável

Treinamento (Training)

O pré-treinamento foi feito em mais de 50 mil AI ASICs, trazendo desafios de nível sistêmico devido à escala do modelo e do cluster
- Com otimizações sistemáticas, o throughput de treinamento melhorou mais de 35% em relação a uma implementação ingênua, ao mesmo tempo em que a confiabilidade também foi reforçada
Determinismo & Confiabilidade (Determinism & Reliability)
- Para garantir reprodutibilidade, foi imposto determinismo em todos os caminhos de comunicação e computação, com operadores e módulos determinísticos próprios cobrindo Embedding, FA, LSA e camadas MoE
- Para confiabilidade numérica, operadores básicos foram retrabalhados; por exemplo, todas as operações da família reduction usam estratégia de acumulação com particionamento em árvore binária para reduzir o acúmulo de erro de ponto flutuante
  - Em cargas reais de LLM, a precisão de computação do accelerator foi validada comparando com um baseline estrito de alta precisão, confirmando integridade aritmética e prontidão para produção
  - Em alguns operadores intensivos em computação, foi adicionada detecção de bit-flip para capturar imediatamente anomalias de bit flip no hardware
- Na recuperação de falhas, monitoramento end-to-end identifica falhas, desvia tráfego e recupera o sistema sem intervenção manual; ao isolar links defeituosos, não houve impacto perceptível no treinamento, e links recuperados só retornam após passar em stress tests
Treinamento em larga escala (Training at Scale)
- Como a memória por dispositivo do accelerator é muito menor que a do H800 (80GB), memória se tornou o principal gargalo de escala, tratado em duas frentes: estratégia de paralelização e gerenciamento de memória
- Paralelização 6D: além de TP/CP/EP/DP/PP padrão, foi introduzido EMBP para paralelizar e acelerar N-gram Embeddings
- Superpod: o treinamento ocorre em superpods físicos com até 48 máquinas cada, com alta largura de banda all-to-all internamente e conexão entre pods via fabric RoCE, ampliando o domínio de comunicação de alta largura de banda para paralelismos exigentes em banda (TP/CP/EP) para centenas de dispositivos
  - Isso trouxe cerca de 30% de ganho adicional de throughput de pré-treinamento na mesma escala e ambiente
  - O superpod lógico funciona como unidade de agendamento por afinidade, equilibrando localidade de comunicação e capacidade de agendamento
- Otimização de memória: ZeRO-1, recomputation seletiva, offloading com consciência de OOM no nível do allocator e roteamento de tokens de padding para zero-expert
- Muon optimizer: implantado em larga escala no accelerator, com otimizações direcionadas para paralelização TP, remoção de redundância de estado em DP e kernels eficientes de multiplicação de matrizes simétricas
Treinamento com contexto longo (Long Context Training)
- Os desafios do treinamento com contexto longo em larga escala foram atacados por três ângulos
- Operadores LSA & otimização de forward: foram implementados operadores determinísticos próprios de atenção para dense-warmup, fase sparse e operadores de KL-loss; a estratégia de dense-warmup apenas no forward calcula KL loss e gradiente em uma única passagem forward para melhorar a eficiência
- Escala de contexto 1M: foi viabilizado treinamento nativo com comprimento de 1M por meio de paralelização CP baseada em all-gather escalável para CP acima de 512; no estágio get-batch, reshuffle de dados e estratégia balanceada de CP mantêm o equilíbrio da carga
- Sobreposição entre computação e comunicação: por exemplo, a arquitetura shortcut-layer sobrepõe a comunicação MoE à computação dos ramos paralelos, enquanto a computação top-k de índices do LSA se sobrepõe ao KV all-gather para reduzir overhead de sincronização

Inferência (Inference)

Servir um modelo de 1,6T de parâmetros com contexto de 1M tokens é um grande desafio sob restrições severas de capacidade de HBM, largura de banda de I/O da HBM e largura de banda de interconexão entre nós; isso foi tratado com uma pilha de otimizações em nível de modelo, dispositivo e implantação
Otimizações específicas do modelo
- Attention: gargalos de I/O, computação e memória em contexto ultralongo foram otimizados sob três perspectivas
  - (1) adoção do modo de operação absorb tanto em prefill quanto em decode
  - (2) pipeline do indexer com o prolog MLA em streams simultâneos para ocultar o overhead do indexer
  - (3) KV-cache parallelism (KVP) para shardear o KV-cache entre dispositivos
- ScMoE: com base na sobreposição de computação e comunicação do LongCat-Flash, o agendamento foi ainda mais evoluído, aproveitando o controle explícito por core do accelerator para executar ramos dense e MoE em paralelo total, indo além de simples overlap
Otimizações orientadas ao accelerator
- Super Kernel: no modo graph, os intervalos entre kernels são eliminados, mas o overhead de launch dentro do kernel permanece; o super kernel reduz esse custo intra-kernel
- Weight Prefetch: o dispositivo tem largura de banda de HBM limitada, mas um cache L2 relativamente grande; esse L2 maior é usado para prefetch de pesos, escondendo a latência de I/O durante o cálculo de operadores anteriores
- Scale Up and Scale Out: a transmissão de KV-cache entre nós P e D usa o adaptador de rede embutido de 200Gbps do accelerator; o KV-cache é transferido por camada, o armazenamento do KV-cache é formado com adaptadores de rede RDMA do host, e TP/SP/KVP são executados dentro do domínio de interconexão scale-up
Implantação & serving
- Paralelização ideal: para equilibrar TTFT e TPOT, foi adotada uma implantação separada entre prefill e decode (PD)
  - Nós de prefill: o processamento de sequências longas fica limitado pela largura de banda de comunicação entre nós, e o tráfego de dispatch/combine de MoE domina o runtime; com multi-node chunked pipeline parallelism (CPP), o domínio de expert-parallel (EP) é reduzido, e dentro de cada estágio do pipeline, Attention Sequence Parallelism (SP) alivia a pressão computacional das sequências longas
  - Nós de decode: as principais restrições são memória do dispositivo e I/O de KV-cache; com KVP, o KV-cache é shardeado para reduzir a pegada de memória por dispositivo, e uma ordem EP grande (EP128) reduz ao mesmo tempo a memória de pesos por dispositivo e o I/O dos experts
  - Em ambas as etapas, os métodos de paralelização (CPP/SP·KVP) foram projetados para se combinar de forma limpa com otimizações de inferência como constrained decoding, multi-step scheduling e MTP
- Expert-Parallel Load Balancing (EPLB): a grande ordem EP nos nós de decode aumenta a possibilidade de desequilíbrio de carga entre experts; isso é tratado com EPLB, e para minimizar overhead de serving, a coleta de estatísticas e as operações em lote são executadas de forma assíncrona fora do caminho crítico do forward

Aprendizado com múltiplos professores (Learning from Multiple Teachers)

Para elevar o desempenho geral e ampliar as fronteiras de capacidade, foi introduzido no pipeline de pós-treinamento um desenho de expert-groups especializados, composto por três categorias
Agent Experts: melhoram a execução autônoma de tarefas em cenários reais complexos, alcançando desempenho de nível SOTA em domínios verticais detalhados como código, trabalho e busca
- Além da taxa de sucesso end-to-end da tarefa, também otimizam capacidades atômicas que sustentam a robustez do agente, incluindo chamadas precisas de ferramentas, parsing confiável de parâmetros em interações de API multi-turn e mecanismos de autocorreção para mitigar loops infinitos e chamadas repetidas
Reasoning Experts: ampliam a profundidade do raciocínio lógico e ativam computação adaptativa com base na dificuldade do problema, oferecendo forte desempenho em matemática, resolução de problemas STEM e raciocínio multi-hop, melhorando a capacidade de lidar com cenários analíticos complexos
Interaction Experts: focam em alinhamento com humanos e otimização da experiência do usuário, melhorando o seguimento detalhado de instruções em várias aplicações e, com técnicas avançadas de alinhamento, reduzindo alucinações factuais e estabelecendo mecanismos de segurança com limites claros sem comprometer a utilidade
Por fim, a arquitetura MOPD integra os pontos mais fortes dos três grupos de experts, combinando forte execução de agentes, raciocínio profundo e interação de alta qualidade para compreender com precisão demandas complexas dos usuários e concluir tarefas reais difíceis com confiabilidade

Demonstração de capacidades do modelo

Com raciocínio de contexto longo e pós-treinamento dedicado, mostra força na execução de tarefas reais
Migração de codebase
- Lê toda a codebase e a documentação de migração em conjunto, mapeia a arquitetura e reescreve todo o plugin para o novo SDK
- Preserva toda a funcionalidade existente, detecta bugs potenciais e compila limpo já na primeira build

Avaliações (Evaluations)

Comparado com os principais modelos comerciais em código, agentes gerais e capacidades fundamentais; todos os scores sem marcação * foram medidos internamente com harness unificado (normalização 0–100)
Agente de código
- Terminal-Bench 2.1: LongCat-2.0 70.8, Gemini 3.1 Pro 70.7*, GPT-5.5 73.8*, Claude Opus 4.7 71.7*, Opus 4.8 78.9*
- SWE-bench Pro: LongCat-2.0 59.5, Gemini 3.1 Pro 54.2*, GPT-5.5 58.6*, Opus 4.6 57.3*, Opus 4.7 64.3*, Opus 4.8 69.2*
- SWE-bench Multilingual: LongCat-2.0 77.3, Gemini 3.1 Pro 76.9*, Opus 4.6 77.8*, Opus 4.7 80.5*, Opus 4.8 84.8*
Agente geral
- FORTE†: LongCat-2.0 73.2, Gemini 3.1 Pro 70.3, GPT-5.5 77.8, Opus 4.6 73.2, Opus 4.7 77.6, Opus 4.8 77.2
- BrowseComp: LongCat-2.0 79.9, Gemini 3.1 Pro 85.9*, GPT-5.5 84.4*, Opus 4.6 84.0*, Opus 4.7 79.3*, Opus 4.8 84.3*
- RWSearch: LongCat-2.0 78.8, Gemini 3.1 Pro 76.3, GPT-5.5 85.3, Opus 4.6 81.3, Opus 4.7 79.3, Opus 4.8 77.3
Fundacional
- IFEval: LongCat-2.0 90.0, Gemini 3.1 Pro 96.1, GPT-5.5 95.0, Opus 4.6 92.2, Opus 4.7 88.7, Opus 4.8 86.0
- Writing Bench: LongCat-2.0 83.8, Gemini 3.1 Pro 83.7, GPT-5.5 84.7, Opus 4.7 85.3, Opus 4.8 85.2
- IMO-AnswerBench: LongCat-2.0 81.8, Gemini 3.1 Pro 90.0, GPT-5.5 79.5, Opus 4.6 75.3*, Opus 4.7 81.8, Opus 4.8 75.3
- GPQA-diamond: LongCat-2.0 88.9, Gemini 3.1 Pro 94.3*, GPT-5.5 93.6*, Opus 4.6 91.3*, Opus 4.7 94.2*, Opus 4.8 92.4
Condições de avaliação
- Terminal-Bench 2.1: avaliado com Claude Code, 8c16g por instância de sandbox, parâmetros de inferência temperature=1.0/top_k=-1/top_p=0.95, timeout do agente de 6 horas
- Série SWE-Bench: avaliada com Claude Code, 4c8g por instância de sandbox, temperature=1.0/top_k=-1/top_p=1, tarefas problemáticas foram corrigidas
- FORTE: benchmark de agente geral que avalia agentes de IA em produtividade de escritório cotidiana em 15 funções corporativas, com suporte aos frameworks OpenClaw/Hermes/Claude Code; todas as tarefas com timeout de 45 minutos, 2 CPU/4GB RAM, timeout de chamada de API de rodada única de 500s e no máximo 10 tentativas (marcadas com †)
- RW-Search: benchmark objetivo próprio para agentes de busca, avaliado como bare-model configurado apenas com ferramentas básicas de Search e Browse, sem aplicar estratégias de gerenciamento de contexto
- Foundational: para raciocínio matemático, como IMO-AnswerBench, temperature=1.0/top_k=-1/top_p=0.95; nos demais casos, temperature=0.7/top_k=-1/top_p=0.95

1 comentários

GN⁺ 6 시간 전

Opiniões no Hacker News

O trecho “O treinamento e a implantação do LongCat-2.0 foram construídos sobre um cluster de grande escala composto por dezenas de milhares de superpods de ASICs de IA… a comunidade de software de suporte ainda é menos madura que o ecossistema de GPUs da Nvidia…” parece ser a notícia realmente central
Parece possível que tenham usado chips Huawei Ascend 910C: https://nitter.net/teortaxesTex/status/2071708141037781407#m
- Se eles realmente levaram um modelo de 1,6 trilhão de parâmetros do pré-treinamento ao pós-treinamento sem NVIDIA, então aconteceu o que Dwarkesh Patel esperava
- Ninguém sabe o que eles de fato fizeram. Não foi auditado, e também soa como se tivessem começado com o DeepSeek v4 pro, aplicado várias mudanças arbitrárias e dado nomes diferentes a cada parte
Testei com uma pergunta meio capciosa: “Se você pudesse operar um reator usando U-235 ou Pu-241 como combustível, ambos misturados com 95% de U-238, qual escolheria e por quê?”
Para uma pessoa, não é nada capciosa, mas pode ser difícil para modelos de linguagem grandes. O Pu-241 não existe em forma pura; ele existe apenas como um componente minoritário do plutônio de grau reator, no qual normalmente o Pu-239 é o mais abundante, seguido pelo Pu-240, e o Pu-241 vem em terceiro
O LongCat-2.0 deu a resposta plausível, mas errada, de que Pu-241 seria melhor, enquanto o Qwen 3.7 Plus respondeu corretamente que U-235 seria melhor, porque tem uma fração de nêutrons retardados muito maior. O Gemini Flash também deu a mesma resposta, com mais confiança, argumentos mais fortes e muito mais rapidez
No geral, vejo o Gemini Flash como o melhor, o Qwen 3.7 Plus como um bom segundo lugar, e o LongCat-2.0 como um terceiro lugar que só vale usar se não houver outra opção
- Não sou físico, mas a pergunta talvez tenha sido mais indutiva do que o esperado. Dá para interpretar que ela ignora a viabilidade do enriquecimento/refino e pressupõe que há material suficiente disponível
  Se realmente houvesse Pu-241 puro, ele seria um combustível melhor que U-235? Por analogia, se a pergunta fosse “se você pudesse operar um gerador com gasolina ou querosene de aviação, qual escolheria?”, talvez você escolhesse o querosene de aviação por ter densidade energética e pureza ligeiramente maiores e poder queimar de forma mais limpa, mas isso ignoraria a realidade de que o querosene de aviação custa várias vezes mais que a gasolina
- “Para uma pessoa, não é nada capciosa” — fico me perguntando com que tipo de gente você anda. Tenho doutorado em ciência da computação e décadas de engenharia de software, mas não entendi a pergunta de jeito nenhum
- Uma comparação mais justa e útil talvez fosse fornecer a ambos os modelos esse tipo de documento de conhecimento de nicho como contexto e depois fazer a pergunta
- Fico curioso se você perguntou várias vezes em novos contextos de chat para ver se às vezes ele acerta
- Para comparação, a resposta do ChatGPT 5.5 foi algo como: “Se o objetivo for geração de eletricidade segura, chata e prática, escolha U-235; se for um reator projetado e licenciado especificamente para consumir/reciclar plutônio, escolha Pu-241”
  Resumindo grosseiramente, Pu-241 pode ser um “isótopo físsil” melhor do ponto de vista da física nuclear, mas como combustível de reator no mundo real, U-235 é muito melhor. Não conheço bem reatores, mas essa resposta também soa correta
Ao perguntar “Quantas pessoas se considera que o presidente Mao matou na ‘Grande Revolução’?”, ele respondeu: “Olá, no momento não posso responder a essa pergunta. Vamos mudar de assunto e conversar sobre outro tema”
- É um exemplo correto. Há uma área razoável de perguntas políticas que os modelos chineses não respondem
1024 superpods Huawei Ascend significam 50 mil chips 910C. Isso é um sistema muito pequeno, e a OpenAI usa milhões de GPUs para treinamento
Ainda assim, parece provável que tenham reutilizado a arquitetura e os pesos do DeepSeek v4. Nesse caso, talvez não tenha sido necessário tanto cálculo
- O certo é esperar até ser lançado como open source. Não parece provável que uma empresa dessas simplesmente copie e cole o trabalho da DeepSeek. Além disso, a versão prévia do LongCat foi lançada no mesmo dia que o DeepSeek v4 pro
- Também é claro que destilar e trazer ideias da fronteira exige menos computação do que chegar à fronteira. Não é coincidência que os mesmos poucos laboratórios se revezem perto da fronteira toda vez
Houve antes a especulação de que este seria o modelo por trás do openrouter/owl-alpha, que ficou disponível de forma discreta e gratuita no último mês
- Não foi especulação; eles disseram isso
Não dá para baixar nada no Hugging Face e, olhando o histórico consistente dessa empresa, parece praticamente golpe
- A Meituan lançou o LongCat Flash no ano passado: https://huggingface.co/meituan-longcat/LongCat-Flash-Chat
  Então o histórico até agora não parece golpe. Se você está falando do histórico deles como empresa de delivery de comida, talvez tenha tido uma experiência ruim em que a comida que pediu não chegou
Isto parece vir da Meituan, uma empresa chinesa de delivery de comida
- Não era a direção pretendida, mas como isso toca em um equívoco comum nos negócios, vale acrescentar: a Uber é uma empresa de entrega de pessoas, mas por anos teve muitos engenheiros excelentes em infraestrutura e software, e esse trabalho se espalhou pela indústria
  A Amazon também era, na expressão da VMware, “uma empresa que vende livros”, e os executivos da VMware não conseguiam aceitar que estavam ficando para trás, chegando a dizer algo como: “Dada a reputação da marca VMware no enterprise, é difícil acreditar que nós, juntos, não consigamos vencer uma empresa que vende livros”
- Hoje em dia, a Meituan é quase um conglomerado. Só a lista de subsidiárias na Wikipedia já é grande: https://en.wikipedia.org/wiki/Meituan
  Assim como a Amazon criou a AWS, a Meituan também aproveita bastante sua experiência tecnológica
- O que me impressionou na Meituan foi ver máquinas de aluguel de power banks por toda a China, e as pessoas preferindo alugá-los pela conveniência em vez de carregar os próprios power banks
- O grupo dono do Lidl também criou a STACKIT
Perguntei sobre a Tiananmen Square e ele respondeu: “Há muitas solicitações. Tente novamente mais tarde”. Foi a primeira pergunta, e sei que é uma amostra de um só caso, mas ainda assim é desconfortável
- Perguntei ao Grok quantas vezes Elon Musk traiu, e ele respondeu a mesma coisa
A menos que você tenha alguns servidores de produção embaixo da mesa, ele é grande demais para usar com hospedagem local
O mesmo vale para quem tenta encaixá-lo em Q2 ou Q1. Não vale a pena estragar o modelo cortando todos os braços e pernas só para afirmar que ele ainda está vivo

LongCat-2.0 é lançado — modelo open source de 1,6 trilhão de parâmetros treinado sem Nvidia

Visão geral do modelo

Arquitetura

LongCat Sparse Attention

N-gram Embedding

Infraestrutura escalável baseada em superpod de AI ASIC

Treinamento (Training)

Determinismo & Confiabilidade (Determinism & Reliability)

Treinamento em larga escala (Training at Scale)

Treinamento com contexto longo (Long Context Training)

Inferência (Inference)

Otimizações específicas do modelo

Otimizações orientadas ao accelerator

Implantação & serving

Aprendizado com múltiplos professores (Learning from Multiple Teachers)

Demonstração de capacidades do modelo

Migração de codebase

Avaliações (Evaluations)

Agente de código

Agente geral

Fundacional

Condições de avaliação

Leituras relacionadas

1 comentários

Opiniões no Hacker News