3 pontos por GN⁺ 6 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • Grande modelo de linguagem MoE com 1,6 trilhão (1.6T) de parâmetros no total e cerca de 48 bilhões ativados por token, acompanhado de várias melhorias de arquitetura junto com a abertura do código
  • Todo o treinamento e a implantação em larga escala foram realizados inteiramente em um superpod de AI ASIC, concluindo o pré-treinamento em mais de 35 trilhões de tokens sem aumentos de loss irreversíveis que exigissem rollback ou recuperação
  • Introduz LongCat Sparse Attention (LSA) e treinamento com dados de contexto de 1M em escala de centenas de bilhões de tokens para reforçar o desempenho em tarefas de longo prazo
  • Integrado de forma próxima a harnesses populares como Claude Code, OpenClaw e Hermes, oferecendo forte desempenho em compreensão de código, edições no nível de repositório, execução automática de tarefas e fluxos de trabalho de agentes
  • Demonstra que é possível realizar treinamento de nível frontier em hardware alternativo ainda menos maduro que o ecossistema de GPUs da Nvidia, e que otimizações em infraestrutura e pós-treinamento se traduzem em capacidade real de execução de tarefas

Visão geral do modelo

  • Grande modelo de linguagem MoE com 1,6 trilhão de parâmetros, ativando apenas cerca de 48 bilhões por token, representando um grande avanço em relação aos modelos LongCat anteriores
  • Tanto a execução completa do treinamento quanto a implantação em larga escala foram construídas sobre um superpod de AI ASIC
    • O pré-treinamento foi conduzido ao longo de mais de 35 trilhões de tokens em escala de milhões de accelerator-days, concluído sem loss spikes irreversíveis nem necessidade de rollback
    • Comprova a capacidade de realizar treinamento de nível frontier em uma plataforma alternativa de hardware
  • Para reforçar tarefas de longo prazo, introduz LongCat Sparse Attention e treinamento com dados de contexto de 1M na escala de centenas de bilhões de tokens
  • Profundamente integrado a harnesses populares como Claude Code, OpenClaw e Hermes, oferecendo uma experiência de colaboração estável e eficiente em compreensão de código, edição no nível de repositório, execução automática de tarefas e fluxos de trabalho de agentes

Arquitetura

  • Baseado em LongCat-Flash, levando ainda mais longe a eficiência de parâmetros e melhorando a velocidade de treinamento e inferência com contexto longo
  • Introduz LongCat Sparse Attention (LSA) na atenção
    • Uma evolução de DeepSeek Sparse Attention, com um indexer mais leve que acelera o processamento de contexto longo sem degradar a qualidade do modelo
  • Adiciona o módulo N-gram Embedding
    • Expande o espaço de embeddings em cerca de 100x por meio de combinações de tokens N-gram, capturando contexto local mais rico e reforçando representações no nível de token

LongCat Sparse Attention

  • Com a disseminação de aplicações orientadas a agentes, os LLMs estão migrando para um processamento eficiente de entradas longas
    • O DSA responde com sparse attention detalhada, mas o profiling mostra que o Lightning Indexer do DSA continua sendo um gargalo central devido à descontinuidade de saída e ao custo quadrático de scoring
  • O LSA introduz três melhorias de eficiência mutuamente independentes (orthogonal) no indexer
    • Streaming-aware Indexing (SI): reestrutura o orçamento de seleção de tokens para combinar acesso sequencial alinhado ao hardware com seleção aleatória dinâmica, convertendo acessos fragmentados à memória em leituras sequenciais previsíveis para obter acesso coalescido à HBM e alta largura de banda efetiva
    • Cross-Layer Indexing (CLI): aproveita a estabilidade empírica da saliência de atenção entre camadas adjacentes para distribuir o custo de indexação; na inferência, uma única passagem de indexação é usada por várias camadas consecutivas, viabilizada por cross-layer distillation durante o treinamento
    • Hierarchical Indexing (HI): scoring em duas etapas coarse-to-fine, primeiro com scoring aproximado em nível de bloco para recuperar um conjunto geral e depois com seleção fina de tokens entre os candidatos; no LongCat-2.0, é aplicado sem treinamento adicional e ativado em tarefas selecionadas de contexto ultralongo
  • Os três componentes são independentes por projeto, podendo ser ativados ou desativados individualmente
  • As três estratégias são estendidas a um módulo de Multi-Token Prediction (MTP) em 3 etapas para acelerar o speculative decoding
    • O Cross-Layer Indexing é aplicado de forma diferente nos modelos draft e target; no modelo target, duas camadas consecutivas compartilham uma única passagem de indexação
    • No MTP multiestágio, 3 draft steps compartilham uma única passagem, e os steps 2 e 3 reutilizam o conjunto de índices gerado pelo step 1

N-gram Embedding

  • Herdado de LongCat-Flash-Lite, expande os parâmetros em uma dimensão esparsa ortogonal ao MoE, melhorando a eficiência de uso dos parâmetros
    • O tamanho de n-gram foi definido como 5, e o modelo inclui 135B de parâmetros de N-gram Embedding
  • Segue os princípios de escalonamento abaixo
    • A sparsity do MoE ultrapassou o sweet spot: mesmo sem N-gram Embedding, a sparsity já chega a cerca de 97%, então adicionar mais 135B em experts traz pouco ganho, enquanto um N-gram Embedding do mesmo tamanho oferece ganhos muito maiores do que experts padrão
    • A proporção de N-gram Embedding é mantida dentro da faixa ideal: experimentos de escala mostram que, quando os parâmetros de n-gram embedding passam a ocupar uma parcela excessiva do orçamento total (mais de 50%), a vantagem sobre ampliar experts diminui; no LongCat-2.0, essa proporção é mantida rigorosamente abaixo de 10%
  • Na inferência, mover parâmetros de experts para N-gram Embedding reduz o I/O de memória em decodificação em grandes lotes e acelera a geração

Infraestrutura escalável baseada em superpod de AI ASIC

  • Treinamento e implantação são baseados em um grande cluster de dezenas de milhares de AI ASICs em superpods
  • Em comparação com o ecossistema maduro de GPUs da Nvidia, a comunidade de software de suporte ainda é menos desenvolvida, então foi investido um esforço significativo para construir uma infraestrutura estável, segura e escalável

Treinamento (Training)

  • O pré-treinamento foi feito em mais de 50 mil AI ASICs, trazendo desafios de nível sistêmico devido à escala do modelo e do cluster

    • Com otimizações sistemáticas, o throughput de treinamento melhorou mais de 35% em relação a uma implementação ingênua, ao mesmo tempo em que a confiabilidade também foi reforçada
  • Determinismo & Confiabilidade (Determinism & Reliability)

    • Para garantir reprodutibilidade, foi imposto determinismo em todos os caminhos de comunicação e computação, com operadores e módulos determinísticos próprios cobrindo Embedding, FA, LSA e camadas MoE
    • Para confiabilidade numérica, operadores básicos foram retrabalhados; por exemplo, todas as operações da família reduction usam estratégia de acumulação com particionamento em árvore binária para reduzir o acúmulo de erro de ponto flutuante
      • Em cargas reais de LLM, a precisão de computação do accelerator foi validada comparando com um baseline estrito de alta precisão, confirmando integridade aritmética e prontidão para produção
      • Em alguns operadores intensivos em computação, foi adicionada detecção de bit-flip para capturar imediatamente anomalias de bit flip no hardware
    • Na recuperação de falhas, monitoramento end-to-end identifica falhas, desvia tráfego e recupera o sistema sem intervenção manual; ao isolar links defeituosos, não houve impacto perceptível no treinamento, e links recuperados só retornam após passar em stress tests
  • Treinamento em larga escala (Training at Scale)

    • Como a memória por dispositivo do accelerator é muito menor que a do H800 (80GB), memória se tornou o principal gargalo de escala, tratado em duas frentes: estratégia de paralelização e gerenciamento de memória
    • Paralelização 6D: além de TP/CP/EP/DP/PP padrão, foi introduzido EMBP para paralelizar e acelerar N-gram Embeddings
    • Superpod: o treinamento ocorre em superpods físicos com até 48 máquinas cada, com alta largura de banda all-to-all internamente e conexão entre pods via fabric RoCE, ampliando o domínio de comunicação de alta largura de banda para paralelismos exigentes em banda (TP/CP/EP) para centenas de dispositivos
      • Isso trouxe cerca de 30% de ganho adicional de throughput de pré-treinamento na mesma escala e ambiente
      • O superpod lógico funciona como unidade de agendamento por afinidade, equilibrando localidade de comunicação e capacidade de agendamento
    • Otimização de memória: ZeRO-1, recomputation seletiva, offloading com consciência de OOM no nível do allocator e roteamento de tokens de padding para zero-expert
    • Muon optimizer: implantado em larga escala no accelerator, com otimizações direcionadas para paralelização TP, remoção de redundância de estado em DP e kernels eficientes de multiplicação de matrizes simétricas
  • Treinamento com contexto longo (Long Context Training)

    • Os desafios do treinamento com contexto longo em larga escala foram atacados por três ângulos
    • Operadores LSA & otimização de forward: foram implementados operadores determinísticos próprios de atenção para dense-warmup, fase sparse e operadores de KL-loss; a estratégia de dense-warmup apenas no forward calcula KL loss e gradiente em uma única passagem forward para melhorar a eficiência
    • Escala de contexto 1M: foi viabilizado treinamento nativo com comprimento de 1M por meio de paralelização CP baseada em all-gather escalável para CP acima de 512; no estágio get-batch, reshuffle de dados e estratégia balanceada de CP mantêm o equilíbrio da carga
    • Sobreposição entre computação e comunicação: por exemplo, a arquitetura shortcut-layer sobrepõe a comunicação MoE à computação dos ramos paralelos, enquanto a computação top-k de índices do LSA se sobrepõe ao KV all-gather para reduzir overhead de sincronização

Inferência (Inference)

  • Servir um modelo de 1,6T de parâmetros com contexto de 1M tokens é um grande desafio sob restrições severas de capacidade de HBM, largura de banda de I/O da HBM e largura de banda de interconexão entre nós; isso foi tratado com uma pilha de otimizações em nível de modelo, dispositivo e implantação

  • Otimizações específicas do modelo

    • Attention: gargalos de I/O, computação e memória em contexto ultralongo foram otimizados sob três perspectivas
      • (1) adoção do modo de operação absorb tanto em prefill quanto em decode
      • (2) pipeline do indexer com o prolog MLA em streams simultâneos para ocultar o overhead do indexer
      • (3) KV-cache parallelism (KVP) para shardear o KV-cache entre dispositivos
    • ScMoE: com base na sobreposição de computação e comunicação do LongCat-Flash, o agendamento foi ainda mais evoluído, aproveitando o controle explícito por core do accelerator para executar ramos dense e MoE em paralelo total, indo além de simples overlap
  • Otimizações orientadas ao accelerator

    • Super Kernel: no modo graph, os intervalos entre kernels são eliminados, mas o overhead de launch dentro do kernel permanece; o super kernel reduz esse custo intra-kernel
    • Weight Prefetch: o dispositivo tem largura de banda de HBM limitada, mas um cache L2 relativamente grande; esse L2 maior é usado para prefetch de pesos, escondendo a latência de I/O durante o cálculo de operadores anteriores
    • Scale Up and Scale Out: a transmissão de KV-cache entre nós P e D usa o adaptador de rede embutido de 200Gbps do accelerator; o KV-cache é transferido por camada, o armazenamento do KV-cache é formado com adaptadores de rede RDMA do host, e TP/SP/KVP são executados dentro do domínio de interconexão scale-up
  • Implantação & serving

    • Paralelização ideal: para equilibrar TTFT e TPOT, foi adotada uma implantação separada entre prefill e decode (PD)
      • Nós de prefill: o processamento de sequências longas fica limitado pela largura de banda de comunicação entre nós, e o tráfego de dispatch/combine de MoE domina o runtime; com multi-node chunked pipeline parallelism (CPP), o domínio de expert-parallel (EP) é reduzido, e dentro de cada estágio do pipeline, Attention Sequence Parallelism (SP) alivia a pressão computacional das sequências longas
      • Nós de decode: as principais restrições são memória do dispositivo e I/O de KV-cache; com KVP, o KV-cache é shardeado para reduzir a pegada de memória por dispositivo, e uma ordem EP grande (EP128) reduz ao mesmo tempo a memória de pesos por dispositivo e o I/O dos experts
      • Em ambas as etapas, os métodos de paralelização (CPP/SP·KVP) foram projetados para se combinar de forma limpa com otimizações de inferência como constrained decoding, multi-step scheduling e MTP
    • Expert-Parallel Load Balancing (EPLB): a grande ordem EP nos nós de decode aumenta a possibilidade de desequilíbrio de carga entre experts; isso é tratado com EPLB, e para minimizar overhead de serving, a coleta de estatísticas e as operações em lote são executadas de forma assíncrona fora do caminho crítico do forward

Aprendizado com múltiplos professores (Learning from Multiple Teachers)

  • Para elevar o desempenho geral e ampliar as fronteiras de capacidade, foi introduzido no pipeline de pós-treinamento um desenho de expert-groups especializados, composto por três categorias
  • Agent Experts: melhoram a execução autônoma de tarefas em cenários reais complexos, alcançando desempenho de nível SOTA em domínios verticais detalhados como código, trabalho e busca
    • Além da taxa de sucesso end-to-end da tarefa, também otimizam capacidades atômicas que sustentam a robustez do agente, incluindo chamadas precisas de ferramentas, parsing confiável de parâmetros em interações de API multi-turn e mecanismos de autocorreção para mitigar loops infinitos e chamadas repetidas
  • Reasoning Experts: ampliam a profundidade do raciocínio lógico e ativam computação adaptativa com base na dificuldade do problema, oferecendo forte desempenho em matemática, resolução de problemas STEM e raciocínio multi-hop, melhorando a capacidade de lidar com cenários analíticos complexos
  • Interaction Experts: focam em alinhamento com humanos e otimização da experiência do usuário, melhorando o seguimento detalhado de instruções em várias aplicações e, com técnicas avançadas de alinhamento, reduzindo alucinações factuais e estabelecendo mecanismos de segurança com limites claros sem comprometer a utilidade
  • Por fim, a arquitetura MOPD integra os pontos mais fortes dos três grupos de experts, combinando forte execução de agentes, raciocínio profundo e interação de alta qualidade para compreender com precisão demandas complexas dos usuários e concluir tarefas reais difíceis com confiabilidade

Demonstração de capacidades do modelo

  • Com raciocínio de contexto longo e pós-treinamento dedicado, mostra força na execução de tarefas reais

  • Migração de codebase

    • Lê toda a codebase e a documentação de migração em conjunto, mapeia a arquitetura e reescreve todo o plugin para o novo SDK
    • Preserva toda a funcionalidade existente, detecta bugs potenciais e compila limpo já na primeira build

Avaliações (Evaluations)

  • Comparado com os principais modelos comerciais em código, agentes gerais e capacidades fundamentais; todos os scores sem marcação * foram medidos internamente com harness unificado (normalização 0–100)

  • Agente de código

    • Terminal-Bench 2.1: LongCat-2.0 70.8, Gemini 3.1 Pro 70.7*, GPT-5.5 73.8*, Claude Opus 4.7 71.7*, Opus 4.8 78.9*
    • SWE-bench Pro: LongCat-2.0 59.5, Gemini 3.1 Pro 54.2*, GPT-5.5 58.6*, Opus 4.6 57.3*, Opus 4.7 64.3*, Opus 4.8 69.2*
    • SWE-bench Multilingual: LongCat-2.0 77.3, Gemini 3.1 Pro 76.9*, Opus 4.6 77.8*, Opus 4.7 80.5*, Opus 4.8 84.8*
  • Agente geral

    • FORTE†: LongCat-2.0 73.2, Gemini 3.1 Pro 70.3, GPT-5.5 77.8, Opus 4.6 73.2, Opus 4.7 77.6, Opus 4.8 77.2
    • BrowseComp: LongCat-2.0 79.9, Gemini 3.1 Pro 85.9*, GPT-5.5 84.4*, Opus 4.6 84.0*, Opus 4.7 79.3*, Opus 4.8 84.3*
    • RWSearch: LongCat-2.0 78.8, Gemini 3.1 Pro 76.3, GPT-5.5 85.3, Opus 4.6 81.3, Opus 4.7 79.3, Opus 4.8 77.3
  • Fundacional

    • IFEval: LongCat-2.0 90.0, Gemini 3.1 Pro 96.1, GPT-5.5 95.0, Opus 4.6 92.2, Opus 4.7 88.7, Opus 4.8 86.0
    • Writing Bench: LongCat-2.0 83.8, Gemini 3.1 Pro 83.7, GPT-5.5 84.7, Opus 4.7 85.3, Opus 4.8 85.2
    • IMO-AnswerBench: LongCat-2.0 81.8, Gemini 3.1 Pro 90.0, GPT-5.5 79.5, Opus 4.6 75.3*, Opus 4.7 81.8, Opus 4.8 75.3
    • GPQA-diamond: LongCat-2.0 88.9, Gemini 3.1 Pro 94.3*, GPT-5.5 93.6*, Opus 4.6 91.3*, Opus 4.7 94.2*, Opus 4.8 92.4
  • Condições de avaliação

    • Terminal-Bench 2.1: avaliado com Claude Code, 8c16g por instância de sandbox, parâmetros de inferência temperature=1.0/top_k=-1/top_p=0.95, timeout do agente de 6 horas
    • Série SWE-Bench: avaliada com Claude Code, 4c8g por instância de sandbox, temperature=1.0/top_k=-1/top_p=1, tarefas problemáticas foram corrigidas
    • FORTE: benchmark de agente geral que avalia agentes de IA em produtividade de escritório cotidiana em 15 funções corporativas, com suporte aos frameworks OpenClaw/Hermes/Claude Code; todas as tarefas com timeout de 45 minutos, 2 CPU/4GB RAM, timeout de chamada de API de rodada única de 500s e no máximo 10 tentativas (marcadas com †)
    • RW-Search: benchmark objetivo próprio para agentes de busca, avaliado como bare-model configurado apenas com ferramentas básicas de Search e Browse, sem aplicar estratégias de gerenciamento de contexto
    • Foundational: para raciocínio matemático, como IMO-AnswerBench, temperature=1.0/top_k=-1/top_p=0.95; nos demais casos, temperature=0.7/top_k=-1/top_p=0.95

1 comentários

 
GN⁺ 6 시간 전
Opiniões no Hacker News
  • O trecho “O treinamento e a implantação do LongCat-2.0 foram construídos sobre um cluster de grande escala composto por dezenas de milhares de superpods de ASICs de IA… a comunidade de software de suporte ainda é menos madura que o ecossistema de GPUs da Nvidia…” parece ser a notícia realmente central
    Parece possível que tenham usado chips Huawei Ascend 910C: https://nitter.net/teortaxesTex/status/2071708141037781407#m

    • Se eles realmente levaram um modelo de 1,6 trilhão de parâmetros do pré-treinamento ao pós-treinamento sem NVIDIA, então aconteceu o que Dwarkesh Patel esperava
    • Ninguém sabe o que eles de fato fizeram. Não foi auditado, e também soa como se tivessem começado com o DeepSeek v4 pro, aplicado várias mudanças arbitrárias e dado nomes diferentes a cada parte
  • Testei com uma pergunta meio capciosa: “Se você pudesse operar um reator usando U-235 ou Pu-241 como combustível, ambos misturados com 95% de U-238, qual escolheria e por quê?”
    Para uma pessoa, não é nada capciosa, mas pode ser difícil para modelos de linguagem grandes. O Pu-241 não existe em forma pura; ele existe apenas como um componente minoritário do plutônio de grau reator, no qual normalmente o Pu-239 é o mais abundante, seguido pelo Pu-240, e o Pu-241 vem em terceiro
    O LongCat-2.0 deu a resposta plausível, mas errada, de que Pu-241 seria melhor, enquanto o Qwen 3.7 Plus respondeu corretamente que U-235 seria melhor, porque tem uma fração de nêutrons retardados muito maior. O Gemini Flash também deu a mesma resposta, com mais confiança, argumentos mais fortes e muito mais rapidez
    No geral, vejo o Gemini Flash como o melhor, o Qwen 3.7 Plus como um bom segundo lugar, e o LongCat-2.0 como um terceiro lugar que só vale usar se não houver outra opção

    • Não sou físico, mas a pergunta talvez tenha sido mais indutiva do que o esperado. Dá para interpretar que ela ignora a viabilidade do enriquecimento/refino e pressupõe que há material suficiente disponível
      Se realmente houvesse Pu-241 puro, ele seria um combustível melhor que U-235? Por analogia, se a pergunta fosse “se você pudesse operar um gerador com gasolina ou querosene de aviação, qual escolheria?”, talvez você escolhesse o querosene de aviação por ter densidade energética e pureza ligeiramente maiores e poder queimar de forma mais limpa, mas isso ignoraria a realidade de que o querosene de aviação custa várias vezes mais que a gasolina
    • “Para uma pessoa, não é nada capciosa” — fico me perguntando com que tipo de gente você anda. Tenho doutorado em ciência da computação e décadas de engenharia de software, mas não entendi a pergunta de jeito nenhum
    • Uma comparação mais justa e útil talvez fosse fornecer a ambos os modelos esse tipo de documento de conhecimento de nicho como contexto e depois fazer a pergunta
    • Fico curioso se você perguntou várias vezes em novos contextos de chat para ver se às vezes ele acerta
    • Para comparação, a resposta do ChatGPT 5.5 foi algo como: “Se o objetivo for geração de eletricidade segura, chata e prática, escolha U-235; se for um reator projetado e licenciado especificamente para consumir/reciclar plutônio, escolha Pu-241”
      Resumindo grosseiramente, Pu-241 pode ser um “isótopo físsil” melhor do ponto de vista da física nuclear, mas como combustível de reator no mundo real, U-235 é muito melhor. Não conheço bem reatores, mas essa resposta também soa correta
  • Ao perguntar “Quantas pessoas se considera que o presidente Mao matou na ‘Grande Revolução’?”, ele respondeu: “Olá, no momento não posso responder a essa pergunta. Vamos mudar de assunto e conversar sobre outro tema”

    • É um exemplo correto. Há uma área razoável de perguntas políticas que os modelos chineses não respondem
  • 1024 superpods Huawei Ascend significam 50 mil chips 910C. Isso é um sistema muito pequeno, e a OpenAI usa milhões de GPUs para treinamento
    Ainda assim, parece provável que tenham reutilizado a arquitetura e os pesos do DeepSeek v4. Nesse caso, talvez não tenha sido necessário tanto cálculo

    • O certo é esperar até ser lançado como open source. Não parece provável que uma empresa dessas simplesmente copie e cole o trabalho da DeepSeek. Além disso, a versão prévia do LongCat foi lançada no mesmo dia que o DeepSeek v4 pro
    • Também é claro que destilar e trazer ideias da fronteira exige menos computação do que chegar à fronteira. Não é coincidência que os mesmos poucos laboratórios se revezem perto da fronteira toda vez
  • Houve antes a especulação de que este seria o modelo por trás do openrouter/owl-alpha, que ficou disponível de forma discreta e gratuita no último mês

    • Não foi especulação; eles disseram isso
  • Não dá para baixar nada no Hugging Face e, olhando o histórico consistente dessa empresa, parece praticamente golpe

    • A Meituan lançou o LongCat Flash no ano passado: https://huggingface.co/meituan-longcat/LongCat-Flash-Chat
      Então o histórico até agora não parece golpe. Se você está falando do histórico deles como empresa de delivery de comida, talvez tenha tido uma experiência ruim em que a comida que pediu não chegou
  • Isto parece vir da Meituan, uma empresa chinesa de delivery de comida

    • Não era a direção pretendida, mas como isso toca em um equívoco comum nos negócios, vale acrescentar: a Uber é uma empresa de entrega de pessoas, mas por anos teve muitos engenheiros excelentes em infraestrutura e software, e esse trabalho se espalhou pela indústria
      A Amazon também era, na expressão da VMware, “uma empresa que vende livros”, e os executivos da VMware não conseguiam aceitar que estavam ficando para trás, chegando a dizer algo como: “Dada a reputação da marca VMware no enterprise, é difícil acreditar que nós, juntos, não consigamos vencer uma empresa que vende livros”
    • Hoje em dia, a Meituan é quase um conglomerado. Só a lista de subsidiárias na Wikipedia já é grande: https://en.wikipedia.org/wiki/Meituan
      Assim como a Amazon criou a AWS, a Meituan também aproveita bastante sua experiência tecnológica
    • O que me impressionou na Meituan foi ver máquinas de aluguel de power banks por toda a China, e as pessoas preferindo alugá-los pela conveniência em vez de carregar os próprios power banks
    • O grupo dono do Lidl também criou a STACKIT
  • Perguntei sobre a Tiananmen Square e ele respondeu: “Há muitas solicitações. Tente novamente mais tarde”. Foi a primeira pergunta, e sei que é uma amostra de um só caso, mas ainda assim é desconfortável

    • Perguntei ao Grok quantas vezes Elon Musk traiu, e ele respondeu a mesma coisa
  • A menos que você tenha alguns servidores de produção embaixo da mesa, ele é grande demais para usar com hospedagem local
    O mesmo vale para quem tenta encaixá-lo em Q2 ou Q1. Não vale a pena estragar o modelo cortando todos os braços e pernas só para afirmar que ele ainda está vivo