1 pontos por GN⁺ 2025-12-15 | 1 comentários | Compartilhar no WhatsApp
  • Um caso em que o modelo Kimi K2 1T foi executado em dois chips M3 Ultra com 512GB de memória
  • Uma postagem no Twitter menciona o ambiente de execução e a configuração de hardware do modelo
  • Chama atenção o fato de um modelo na escala de 1T ter sido executado em hardware Mac comercial
  • Um exemplo que mostra o potencial de computação de IA de alto desempenho baseada em Apple Silicon
  • Uma tentativa técnica que sugere a expansão dos limites de execução local de grandes modelos de linguagem

Conteúdo da postagem no Twitter

  • A publicação afirma explicitamente que o modelo Kimi K2 1T foi executado em duas máquinas com M3 Ultra (cada uma com 512GB de memória)
  • Não há menção a métricas adicionais de desempenho nem a resultados
  • Além desse tuíte, não são fornecidos contexto adicional nem detalhes técnicos

1 comentários

 
GN⁺ 2025-12-15
Comentários do Hacker News
  • O Kimi K2 é realmente um modelo estranho
    Não é mais inteligente que o Opus 4.5 ou o 5.2-Pro, mas tem um estilo de escrita muito único e um tom direto como se estivesse conversando com uma pessoa
    Para escrever textos curtos, como e-mails, está entre os melhores que existem hoje, e não hesita em apontar erros ou corrigir bobagens durante a conversa
    Dá a sensação de ter sido treinado de um jeito completamente diferente dos outros modelos, então é muito mais útil para edição do que para análise de dados
    Por isso, de fato assino o Kimi e uso pago
    • Também penso assim. Em comunicação curta, o Kimi K2 é incomparável
      Tem uma inteligência emocional (emotional intelligence) excelente, entende bem a nuance e a intenção da mensagem, e ainda refina a frase levando em conta o contexto social
      Não sei como a Moonshot treinou isso, mas esse ponto realmente merece atenção
      Ficou em 1º lugar na avaliação de inteligência emocional do EQ-bench, e isso bate exatamente com a minha percepção
    • É o único modelo que passa com consistência no teste dos Clocks, que é meu benchmark de IA favorito
    • É o único modelo que me corrige com sinceridade quando estou errado
      Ver um chatbot dizendo algo como “forneça um exemplo reproduzível” é uma experiência curiosa
      Aliás, também dá para usar o Kimi K2 no Kagi
    • O Sonnet 4.5 também costuma rebater o usuário de forma parecida, mas na maioria das vezes isso acontece por falta de contexto
      Fico curioso para saber o quão preciso o Kimi K2 é nesse aspecto
      No fim, dá a sensação de que o essencial em um modelo é seguir instruções (instruction following)
    • Por causa dessas características, é natural que a pontuação no EQ-bench seja alta
  • O Kimi K2 é um modelo realmente impressionante
    Justamente por não ser excessivamente bajulador, ele é útil para validar raciocínios
    Os modelos antigos do ChatGPT elogiavam qualquer coisa, mas o Kimi, se você pedir, critica sem piedade a ponto de fazer você duvidar da própria inteligência e da linhagem
    • Se você pedir, ele realmente entra em modo roast. Ajuda a manter o foco
    • Uma vez deixei o Grok ligado dentro de um Tesla e o reconhecimento de voz falhou, o que acabou gerando uma situação constrangedora
      Aquele modelo também tinha uma personalidade nada bajuladora, como o Kimi
  • O modelo M3 Ultra 512GB custa US$ 9.499
    Link oficial da Apple
    • Um produto recondicionado pode ser comprado por US$ 8.070 neste link
      Também dá para conseguir mais 10% de desconto com gift card
  • Fico me perguntando se existe uma versão Linux dessa configuração
    Ouvi falar de suporte a RDNA, mas não sei se isso depende de hardware específico (como ConnectX ou Apple Thunderbolt) ou se também funciona com uma NIC 10G comum
    • Para ter desempenho em nível de produção, é preciso hardware compatível com RDNA
      Mas o vLLM também suporta cluster multinó baseado em Ethernet comum
  • Como sempre, alegações de desempenho sem informar tamanho de contexto ou condições de prefill geram confusão
    Se usar contexto longo, a espera pela resposta pode chegar a vários minutos
  • Eu até gostaria de comprar algumas máquinas dessas, mas, pensando na depreciação, ainda parece cedo demais
    Acho que em alguns anos isso vai ficar bem mais barato
    • Antes de comprar, é preciso verificar benchmarks reais de velocidade
      Não dá para confiar apenas em “funciona”; em cenários com contexto longo, a taxa de processamento é completamente diferente
    • Pessoalmente, não acho que comprar esse tipo de equipamento faça sentido econômico
      Com o mesmo valor, dá para garantir muito mais uso de nuvem
      Além disso, como não vou rodar 24/7, a eficiência cai
      Para modelos open source, é muito mais prático usar serviços de ultrabaixa latência como Groq ou Cerebras
    • O motivo para rodar modelos localmente é privacidade, não custo nem latência
    • Espero que na próxima atualização venham com chips variantes do M5
    • Talvez o melhor seja esperar até o preço da RAM estabilizar
  • Fico curioso para saber quais benchmarks ainda são válidos hoje em dia
    Testo vários modelos no Cursor, mas o Deepseek v3.2 e o Kimi K2 não funcionam bem por problemas de formato, e outros modelos também estão faltando
    Tenho curiosidade especialmente por benchmarks fora do mundo web, como C++ ou Rust
  • Vale mencionar que esse modelo é uma versão com quantização 4bit (quant). Ainda assim, é impressionante
    • O Kimi K2 foi projetado desde o início com foco em otimização para 4bit
    • Se o número de parâmetros está na casa do trilhão, penso que a quantização já é um pressuposto
  • Também fico curioso para saber se a aceleração de token pre-fill da Exo Labs pode rodar no DGX Spark
    A dúvida é se combinar 2 Sparks e 2 Mac Studios daria uma velocidade de inferência parecida com a de 2 M5 Ultra
  • Estou pensando se não é esse o modelo que venceu recentemente a competição de desenho de relógio em tempo real