Modelo Kimi K2 1T roda em dois M3 Ultra de 512GB

(twitter.com/awnihannun)

1 pontos por GN⁺ 2025-12-15 | 1 comentários | Compartilhar no WhatsApp

Um caso em que o modelo Kimi K2 1T foi executado em dois chips M3 Ultra com 512GB de memória
Uma postagem no Twitter menciona o ambiente de execução e a configuração de hardware do modelo
Chama atenção o fato de um modelo na escala de 1T ter sido executado em hardware Mac comercial
Um exemplo que mostra o potencial de computação de IA de alto desempenho baseada em Apple Silicon
Uma tentativa técnica que sugere a expansão dos limites de execução local de grandes modelos de linguagem

Conteúdo da postagem no Twitter

A publicação afirma explicitamente que o modelo Kimi K2 1T foi executado em duas máquinas com M3 Ultra (cada uma com 512GB de memória)
Não há menção a métricas adicionais de desempenho nem a resultados
Além desse tuíte, não são fornecidos contexto adicional nem detalhes técnicos

1 comentários

GN⁺ 2025-12-15

Comentários do Hacker News

O Kimi K2 é realmente um modelo estranho
Não é mais inteligente que o Opus 4.5 ou o 5.2-Pro, mas tem um estilo de escrita muito único e um tom direto como se estivesse conversando com uma pessoa
Para escrever textos curtos, como e-mails, está entre os melhores que existem hoje, e não hesita em apontar erros ou corrigir bobagens durante a conversa
Dá a sensação de ter sido treinado de um jeito completamente diferente dos outros modelos, então é muito mais útil para edição do que para análise de dados
Por isso, de fato assino o Kimi e uso pago
- Também penso assim. Em comunicação curta, o Kimi K2 é incomparável
  Tem uma inteligência emocional (emotional intelligence) excelente, entende bem a nuance e a intenção da mensagem, e ainda refina a frase levando em conta o contexto social
  Não sei como a Moonshot treinou isso, mas esse ponto realmente merece atenção
  Ficou em 1º lugar na avaliação de inteligência emocional do EQ-bench, e isso bate exatamente com a minha percepção
- É o único modelo que passa com consistência no teste dos Clocks, que é meu benchmark de IA favorito
- É o único modelo que me corrige com sinceridade quando estou errado
  Ver um chatbot dizendo algo como “forneça um exemplo reproduzível” é uma experiência curiosa
  Aliás, também dá para usar o Kimi K2 no Kagi
- O Sonnet 4.5 também costuma rebater o usuário de forma parecida, mas na maioria das vezes isso acontece por falta de contexto
  Fico curioso para saber o quão preciso o Kimi K2 é nesse aspecto
  No fim, dá a sensação de que o essencial em um modelo é seguir instruções (instruction following)
- Por causa dessas características, é natural que a pontuação no EQ-bench seja alta
O Kimi K2 é um modelo realmente impressionante
Justamente por não ser excessivamente bajulador, ele é útil para validar raciocínios
Os modelos antigos do ChatGPT elogiavam qualquer coisa, mas o Kimi, se você pedir, critica sem piedade a ponto de fazer você duvidar da própria inteligência e da linhagem
- Se você pedir, ele realmente entra em modo roast. Ajuda a manter o foco
- Uma vez deixei o Grok ligado dentro de um Tesla e o reconhecimento de voz falhou, o que acabou gerando uma situação constrangedora
  Aquele modelo também tinha uma personalidade nada bajuladora, como o Kimi
O modelo M3 Ultra 512GB custa US$ 9.499
Link oficial da Apple
- Um produto recondicionado pode ser comprado por US$ 8.070 neste link
  Também dá para conseguir mais 10% de desconto com gift card
Fico me perguntando se existe uma versão Linux dessa configuração
Ouvi falar de suporte a RDNA, mas não sei se isso depende de hardware específico (como ConnectX ou Apple Thunderbolt) ou se também funciona com uma NIC 10G comum
- Para ter desempenho em nível de produção, é preciso hardware compatível com RDNA
  Mas o vLLM também suporta cluster multinó baseado em Ethernet comum
Como sempre, alegações de desempenho sem informar tamanho de contexto ou condições de prefill geram confusão
Se usar contexto longo, a espera pela resposta pode chegar a vários minutos
Eu até gostaria de comprar algumas máquinas dessas, mas, pensando na depreciação, ainda parece cedo demais
Acho que em alguns anos isso vai ficar bem mais barato
- Antes de comprar, é preciso verificar benchmarks reais de velocidade
  Não dá para confiar apenas em “funciona”; em cenários com contexto longo, a taxa de processamento é completamente diferente
- Pessoalmente, não acho que comprar esse tipo de equipamento faça sentido econômico
  Com o mesmo valor, dá para garantir muito mais uso de nuvem
  Além disso, como não vou rodar 24/7, a eficiência cai
  Para modelos open source, é muito mais prático usar serviços de ultrabaixa latência como Groq ou Cerebras
- O motivo para rodar modelos localmente é privacidade, não custo nem latência
- Espero que na próxima atualização venham com chips variantes do M5
- Talvez o melhor seja esperar até o preço da RAM estabilizar
Fico curioso para saber quais benchmarks ainda são válidos hoje em dia
Testo vários modelos no Cursor, mas o Deepseek v3.2 e o Kimi K2 não funcionam bem por problemas de formato, e outros modelos também estão faltando
Tenho curiosidade especialmente por benchmarks fora do mundo web, como C++ ou Rust
Vale mencionar que esse modelo é uma versão com quantização 4bit (quant). Ainda assim, é impressionante
- O Kimi K2 foi projetado desde o início com foco em otimização para 4bit
- Se o número de parâmetros está na casa do trilhão, penso que a quantização já é um pressuposto
Também fico curioso para saber se a aceleração de token pre-fill da Exo Labs pode rodar no DGX Spark
A dúvida é se combinar 2 Sparks e 2 Mac Studios daria uma velocidade de inferência parecida com a de 2 M5 Ultra
Estou pensando se não é esse o modelo que venceu recentemente a competição de desenho de relógio em tempo real

Modelo Kimi K2 1T roda em dois M3 Ultra de 512GB

Conteúdo da postagem no Twitter

Leituras relacionadas

1 comentários

Comentários do Hacker News