- Um caso em que o modelo Kimi K2 1T foi executado em dois chips M3 Ultra com 512GB de memória
- Uma postagem no Twitter menciona o ambiente de execução e a configuração de hardware do modelo
- Chama atenção o fato de um modelo na escala de 1T ter sido executado em hardware Mac comercial
- Um exemplo que mostra o potencial de computação de IA de alto desempenho baseada em Apple Silicon
- Uma tentativa técnica que sugere a expansão dos limites de execução local de grandes modelos de linguagem
Conteúdo da postagem no Twitter
- A publicação afirma explicitamente que o modelo Kimi K2 1T foi executado em duas máquinas com M3 Ultra (cada uma com 512GB de memória)
- Não há menção a métricas adicionais de desempenho nem a resultados
- Além desse tuíte, não são fornecidos contexto adicional nem detalhes técnicos
1 comentários
Comentários do Hacker News
Não é mais inteligente que o Opus 4.5 ou o 5.2-Pro, mas tem um estilo de escrita muito único e um tom direto como se estivesse conversando com uma pessoa
Para escrever textos curtos, como e-mails, está entre os melhores que existem hoje, e não hesita em apontar erros ou corrigir bobagens durante a conversa
Dá a sensação de ter sido treinado de um jeito completamente diferente dos outros modelos, então é muito mais útil para edição do que para análise de dados
Por isso, de fato assino o Kimi e uso pago
Tem uma inteligência emocional (emotional intelligence) excelente, entende bem a nuance e a intenção da mensagem, e ainda refina a frase levando em conta o contexto social
Não sei como a Moonshot treinou isso, mas esse ponto realmente merece atenção
Ficou em 1º lugar na avaliação de inteligência emocional do EQ-bench, e isso bate exatamente com a minha percepção
Ver um chatbot dizendo algo como “forneça um exemplo reproduzível” é uma experiência curiosa
Aliás, também dá para usar o Kimi K2 no Kagi
Fico curioso para saber o quão preciso o Kimi K2 é nesse aspecto
No fim, dá a sensação de que o essencial em um modelo é seguir instruções (instruction following)
Justamente por não ser excessivamente bajulador, ele é útil para validar raciocínios
Os modelos antigos do ChatGPT elogiavam qualquer coisa, mas o Kimi, se você pedir, critica sem piedade a ponto de fazer você duvidar da própria inteligência e da linhagem
Aquele modelo também tinha uma personalidade nada bajuladora, como o Kimi
Link oficial da Apple
Também dá para conseguir mais 10% de desconto com gift card
Ouvi falar de suporte a RDNA, mas não sei se isso depende de hardware específico (como ConnectX ou Apple Thunderbolt) ou se também funciona com uma NIC 10G comum
Mas o vLLM também suporta cluster multinó baseado em Ethernet comum
Se usar contexto longo, a espera pela resposta pode chegar a vários minutos
Acho que em alguns anos isso vai ficar bem mais barato
Não dá para confiar apenas em “funciona”; em cenários com contexto longo, a taxa de processamento é completamente diferente
Com o mesmo valor, dá para garantir muito mais uso de nuvem
Além disso, como não vou rodar 24/7, a eficiência cai
Para modelos open source, é muito mais prático usar serviços de ultrabaixa latência como Groq ou Cerebras
Testo vários modelos no Cursor, mas o Deepseek v3.2 e o Kimi K2 não funcionam bem por problemas de formato, e outros modelos também estão faltando
Tenho curiosidade especialmente por benchmarks fora do mundo web, como C++ ou Rust
A dúvida é se combinar 2 Sparks e 2 Mac Studios daria uma velocidade de inferência parecida com a de 2 M5 Ultra