MAI-Code-1-Flash
(microsoft.ai)- MAI-Code-1-Flash é o novo modelo de codificação da Microsoft, voltado a oferecer suporte rápido e eficiente para programação no fluxo de trabalho diário de desenvolvedores, e está sendo distribuído para usuários individuais do GitHub Copilot no VS Code
- A Microsoft treinou esse modelo diretamente no harness do GitHub Copilot, projetando-o para interagir melhor com ferramentas e sistemas de ambientes reais de desenvolvimento
- Com controle adaptativo do tamanho da resposta, ele responde de forma concisa a pedidos simples e usa mais orçamento de raciocínio em tarefas complexas, resolvendo problemas mais difíceis com até 60% menos tokens {p:60}
- Na avaliação de harness de produção da Microsoft, superou o Claude Haiku 4.5 em taxa de aprovação em todos os 4 benchmarks centrais de codificação e abriu 16 pontos de vantagem no SWE-Bench Pro, com 51,2% contra 35,2%
- Em um benchmark separado de raciocínio adversarial, registrou 85,8% de acurácia ajustada em 186 questões e 34 categorias, mas categorias adversariais centrais como Einstellung trap ainda ficaram abaixo de 50% de acerto, indicando espaço para melhorias
Lançamento e distribuição
- O MAI-Code-1-Flash é o novo modelo de codificação da Microsoft criado para suporte rápido e eficiente a desenvolvedores no dia a dia
- Foi construído pela Microsoft de ponta a ponta e usa dados limpos e devidamente licenciados
- Está sendo distribuído para usuários individuais do GitHub Copilot no VS Code, podendo ser usado no seletor de modelos e sob o Auto picker padrão
- Não é necessária configuração adicional; conforme a distribuição avança, o GitHub Copilot encaminhará tarefas para o MAI-Code-1-Flash por meio do Auto picker ou o exibirá diretamente no seletor de modelos
- O feedback será recebido na GitHub Community
Projeto centrado no fluxo de trabalho do desenvolvedor
- O MAI-Code-1-Flash não foi criado apenas para otimização em benchmarks, mas com foco nos fluxos de trabalho de produção usados diariamente por desenvolvedores
- Foi treinado diretamente com o harness do GitHub Copilot usado em ambientes de produção, sendo projetado para aprender a lidar com ferramentas e sistemas ao redor em tarefas de codificação agentic
- Durante o treinamento, checkpoints foram avaliados com tarefas centrais de engenharia de software, perguntas e respostas sobre repositórios, refatoração e tarefas baseadas em telemetria adaptadas do uso real do GitHub Copilot
- O objetivo de projeto é alinhar treinamento, avaliação e ambiente de produção para que melhorias offline se traduzam em qualidade real para desenvolvedores
Eficiência de tokens e forma de resposta
- Ele aprendeu controle adaptativo do tamanho da solução, ajustando a profundidade da resposta de acordo com a dificuldade da tarefa
- Responde de forma concisa a pedidos simples e usa mais orçamento de raciocínio em problemas que exigem análise mais profunda ou mudanças mais amplas no código
- Com isso, desenvolvedores podem começar a ver saídas úteis mais rapidamente
- O MAI-Code-1-Flash resolve problemas mais difíceis com até 60% menos tokens, buscando reduzir latência, cortar custos, melhorar o retorno por token e oferecer fluxos de trabalho conversacionais mais fluidos
Resultados em benchmarks de codificação
- A Microsoft avaliou o MAI-Code-1-Flash e o Claude Haiku 4.5 com o mesmo harness de produção em SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual e Terminal Bench 2
- A avaliação mediu a taxa de sucesso das tarefas e o número médio de tokens de solução necessários para concluir cada tarefa
- O MAI-Code-1-Flash registrou taxa de aprovação superior à do Claude Haiku 4.5 em todos os 4 benchmarks centrais de codificação testados
- Nas diversas tarefas reais do SWE-Bench Pro, abriu 16 pontos de vantagem, com 51,2% contra 35,2%
- No SWE-Bench Verified, mostrou que precisão e eficiência podem melhorar ao mesmo tempo ao resolver problemas mais difíceis com até 60% menos tokens
Seguimento de instruções, raciocínio e limitações
- O MAI-Code-1-Flash ficou à frente do Claude Haiku 4.5 em todos os benchmarks mostrados na tabela, com a maior diferença no seguimento preciso de instruções do IF Bench, onde marcou +28,9
- Na avaliação baseada em rubrica do Advanced IF, apresentou a menor diferença, de +14,5
- O forte desempenho em seguimento de instruções também se estende ao uso agentic de ferramentas
- Também superou o Claude Haiku 4.5 em capacidades centrais de raciocínio em matemática, ciências e codificação para geração visual
- Como benchmarks padrão podem recompensar memorização tanto quanto raciocínio, um modelo que viu o problema de Monty Hall pode acertar a resposta, mas falhar se os prêmios forem invertidos
- A Microsoft criou um benchmark com 186 questões e 34 categorias focado em armadilhas adversariais como inverted classics, impossible tasks e underdetermined scenarios
- O MAI-Code-1-Flash superou o Claude Haiku 4.5 nesse benchmark adversarial no geral e alcançou 85,8% de acurácia ajustada
- Mostrou desempenho especialmente forte em raciocínio, seguimento de instruções e reconhecimento de problemas impossíveis, mas categorias adversariais centrais como Einstellung trap ainda ficaram abaixo de 50% de acerto, deixando espaço para melhorias
1 comentários
Comentários do Hacker News
Segundo o model card, este é um modelo de 137B parâmetros no total
O desempenho não parece tão bom: MAI-Code-1-Flash (137B-A5B) faz 51% no SWE-bench pro, enquanto o Qwen3.6-35B-A3B faz 49,5% no SWE-bench pro (https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
Comparam com Claude Haiku, mas o Haiku não é um bom modelo, e fica atrás até de modelos abertos pequenos que podem ser executados localmente ou via API por cerca de 10% do custo
Eu me perguntava por que a Microsoft demorava tanto para oferecer modelos próprios no Copilot, e isso me faz pensar que talvez fosse parte do contrato com a OpenAI
É um bom começo e a concorrência é bem-vinda, mas quase nunca usei modelos pequenos de nuvem como o Haiku 4.5 para programação
Eles são até bonitinhos, mas em programação séria muitas vezes desperdiçam meu tempo caro, e isso não me faria voltar para o GitHub Copilot, que cancelei ontem
Até ontem o GitHub Copilot era competitivo em preço, mas mudou para um sistema de cotas por token entre os mais caros, com cobrança por solicitação. Se quiser rir, é só ver o subreddit em chamas: https://www.reddit.com/r/GithubCopilot
Depois disso, troquei para o DeepSeek Flash high, que é quase grátis e está no nível Sonnet+, e se eu precisar de um modelo mais inteligente, provavelmente vou assinar o Codex por US$ 20/mês para usar o GPT 5.5, que considero o melhor disponível no momento
Nesse método, uso o Haiku com bastante frequência em tarefas do dia a dia, e até tarefas de alta complexidade que levam várias horas podem ser resolvidas com resultados melhores e custo muito menor. O orquestrador-pai organiza bem as tarefas, revisa a qualidade e integra onde for necessário, realizando um enorme volume de trabalho dentro de uma única janela de contexto
Eu não uso o Haiku diretamente, mas ele muitas vezes representa 30% a 40% do uso de tokens em tarefas grandes. Tanto o tempo de conclusão quanto o custo melhoram, e o Haiku é melhor em seguir instruções e planos de forma literal, sem “reinterpretá-los”, enquanto modelos de nível Opus tendem a continuar duvidando e fazendo perguntas no meio do raciocínio
Então o Haiku não é perda de tempo, e sim uma enorme economia de tempo. Dito isso, para chegar a esse ponto primeiro gastei muito tempo criando um sistema de orquestração e depois iterando e melhorando continuamente. Curiosamente, minha experiência trabalhando como diretor e depois como distinguished engineer me deu as ferramentas para fazer isso rodar de forma estável até o fim, e um fluxo multiagente com capacidades variadas não é tão diferente da dinâmica de uma organização com mil engenheiros
O Qwen 3.6 27B auto-hospedado superou os dois de forma consistente na detecção de bugs de segurança, e isso foi um resultado bastante chocante. Eu achava que o Qwen seria do nível do Haiku ou um pouco pior, e certamente bem pior que o Sonnet
DeepSeek e MiMo se saem muito melhor que Haiku e Sonnet, custam só uma fração disso e ficam mais próximos do nível Opus/GPT 5.5
A menos que você os receba de graça ou incluídos numa assinatura que normalmente nem usa toda, quase não vejo motivo para usar Haiku ou Sonnet
Mesmo se baixassem o preço do Copilot em 90%, acho que eu não voltaria
Há muitos modelos competitivos em nível semelhante ao Haiku, inclusive alguns muito menores e mais baratos, como o Qwen 3.6 35B-A3B. Dá para rodar essas coisas num notebook, então não há necessidade de alugar da Microsoft
Fiquei assustado com a nova fatura do Copilot, mas para quem quer permanecer no ecossistema ainda pode ser uma opção utilizável; para a maioria, porém, sobram alternativas melhores
Mesmo só com o ChatGPT premium já dá para se virar, e embora eu bata no limite de uso regularmente, ainda assim consigo fazer a maior parte do trabalho
Alguém realmente usa modelos pequenos para programar? Se sim, tenho curiosidade de saber como usam
Normalmente faço tudo com o Opus. Queria ouvir a opinião de quem já testou dos dois jeitos: usar um modelo mais pesado para planejamento/design/arquitetura e delegar tarefas estruturadas a esses modelos menores, ou comparar os dois diretamente
Infelizmente, ainda não dá para comparar
Com o Opus, dá para trabalhar com confiança em design, propostas de arquitetura e alterações de código mesmo em codebases complexas
Os modelos pequenos passam mais a sensação de que estão “tentando”. Servem para tarefas pequenas, mas em tarefas complexas muitas vezes acabam dando mais trabalho do que fazer diretamente
Queria que fosse diferente, e talvez daqui a 1~2 anos seja
O claude code tem o opusplan: no modo de planejamento usa Opus, e na execução muda para Sonnet
https://code.claude.com/docs/en/model-config#opusplan-model-...
Edit: também dá para configurar planejamento com Sonnet e execução com Haiku, ou qualquer outra combinação desejada
https://code.claude.com/docs/en/model-config#control-the-mod...
Para funcionalidades simples, eu não fazia um plano completo. Escrevia um pouco de código e, com um prompt curto de uma linha, dizia ao modelo o que ele precisava fazer. Às vezes colocava comentários temporários no código para orientar a direção
Em geral, se a alteração fica dentro de um arquivo ou pacote, o Haiku consegue seguir o pedido e não bagunça tanto. Com o tempo, também desenvolvi habilidade para dar direção. Houve meses em que, usando o GitHub Copilot, eu tentava gastar às pressas os créditos que sobravam no fim do mês
Só o autocompletar de código com IA já pode ser bem útil. Às vezes basta escrever em um comentário temporário o que o código deve fazer e apertar Tab-Tab-Tab para uma função inteira aparecer pronta
As pessoas tendem a ir para modelos mais avançados porque acham que vão estragar menos, mas se você realmente entende o código, costuma ser mais fácil trabalhar de forma interativa com um modelo inferior
Defino o chat principal como o Opus, que atua como “orquestrador”, estabeleço o objetivo e faço com que ele empurre os seguintes subagentes em sequência até chegar lá
Repetição: segue até esgotar o orçamento de tokens da sessão do orquestrador. Dá para definir algo como 1M
A lógica básica é manter cada etapa em um tamanho administrável para aumentar a aderência às instruções e reduzir custos. Tokens em cache também custam. Tokens de prompt são muito mais baratos que tokens gerados, então sai bem mais em conta fazer o Opus revisar principalmente, em vez de liderar tudo
A etapa de autoaperfeiçoamento é muito cara, mas as melhorias se acumulam. Se você vai rodar um trabalho por dias ou semanas, não fazer isso sai muito mais caro
Edit: faço isso tanto no Claude Code com modelos da Anthropic quanto offline com modelos da linha Qwen
Esse modelo tem baixa taxa de alucinação, então é bom para tarefas de exploração, e acho que o melhor uso do modelo daqui seria parecido. Muitas tarefas lançam vários agentes de exploração antes de planejar ou editar, e depois terminam com só algumas chamadas de ferramenta, então o consumo de tokens também é alto
Estão comparando esse modelo ao Haiku 4.5
Não é com o Opus nem com o Sonnet, e sim com o Haiku, o menor modelo da Anthropic — e ainda por cima uma versão de 3 gerações atrás
Por que todo mundo reimplementa o scroll da janela de um jeito tão desastroso?
É muito estranho que os benchmarks ainda estejam tão baixos e, mesmo assim, o modelo seja vendido como se fosse revolucionário
Se a ideia é que baixa capacidade de programação não seja um problema, então isso precisa ser visto junto com o aumento no preço por token e a configuração de modelo “genérico”
Por que não vender isso como um agente de matemática? Por que eu preciso configurar 4 agentes para verificar o trabalho uns dos outros?
Para 5B de parâmetros, aquela pontuação é bem boa, e até pouco tempo atrás seria algo quase inacreditável
Modelos pequenos vão continuar melhorando, e imagino que os modelos de ponta na nuvem também vão encolher
Esse é mais um motivo para achar que a expansão massiva da infraestrutura atual vai acabar parecendo ferrovia
O post de apresentação no blog tem muito mais informação
https://microsoft.ai/news/introducingmai-code-1-flash/
E também tem o model card
https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF
O “5B ativo” do título parece vir de um anúncio mais amplo sobre 7 modelos MAI
https://microsoft.ai/news/building-a-hillclimbing-machine-la...
Era preciso lembrar novamente para que tipo de coisa o Haiku foi feito desde o início
A Anthropic nem vinha fazendo tanto esforço de marketing com o Haiku recentemente
Se precisa de um modelo leve, usa o Sonnet. No plano Max, ele sai quase de graça e é bem rápido. Em programação geral, é difícil ver onde o Haiku se encaixa
O Haiku parece ser um modelo para quando é preciso resumo/classificação em grande escala
A Microsoft usar o Haiku como referência é colocar a barra bem baixa
Eu queria que testassem o site no Safari
Quase todo usuário de iOS usa Safari por padrão, e a experiência no desktop também é bem parecida com a do mobile, então é fácil testar
Esse efeito de rolagem trava completamente no meu ambiente. Entendo que no Chrome/Edge funcione bem
Se tivesse sido lançado ontem, talvez desse para evitar que a seleção automática de modelo do Copilot usasse um modelo 9x e torrasse silenciosamente a cota mensal inteira em uma única tarde