2 pontos por GN⁺ 2 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • MAI-Code-1-Flash é o novo modelo de codificação da Microsoft, voltado a oferecer suporte rápido e eficiente para programação no fluxo de trabalho diário de desenvolvedores, e está sendo distribuído para usuários individuais do GitHub Copilot no VS Code
  • A Microsoft treinou esse modelo diretamente no harness do GitHub Copilot, projetando-o para interagir melhor com ferramentas e sistemas de ambientes reais de desenvolvimento
  • Com controle adaptativo do tamanho da resposta, ele responde de forma concisa a pedidos simples e usa mais orçamento de raciocínio em tarefas complexas, resolvendo problemas mais difíceis com até 60% menos tokens {p:60}
  • Na avaliação de harness de produção da Microsoft, superou o Claude Haiku 4.5 em taxa de aprovação em todos os 4 benchmarks centrais de codificação e abriu 16 pontos de vantagem no SWE-Bench Pro, com 51,2% contra 35,2%
  • Em um benchmark separado de raciocínio adversarial, registrou 85,8% de acurácia ajustada em 186 questões e 34 categorias, mas categorias adversariais centrais como Einstellung trap ainda ficaram abaixo de 50% de acerto, indicando espaço para melhorias

Lançamento e distribuição

  • O MAI-Code-1-Flash é o novo modelo de codificação da Microsoft criado para suporte rápido e eficiente a desenvolvedores no dia a dia
  • Foi construído pela Microsoft de ponta a ponta e usa dados limpos e devidamente licenciados
  • Está sendo distribuído para usuários individuais do GitHub Copilot no VS Code, podendo ser usado no seletor de modelos e sob o Auto picker padrão
  • Não é necessária configuração adicional; conforme a distribuição avança, o GitHub Copilot encaminhará tarefas para o MAI-Code-1-Flash por meio do Auto picker ou o exibirá diretamente no seletor de modelos
  • O feedback será recebido na GitHub Community

Projeto centrado no fluxo de trabalho do desenvolvedor

  • O MAI-Code-1-Flash não foi criado apenas para otimização em benchmarks, mas com foco nos fluxos de trabalho de produção usados diariamente por desenvolvedores
  • Foi treinado diretamente com o harness do GitHub Copilot usado em ambientes de produção, sendo projetado para aprender a lidar com ferramentas e sistemas ao redor em tarefas de codificação agentic
  • Durante o treinamento, checkpoints foram avaliados com tarefas centrais de engenharia de software, perguntas e respostas sobre repositórios, refatoração e tarefas baseadas em telemetria adaptadas do uso real do GitHub Copilot
  • O objetivo de projeto é alinhar treinamento, avaliação e ambiente de produção para que melhorias offline se traduzam em qualidade real para desenvolvedores

Eficiência de tokens e forma de resposta

  • Ele aprendeu controle adaptativo do tamanho da solução, ajustando a profundidade da resposta de acordo com a dificuldade da tarefa
  • Responde de forma concisa a pedidos simples e usa mais orçamento de raciocínio em problemas que exigem análise mais profunda ou mudanças mais amplas no código
  • Com isso, desenvolvedores podem começar a ver saídas úteis mais rapidamente
  • O MAI-Code-1-Flash resolve problemas mais difíceis com até 60% menos tokens, buscando reduzir latência, cortar custos, melhorar o retorno por token e oferecer fluxos de trabalho conversacionais mais fluidos

Resultados em benchmarks de codificação

  • A Microsoft avaliou o MAI-Code-1-Flash e o Claude Haiku 4.5 com o mesmo harness de produção em SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual e Terminal Bench 2
  • A avaliação mediu a taxa de sucesso das tarefas e o número médio de tokens de solução necessários para concluir cada tarefa
  • O MAI-Code-1-Flash registrou taxa de aprovação superior à do Claude Haiku 4.5 em todos os 4 benchmarks centrais de codificação testados
  • Nas diversas tarefas reais do SWE-Bench Pro, abriu 16 pontos de vantagem, com 51,2% contra 35,2%
  • No SWE-Bench Verified, mostrou que precisão e eficiência podem melhorar ao mesmo tempo ao resolver problemas mais difíceis com até 60% menos tokens

Seguimento de instruções, raciocínio e limitações

  • O MAI-Code-1-Flash ficou à frente do Claude Haiku 4.5 em todos os benchmarks mostrados na tabela, com a maior diferença no seguimento preciso de instruções do IF Bench, onde marcou +28,9
  • Na avaliação baseada em rubrica do Advanced IF, apresentou a menor diferença, de +14,5
  • O forte desempenho em seguimento de instruções também se estende ao uso agentic de ferramentas
  • Também superou o Claude Haiku 4.5 em capacidades centrais de raciocínio em matemática, ciências e codificação para geração visual
  • Como benchmarks padrão podem recompensar memorização tanto quanto raciocínio, um modelo que viu o problema de Monty Hall pode acertar a resposta, mas falhar se os prêmios forem invertidos
  • A Microsoft criou um benchmark com 186 questões e 34 categorias focado em armadilhas adversariais como inverted classics, impossible tasks e underdetermined scenarios
  • O MAI-Code-1-Flash superou o Claude Haiku 4.5 nesse benchmark adversarial no geral e alcançou 85,8% de acurácia ajustada
  • Mostrou desempenho especialmente forte em raciocínio, seguimento de instruções e reconhecimento de problemas impossíveis, mas categorias adversariais centrais como Einstellung trap ainda ficaram abaixo de 50% de acerto, deixando espaço para melhorias

1 comentários

 
GN⁺ 2 시간 전
Comentários do Hacker News
  • Segundo o model card, este é um modelo de 137B parâmetros no total
    O desempenho não parece tão bom: MAI-Code-1-Flash (137B-A5B) faz 51% no SWE-bench pro, enquanto o Qwen3.6-35B-A3B faz 49,5% no SWE-bench pro (https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
    Comparam com Claude Haiku, mas o Haiku não é um bom modelo, e fica atrás até de modelos abertos pequenos que podem ser executados localmente ou via API por cerca de 10% do custo

    • O ponto principal parece ser que este modelo é um modelo pequeno para competir com o Haiku, e espero que depois venha um concorrente de nível "Sonnet" e, em seguida, um de nível Opus
      Eu me perguntava por que a Microsoft demorava tanto para oferecer modelos próprios no Copilot, e isso me faz pensar que talvez fosse parte do contrato com a OpenAI
    • Se é 137B-A5B, então não é um modelo de 5B parâmetros como o título anterior dava a entender
  • É um bom começo e a concorrência é bem-vinda, mas quase nunca usei modelos pequenos de nuvem como o Haiku 4.5 para programação
    Eles são até bonitinhos, mas em programação séria muitas vezes desperdiçam meu tempo caro, e isso não me faria voltar para o GitHub Copilot, que cancelei ontem
    Até ontem o GitHub Copilot era competitivo em preço, mas mudou para um sistema de cotas por token entre os mais caros, com cobrança por solicitação. Se quiser rir, é só ver o subreddit em chamas: https://www.reddit.com/r/GithubCopilot
    Depois disso, troquei para o DeepSeek Flash high, que é quase grátis e está no nível Sonnet+, e se eu precisar de um modelo mais inteligente, provavelmente vou assinar o Codex por US$ 20/mês para usar o GPT 5.5, que considero o melhor disponível no momento

    • Eu organizo o trabalho do modelo grande como um grafo de tarefas ordenado topologicamente, atribuo modelos pequenos a cada tarefa de acordo com a complexidade, e então deixo o modelo grande avaliar e corrigir onde for necessário
      Nesse método, uso o Haiku com bastante frequência em tarefas do dia a dia, e até tarefas de alta complexidade que levam várias horas podem ser resolvidas com resultados melhores e custo muito menor. O orquestrador-pai organiza bem as tarefas, revisa a qualidade e integra onde for necessário, realizando um enorme volume de trabalho dentro de uma única janela de contexto
      Eu não uso o Haiku diretamente, mas ele muitas vezes representa 30% a 40% do uso de tokens em tarefas grandes. Tanto o tempo de conclusão quanto o custo melhoram, e o Haiku é melhor em seguir instruções e planos de forma literal, sem “reinterpretá-los”, enquanto modelos de nível Opus tendem a continuar duvidando e fazendo perguntas no meio do raciocínio
      Então o Haiku não é perda de tempo, e sim uma enorme economia de tempo. Dito isso, para chegar a esse ponto primeiro gastei muito tempo criando um sistema de orquestração e depois iterando e melhorando continuamente. Curiosamente, minha experiência trabalhando como diretor e depois como distinguished engineer me deu as ferramentas para fazer isso rodar de forma estável até o fim, e um fluxo multiagente com capacidades variadas não é tão diferente da dinâmica de uma organização com mil engenheiros
    • Ao fazer benchmark de vários modelos para encontrar bugs de segurança difíceis, minha confiança no Haiku e no Sonnet despencou nesse processo
      O Qwen 3.6 27B auto-hospedado superou os dois de forma consistente na detecção de bugs de segurança, e isso foi um resultado bastante chocante. Eu achava que o Qwen seria do nível do Haiku ou um pouco pior, e certamente bem pior que o Sonnet
      DeepSeek e MiMo se saem muito melhor que Haiku e Sonnet, custam só uma fração disso e ficam mais próximos do nível Opus/GPT 5.5
      A menos que você os receba de graça ou incluídos numa assinatura que normalmente nem usa toda, quase não vejo motivo para usar Haiku ou Sonnet
    • Situação quase idêntica. O DeepSeek quase não recusava nada e, graças aos valores chineses, havia muito menos atrito em engenharia reversa, busca de arquivos com copyright e trabalho com código-fonte de procedência duvidosa
      Mesmo se baixassem o preço do Copilot em 90%, acho que eu não voltaria
    • Isso parece estar na faixa de Qwen 3.6, Gemma 4 e Nemotron 3 Super
      Há muitos modelos competitivos em nível semelhante ao Haiku, inclusive alguns muito menores e mais baratos, como o Qwen 3.6 35B-A3B. Dá para rodar essas coisas num notebook, então não há necessidade de alugar da Microsoft
      Fiquei assustado com a nova fatura do Copilot, mas para quem quer permanecer no ecossistema ainda pode ser uma opção utilizável; para a maioria, porém, sobram alternativas melhores
    • O plano ChatGPT de US$ 20 por mês incluir o Codex tem um ótimo custo-benefício
      Mesmo só com o ChatGPT premium já dá para se virar, e embora eu bata no limite de uso regularmente, ainda assim consigo fazer a maior parte do trabalho
  • Alguém realmente usa modelos pequenos para programar? Se sim, tenho curiosidade de saber como usam
    Normalmente faço tudo com o Opus. Queria ouvir a opinião de quem já testou dos dois jeitos: usar um modelo mais pesado para planejamento/design/arquitetura e delegar tarefas estruturadas a esses modelos menores, ou comparar os dois diretamente

    • No trabalho uso o Opus 4.x, e em casa uso esses modelos “pequenos” (20~80B, 3~4B ativos)
      Infelizmente, ainda não dá para comparar
      Com o Opus, dá para trabalhar com confiança em design, propostas de arquitetura e alterações de código mesmo em codebases complexas
      Os modelos pequenos passam mais a sensação de que estão “tentando”. Servem para tarefas pequenas, mas em tarefas complexas muitas vezes acabam dando mais trabalho do que fazer diretamente
      Queria que fosse diferente, e talvez daqui a 1~2 anos seja
    • Usar um modelo mais pesado para planejamento/design/arquitetura e deixar o trabalho estruturado para um modelo pequeno sempre foi assim
      O claude code tem o opusplan: no modo de planejamento usa Opus, e na execução muda para Sonnet
      https://code.claude.com/docs/en/model-config#opusplan-model-...
      Edit: também dá para configurar planejamento com Sonnet e execução com Haiku, ou qualquer outra combinação desejada
      https://code.claude.com/docs/en/model-config#control-the-mod...
    • O Haiku é bem barato e não costuma estragar tudo, então eu o usava no plano antigo do Copilot para programação interativa em projetos existentes
      Para funcionalidades simples, eu não fazia um plano completo. Escrevia um pouco de código e, com um prompt curto de uma linha, dizia ao modelo o que ele precisava fazer. Às vezes colocava comentários temporários no código para orientar a direção
      Em geral, se a alteração fica dentro de um arquivo ou pacote, o Haiku consegue seguir o pedido e não bagunça tanto. Com o tempo, também desenvolvi habilidade para dar direção. Houve meses em que, usando o GitHub Copilot, eu tentava gastar às pressas os créditos que sobravam no fim do mês
      Só o autocompletar de código com IA já pode ser bem útil. Às vezes basta escrever em um comentário temporário o que o código deve fazer e apertar Tab-Tab-Tab para uma função inteira aparecer pronta
      As pessoas tendem a ir para modelos mais avançados porque acham que vão estragar menos, mas se você realmente entende o código, costuma ser mais fácil trabalhar de forma interativa com um modelo inferior
    • Separar a execução das mudanças como uma responsabilidade à parte
      Defino o chat principal como o Opus, que atua como “orquestrador”, estabeleço o objetivo e faço com que ele empurre os seguintes subagentes em sequência até chegar lá
      1. Execução da etapa (Sonnet): trabalha por 30 minutos/100k tokens seguindo as instruções do orquestrador
      2. Revisão (Opus): verifica minuciosamente erros e fidelidade às instruções no trabalho da etapa anterior, corrige o que for necessário e registra em arquivo oportunidades de melhorar a configuração do agente + ferramentas para reduzir erros e uso de tokens
      3. Autoaperfeiçoamento (Opus): implementa os itens de autoaperfeiçoamento de maior impacto que não exigem intervenção do usuário
        Repetição: segue até esgotar o orçamento de tokens da sessão do orquestrador. Dá para definir algo como 1M
        A lógica básica é manter cada etapa em um tamanho administrável para aumentar a aderência às instruções e reduzir custos. Tokens em cache também custam. Tokens de prompt são muito mais baratos que tokens gerados, então sai bem mais em conta fazer o Opus revisar principalmente, em vez de liderar tudo
        A etapa de autoaperfeiçoamento é muito cara, mas as melhorias se acumulam. Se você vai rodar um trabalho por dias ou semanas, não fazer isso sai muito mais caro
        Edit: faço isso tanto no Claude Code com modelos da Anthropic quanto offline com modelos da linha Qwen
    • O próprio Claude Code também sobe muitos subagentes com Haiku
      Esse modelo tem baixa taxa de alucinação, então é bom para tarefas de exploração, e acho que o melhor uso do modelo daqui seria parecido. Muitas tarefas lançam vários agentes de exploração antes de planejar ou editar, e depois terminam com só algumas chamadas de ferramenta, então o consumo de tokens também é alto
  • Estão comparando esse modelo ao Haiku 4.5
    Não é com o Opus nem com o Sonnet, e sim com o Haiku, o menor modelo da Anthropic — e ainda por cima uma versão de 3 gerações atrás

    • O 4.5 ainda é o Haiku mais recente
  • Por que todo mundo reimplementa o scroll da janela de um jeito tão desastroso?

    • Provavelmente foi feito por vibe coding. Eu bloqueio isso com o StopTheMadness
    • Foi tão gritante que fechei na hora
  • É muito estranho que os benchmarks ainda estejam tão baixos e, mesmo assim, o modelo seja vendido como se fosse revolucionário
    Se a ideia é que baixa capacidade de programação não seja um problema, então isso precisa ser visto junto com o aumento no preço por token e a configuração de modelo “genérico”
    Por que não vender isso como um agente de matemática? Por que eu preciso configurar 4 agentes para verificar o trabalho uns dos outros?

    • Pelo que entendi, ao contrário de outros modelos, o modelo MAI ainda não foi ajustado com um dataset sintético projetado especificamente para inflar pontuações de benchmark
    • A questão central é a relação desempenho/preço
      Para 5B de parâmetros, aquela pontuação é bem boa, e até pouco tempo atrás seria algo quase inacreditável
      Modelos pequenos vão continuar melhorando, e imagino que os modelos de ponta na nuvem também vão encolher
      Esse é mais um motivo para achar que a expansão massiva da infraestrutura atual vai acabar parecendo ferrovia
  • O post de apresentação no blog tem muito mais informação
    https://microsoft.ai/news/introducingmai-code-1-flash/
    E também tem o model card
    https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF
    O “5B ativo” do título parece vir de um anúncio mais amplo sobre 7 modelos MAI
    https://microsoft.ai/news/building-a-hillclimbing-machine-la...

  • Era preciso lembrar novamente para que tipo de coisa o Haiku foi feito desde o início
    A Anthropic nem vinha fazendo tanto esforço de marketing com o Haiku recentemente
    Se precisa de um modelo leve, usa o Sonnet. No plano Max, ele sai quase de graça e é bem rápido. Em programação geral, é difícil ver onde o Haiku se encaixa
    O Haiku parece ser um modelo para quando é preciso resumo/classificação em grande escala
    A Microsoft usar o Haiku como referência é colocar a barra bem baixa

    • Dizer “quase de graça no plano Max” é uma contradição engraçada
  • Eu queria que testassem o site no Safari
    Quase todo usuário de iOS usa Safari por padrão, e a experiência no desktop também é bem parecida com a do mobile, então é fácil testar
    Esse efeito de rolagem trava completamente no meu ambiente. Entendo que no Chrome/Edge funcione bem

    • No Firefox + macOS também claramente tem algo como sequestro de rolagem, e a sensação é horrível
  • Se tivesse sido lançado ontem, talvez desse para evitar que a seleção automática de modelo do Copilot usasse um modelo 9x e torrasse silenciosamente a cota mensal inteira em uma única tarde