4 pontos por GN⁺ 2025-09-28 | 1 comentários | Compartilhar no WhatsApp
  • O Windows ML foi lançado oficialmente, padronizando a inferência on-device em CPU, GPU e NPU, além do gerenciamento de modelos e dependências, melhorando a eficiência da implantação em produção
  • Em meio ao fluxo de IA híbrida que combina nuvem e cliente, o Windows 11 passa a oferecer, no nível do sistema operacional, um runtime unificado de IA para inferência local
  • Com compatibilidade com ONNX Runtime e distribuição automática de Execution Providers (EPs), ele abstrai otimizações específicas de hardware e oferece suporte a redução do tamanho dos apps e atualizações incrementais
  • Em colaboração com AMD, Intel, NVIDIA e Qualcomm, o Windows distribui e registra os EPs de cada empresa, além de oferecer segmentação detalhada, como definição de políticas de dispositivo para energia/desempenho
  • Vem incluído por padrão no Windows App SDK 1.8.1+ e no Windows 11 24H2 ou superior, com onboarding simplificado por ferramentas como AI Toolkit for VS Code e AI Dev Gallery

Visão geral: objetivo e posição do Windows ML

  • O Windows ML é um runtime de inferência de IA on-device integrado ao Windows 11, com a proposta de ser a camada padrão de inferência local na era da IA híbrida
    • Ele funciona como a camada base do Windows AI Foundry e oferece suporte ampliado a silício por meio do Foundry Local
    • Busca reduzir custos, latência e problemas de privacidade da nuvem, oferecendo uma experiência focada em tempo real, segurança e eficiência

Composição do runtime: ONNX, EP e modelo de distribuição

  • compatibilidade com ONNX Runtime (ORT), permitindo reaproveitar APIs e fluxos de trabalho existentes do ORT
    • O Windows assume a distribuição e manutenção do ORT e dos Execution Providers, eliminando a necessidade de empacotá-los no app
    • Os EPs funcionam como uma ponte de otimização entre o runtime e o silício; cada fornecedor os desenvolve e mantém, enquanto o Windows faz o download e registro dinâmicos
  • A infraestrutura oferece três vantagens: simplificação da implantação, redução de overhead e manutenção da compatibilidade
    • Detecta e instala automaticamente o EP adequado para o dispositivo, gerando economia de dezenas a centenas de MB no tamanho do app
    • Com processos de certificação e conformidade, busca manter a precisão entre builds ao mesmo tempo em que incorpora atualizações contínuas
  • O Advanced Silicon Targeting permite definir políticas de dispositivo para NPU (baixo consumo) e GPU (alto desempenho), entre outros
    • Também oferece a opção de AOT (compilação antecipada) do modelo para simplificar a experiência final do usuário

Otimizações dos parceiros de silício

  • AMD: integração do Windows ML em toda a linha Ryzen AI, com aceleração via Vitis AI EP para NPU, GPU e CPU, mirando experiências locais de IA escaláveis
  • Intel: EP combinado com OpenVINO para seleção otimizada de XPU (CPU, GPU e NPU), com foco em melhorar eficiência e desempenho em PCs com Core Ultra
  • NVIDIA: TensorRT for RTX EP usa a biblioteca Tensor Core dedicada às GPUs RTX para gerar motores de inferência otimizados para cada dispositivo
    • A empresa afirma aceleração de inferência de mais de 50% em relação ao DirectML e destaca a facilidade de implantação para mais de 100 milhões de dispositivos Windows RTX
  • Qualcomm Technologies: no Snapdragon X Series, o QNN EP acelera a NPU, com suporte também a caminhos de GPU e CPU por integração com ORT
    • A empresa declara intenção de expandir o framework unificado para Copilot+ PC e para a próxima geração Snapdragon X2

Casos de adoção no ecossistema

  • Adobe Premiere Pro / After Effects: aceleração local em NPU para busca de mídia, marcação de áudio e detecção de cenas, com plano de migrar gradualmente mais modelos on-device para o Windows ML
  • BUFFERZONE: análise de páginas da web em tempo real para prevenção de phishing/fraude, oferecendo um cenário de segurança em que não é necessário enviar dados sensíveis à nuvem
  • Reincubate Camo: melhora da qualidade de vídeo com visão computacional em tempo real, incluindo segmentação de imagem, aproveitando o caminho de NPU em todos os silícios
  • Dot Vista (Dot Inc.): aplica controle por voz hands-free e OCR a cenários de acessibilidade, como ambientes médicos, usando a NPU de Copilot+ PC
  • Wondershare Filmora: pré-visualização e aplicação em tempo real de Body Effects (Lightning Twined, Neon Ring etc.) otimizadas para NPUs de AMD, Intel e Qualcomm
  • McAfee: aplica inferência local em detecção de deepfake e golpes, reforçando a resposta a ambientes de redes sociais
  • Topaz Photo: oferece recursos profissionais de melhoria de fotos com IA, como nitidez e restauração de foco, por inferência local

Ferramentas para desenvolvedores e onboarding

  • O AI Toolkit for VS Code centraliza conversão de PyTorch para ONNX, além de quantização, otimização, compilação e avaliação
    • O objetivo é um build único voltado ao Windows ML, minimizando lógica de ramificação para múltiplos alvos
  • Na AI Dev Gallery, é possível explorar exemplos de modelos personalizados de forma interativa
    • Ela oferece um workspace adequado para explorar cenários de IA com modelos locais e prototipagem rápida

Requisitos iniciais e alvo de implantação

  • O Windows App SDK 1.8.1+ inclui o Windows ML e oferece suporte a dispositivos com Windows 11 24H2 ou superior
    • Após atualizar para a versão mais recente do Windows App SDK, há um caminho simples: chamar a API do Windows ML → carregar o modelo ONNX → iniciar a inferência
    • A documentação detalhada, APIs e exemplos são indicados nos caminhos ms/TryWinML e ms/ai-dev-gallery

Significado técnico e implicações

  • Ao assumir o gerenciamento do ciclo de vida de ORT e EPs, o sistema operacional estabelece uma estrutura em que os apps podem se concentrar em modelos e lógica leve de inferência
    • Ao absorver a fragmentação de hardware e automatizar a otimização de desempenho e energia, reduz a complexidade de desenvolvimento e implantação do ponto de vista de usabilidade
  • Ao oferecer tanto um design com prioridade para NPU quanto um caminho de alto desempenho via GPU, cria a base de IA local para atender exigências de offline, privacidade e custo
    • Também apresenta um modelo operacional que busca consistência de precisão por meio das diferenças de propriedades e desempenho dos EPs dos fornecedores e de certificação/conformidade do Windows
  • Do ponto de vista do ecossistema, apps representativos dos domínios de vídeo, segurança, acessibilidade e criação já sinalizam adoção, indicando expansão da superfície de IA local
    • Para desenvolvedores, espera-se ganho de velocidade de produto com um pipeline de preparo do modelo (conversão/quantização) → definição de política de EP → automação da implantação

Pontos de atenção e limitações

  • A gestão da qualidade de otimização dos EPs e da variação de desempenho/precisão entre dispositivos será o principal desafio
    • Serão necessárias estratégias de cache e atualização para AOT de modelos e distribuição dinâmica de EPs, além de gerenciamento de releases para manter a compatibilidade
  • A sobreposição e divisão de papéis com DirectML existente, SDKs dos fornecedores e runtimes multiplataforma influenciarão decisões de arquitetura
    • Para linhas de produto com múltiplos sistemas operacionais como alvo, será preciso avaliar o trade-off entre um núcleo de inferência comum e um caminho dedicado ao Windows

Conclusão

  • O lançamento oficial do Windows ML marca um ponto de transição gradual para tornar o Windows 11 o ambiente básico de execução de IA local
    • Com abstração de hardware, automação da implantação e integração das ferramentas, ele reduz a barreira de productização e fornece a base para reforçar responsividade, privacidade e eficiência de custo ao maximizar o uso de NPU/GPU
    • À medida que a adoção por apps de referência e as otimizações de EP dos fornecedores avancem, a IA on-device em todo o ecossistema Windows tende a se expandir rapidamente

1 comentários

 
GN⁺ 2025-09-28
Comentários do Hacker News
  • O Ollama começou com uma proposta open source de “rodar modelos localmente de forma simples”, mas recentemente vem ampliando seu escopo com recursos como busca na web paga, o que passa a impressão de que essa pureza se perdeu; em contrapartida, o Windows ML busca uma integração profunda com o sistema operacional, mas por ficar restrito ao ecossistema Windows lembra o DirectX; agora, o ponto importante é saber se haverá alternativas além de vLLM/ONNX ou de rodar diretamente em CUDA/ROCm, ou se no fim isso será apenas trocar uma dependência de fornecedor por outra
    • O Ollama está focado em LLMs (grandes modelos de linguagem); vendo exemplos variados como o Topaz Photo, da Topaz Labs, mencionado no texto, vale notar que a direção dessa tecnologia é diferente
  • O System ONNX pode ser bastante atraente do ponto de vista de aplicativos para Windows, mas isso parte do pressuposto de que o backend realmente funcione de forma confiável na maioria dos sistemas; por exemplo, no caso da AMD existem três opções — ROCm, MIGraphX e Vitis —, mas nunca consegui fazer nenhuma delas funcionar direito; como o MIGraphX não aparece mais marcado como experimental, estou pensando em tentar de novo
  • Fico curioso para saber qual dos dois é realmente mais simples na prática: Windows ML ou o modelo do Ollama + download local de LLM; em especial, do ponto de vista de privacidade, tenho curiosidade sobre quanto dos dados pessoais é enviado à Microsoft ao usar o Windows ML
    • O Windows ML abstrai o código para que ele não fique preso a um hardware específico, permitindo usar modelos LLM locais em diferentes tipos de hardware, como CPU, GPU e NPU; essa tecnologia é uma evolução do antigo DirectML (DirectX for ML)
    • O Ollama não oferece suporte a NPU
  • Fico em dúvida sobre como serão suportadas camadas personalizadas, especialmente as várias versões adotadas por muitas empresas, como (flash) attention; se a MS ainda não implementou esse recurso no runtime, será que certos modelos não poderão ser executados, ou só poderão ser usados em versões modificadas?
  • A descrição de que “o Windows ML é um runtime de inferência de IA integrado, otimizado para inferência de modelos no dispositivo, e facilita para desenvolvedores iniciantes e experientes criarem aplicativos com IA” faz este anúncio soar bastante parecido com o anúncio recente da Apple de “abrir para todos os desenvolvedores o acesso ao LLM no dispositivo que é o núcleo do Apple Intelligence”
    Junto com os novos recursos do Apple Intelligence, revelados recentemente pela Apple, acho que no fim qualquer dispositivo passa a ser uma situação ganha-ganha, em que tanto desenvolvedores quanto consumidores podem criar e usar apps com foco em privacidade
    • Este Windows ML é uma evolução do Direct ML; considerando os problemas anteriores de ser muito inclinado a C++, como no DirectX, agora C#, C++ e Python também poderão usar essa nova API por meio de projeções WinRT
    • Eu não vejo como sendo a mesma coisa; o ponto central deste anúncio do Windows ML está mais próximo de “é possível rodar qualquer modelo”