Framework Core AI da Apple
(developer.apple.com)- Core AI é um novo framework para executar, otimizar e implantar modelos de IA dentro de apps no Apple silicon
- Usa CPU, GPU e o Neural Engine, e permite integrar inferência de
.aimodelao app com APIs em Swift - Converte modelos PyTorch em modelos Core AI e fornece uma cadeia de ferramentas para compressão, depuração e pré-compilação
- Modelos grandes exigem specialization antes da execução, então é importante projetar bem o fluxo de download, cache e primeira execução
- Também apresenta fluxos de otimização on-device para visão, linguagem e cache de estado com exemplos de SAM 3, Qwen e Transformer
Papel do Core AI
- O Core AI é um novo conjunto de tecnologias para execução de IA on-device em toda a plataforma Apple
- Suporta iOS 27.0+ Beta, iPadOS 27.0+ Beta, macOS 27.0+ Beta, tvOS 27.0+ Beta, visionOS 27.0+ Beta e watchOS 27.0+ Beta
- Oferece uma arquitetura para executar inferência de IA de alto desempenho dentro do app sem enviar dados do usuário para fora do dispositivo
- O Core AI não é apenas uma API de execução, mas cobre desde a preparação do modelo até a integração no app
- Oferece otimização de modelos, conversão de PyTorch, geração de
.aimodel, depuração, profiling no Xcode e pré-compilação - Para modelos que não são redes neurais, como decision tree ou modelos tabulares com feature engineering, o indicado é usar Core ML
- Oferece otimização de modelos, conversão de PyTorch, geração de
Fluxo de desenvolvimento: de PyTorch até apps em Swift
- O Core AI conecta o workflow do PyTorch existente ao fluxo de implantação no Apple silicon
- Usa
torch.exportpara converter o modelo PyTorch em um exported program - Usa
TorchConverterdas Core AI PyTorch Extensions para gerar um.aimodel - Aplica compressão e otimizações para Apple silicon com Core AI Optimization
- Usa
- Em apps Swift, a nova API do Core AI Framework é usada para carregar modelos e executar inferência
AIModelcarrega arquivos.aimodele inspeciona funções de inferênciaInferenceFunctioné um único grafo computacional executávelNDArrayé o tipo que armazena dados multidimensionais de entrada e saída- A estrutura usa chamadas
runpara enviar entradasNDArraye receber os resultados da inferência
- No Xcode, é possível inspecionar diretamente arquivos
.aimodel- Dá para verificar tamanho do modelo, distribuição de operações, metadados e assinaturas de funções
- Dimensões de shape dinâmico aparecem como
?
Otimização de desempenho: state, cache e layout de memória
- Em estruturas como modelos Transformer, nas quais a sequência de entrada cresce, o tempo de inferência pode aumentar progressivamente
- No exemplo do Snake, ao executar as duas cobras totalmente por modelos de IA, o jogo foi ficando mais lento com o tempo
- No Core AI Instruments, foi possível ver que o trecho de inferência ficava cada vez mais longo
- O Core AI permite implementar estruturas como key/value cache usando state
- O estado é uma entrada do modelo, lida durante a inferência e atualizada in-place
- Chaves e valores da etapa anterior são armazenados em cache sem precisar recalcular
- Isso evita ter de reenviar todo o histórico do jogo como entrada a cada vez
- No lado do Swift, passa-se uma coleção de mutable views no argumento
statesdeInferenceFunction.run- O modelo atualizado mantém velocidade estável mesmo com o passar do tempo
- No Instruments, o aumento da latência de inferência também fica muito mais lento
- O Core AI também oferece controle de memória para reduzir o overhead do loop de inferência
- É possível verificar o layout de memória ideal de
NDArraye alocar nesse formato - Também é possível pré-alocar valores de saída para evitar novas alocações durante a inferência
- Valores assíncronos podem ser usados para fazer pipeline entre várias funções de inferência
- É possível verificar o layout de memória ideal de
Implantação do modelo: download, specialization e pré-compilação
- Modelos Core AI são uma representação-fonte que pode rodar em todos os dispositivos Apple, mas precisam de specialization por dispositivo antes da execução real
- Ao carregar o modelo, o sistema verifica se já existe no cache um resultado especializado
- Se não existir, gera um artifact de execução adequado ao dispositivo e à versão do sistema operacional
- Como a specialization de modelos grandes pode levar tempo, é importante não colocá-la no meio da interação do usuário
- No exemplo do SAM 3, na primeira execução o spinner ficou visível por bastante tempo por causa do carregamento do modelo e de um grande evento de specialization
- Foi proposto um fluxo em que o modelo é baixado com Background Assets apenas quando o usuário decide testar o recurso na tela de apresentação
- Com o comando
coreai-build, é possível realizar parte da compilação antecipadamente na máquina de desenvolvimento- Gera um compiled model para uma arquitetura de dispositivo específica
- A specialization ainda é necessária no dispositivo do usuário, mas o trabalho restante diminui e o tempo de preparação fica menor
- Com
AIModelCache, é possível controlar o cache de modelos por código- Remover itens desnecessários
- Controlar políticas de retenção
- Compartilhar cache entre vários apps do mesmo app group
Otimização e depuração de modelos
- O Core AI Optimization oferece compressão de modelos e quantização
- Suporta compressão de pesos em INT4, INT8, FP4 e FP8
- Fornece APIs de quantização com calibration data ou quantization aware training
- No exemplo do SAM 3, o asset baseline em 32 bits tinha mais de 3 GB, e após compressão para 4 bits ficou em cerca de 430 MB
- Ao aplicar compressão agressiva em todas as camadas, uma flor ocluída deixou de ser detectada
- Só olhando a saída, era difícil descobrir qual camada causava o problema
- O Core AI Debugger compara valores internos do modelo convertido com os do modelo PyTorch original
- Visualiza a estrutura do modelo como um grafo
- Permite inspecionar valores de tensores intermediários
- Permite rastrear até linhas específicas do código-fonte em Python
- Destaca operações com grandes diferenças com base em PSNR
- Na comparação do SAM 3, a maior parte dos sync points com PSNR baixo apareceu no detector decoder
- O bloco detector representa apenas 4% dos parâmetros totais, então o ganho de compressão ali é pequeno
- Ao excluir o detector da quantização, todas as flores voltaram a ser detectadas e a qualidade baseline foi recuperada
Core AI Models e APIs de alto nível
- O repositório Core AI Models fornece modelos populares e export recipes que podem ser convertidos e otimizados para o app
- É possível encontrar modelos da família SAM 3 e Qwen e convertê-los para Core AI
- Pacotes Swift abstraem o pré-processamento e o pós-processamento de cada modelo
- Modelos de segmentação como o SAM 3 podem ser usados com
CoreAIImageSegmenter- Segmenta objetos com prompts de texto
- Permite extrair máscaras com APIs Swift sem lidar diretamente com raw tensor shapes
- Modelos de linguagem como Qwen podem ser carregados com
CoreAILanguageModel- Abstrai asset loading, engine creation e tokenizer setup
- Pode ser usado em conjunto com
LanguageModelSessiondeFoundationModels - Permite usar respostas em streaming e saída estruturada baseada em
@Generable
Pontos que merecem atenção dos desenvolvedores
- O Core AI é um sistema de implantação de IA on-device mais amplo do que uma simples “API para executar modelos no app”
- Inclui o fluxo para converter modelos PyTorch em
.aimodelpara Apple silicon - Oferece APIs para executar modelos com segurança e eficiência em apps Swift
- Permite diagnosticar desempenho e precisão com Xcode, Instruments e Debugger
- Inclui o fluxo para converter modelos PyTorch em
- No projeto do app, mais do que o modelo em si, o processo de preparação tem grande impacto na experiência do usuário
- É preciso decidir se o modelo será empacotado no app ou baixado via Background Assets
- Também é preciso projetar como mostrar download e specialization na primeira execução
- Política de cache e estratégia de pré-compilação afetam diretamente a usabilidade de modelos grandes
- O Core AI apresenta um fluxo de desenvolvimento para lidar on-device com modelos de visão, linguagem e modelos baseados em Transformer nas plataformas Apple
- O exemplo do SAM 3 mostra o fluxo de compressão, separação e depuração de um modelo de segmentação
- O exemplo do Qwen mostra a integração entre um modelo de linguagem customizado e a API Foundation Models
- O exemplo do Snake Transformer mostra a otimização de key/value cache com state
Links de referência
- Apple Core AI Documentation: https://developer.apple.com/documentation/coreai/
- WWDC26: Conhecendo o Core AI: https://www.youtube.com/watch?v=XJFfCVW1UZ0
- WWDC26: Integrando modelos de IA on-device ao app com Core AI: https://www.youtube.com/watch?v=gl5lD2gEhb0
- WWDC26: Análise aprofundada sobre criação e otimização de modelos Core AI: https://www.youtube.com/watch?v=MdlyLT_y3i0
1 comentários
Opiniões do Hacker News
Estou mais animado com a atualização de Foundation Models on-device que deve sair em breve: https://developer.apple.com/documentation/updates/foundation...
Ainda não há muita informação
Mas talvez eu seja tendencioso, já que mantenho https://github.com/Arthur-Ficial/apfel
fm. Ela foi mencionada no Platforms State of the UnionAo executar, o resultado é algo assim: https://gist.github.com/robgough/7893602895e7580117475076198...
Normalmente prefiro software mais fragmentado, mas no caso da Apple há muitos recursos nativos de que gosto
O que mais me atrai é que o software poderá saber que “esta plataforma tem este modelo” e usá-lo em várias tarefas de IA generativa pequenas, e cada vez maiores
Também estou me aprofundando mais em ferramentas locais de programação em estilo agente, começando com
little-coder --model ollama/gemma4:12b-it-qatAté fiz um pequeno livro gratuito que pode economizar alguns minutos de configuração: https://leanpub.com/read/local-coding-agents
Fico bastante irritado com o exagero em torno do crescimento da IA centrado em hyperscalers, especialmente com os custos ambientais e sociais dos datacenters, então apoio totalmente qualquer iniciativa que promova IA local e privada
Agora que oferecem suporte a MCP, também queria ouvir mais sobre a estratégia de conteinerização/seatbelt
Ainda não vi nada sobre como o Darwin está sendo usado dentro do sistema de contêineres da Apple
Apfel é um projeto muito legal, e foi o único motivo que me fez querer atualizar para Tahoe
Vídeos do WWDC 2026 Core AI
Meet Core AI - https://developer.apple.com/videos/play/wwdc2026/324/
Dive into Core AI model authoring and optimization - https://developer.apple.com/videos/play/wwdc2026/325/
Integrate on-device AI models into your app using Core AI - https://developer.apple.com/videos/play/wwdc2026/326/
Isso parece ser uma nova forma de converter modelos PyTorch para um formato que roda em CPU, GPU e Apple Neural Engine (ANE) [0]
Fico me perguntando se isso substitui totalmente a API existente, Core ML [1]
[0]: https://apple.github.io/coreai-optimization/
[1]: https://developer.apple.com/documentation/coreml/
O unsloth é um bom exemplo de algo que faz esse tipo de trabalho em um formato “batteries included”
A Apple precisa explicar melhor até onde vão os prós e contras e a equivalência funcional de cada um
Dizem que apps com menos de 2 milhões de downloads terão acesso gratuito a modelos de nível servidor, com as mesmas garantias de privacidade
Seria bom se isso se expandisse para todos os apps com o tempo. Deve haver limitações de hardware/custo, mas desenvolvedores maiores provavelmente poderiam pagar pelo custo
https://developer.apple.com/private-cloud-compute/
O futuro da IA é claramente local, e recentemente isso tem sido descrito como “tokens infinitos”
Um MacBook Pro com M1 consegue fazer isso, e uma RTX 3090 também
Não há necessidade de pagar centenas de dólares por mês, e o mesmo vale para outras pessoas
Depois de 40 anos, voltamos a uma infraestrutura centralizada mais próxima de terminais inteligentes modernos
O futuro da IA também vai acabar seguindo esse caminho. Provavelmente vai oscilar entre local e centralizado
Ainda assim, se for possível ganhar dinheiro vendendo coisas que as pessoas executam localmente, a centralização parece gerar mais poder e mais dinheiro
Usuários comuns querem modelos de uso geral, então apps de chat com IA vão continuar existindo
A maioria dos programas pode se beneficiar de uma IA especializada que rode localmente, e há muito mais programas do que usuários
A Apple também parece estar trabalhando no lado das ativações. Pelo que sei, é w4a8, w4a16
Se conseguirem fazer isso direito, e essa é uma grande suposição, considerando o alcance de mercado da Apple, isso pode influenciar bastante a forma como modelos com menos de 100 bilhões de parâmetros serão treinados e distribuídos
O principal caso de uso será on-device, e provavelmente mais no macOS do que no iOS
Ainda não vi isso ser muito destacado em lugar nenhum, mas a inferência distribuída entre Macs é interessante. Inclui JACCL sobre Thunderbolt 5,
mlx_lm.servercompatível com OpenAI e execução no estilo agente em MacsA Apple está mantendo o MLX (importação direta de pesos) separado de Foundation Models / Core AI
É por isso que as empresas de IA estão correndo para abrir capital
Até o fim do ano que vem, a maior parte da IA será executada diretamente nos dispositivos
Elas não têm fosso defensável, chegaram ao limite de escala, e a maior parte do que parece mágico pode ser destilada em modelos menores, e elas sabem disso
O fato de o Qwen ter parado de lançar modelos na faixa de 120 bilhões é muito revelador
Dentro de 10 anos, talvez em 3, alguém vai lançar localmente um modelo de 256 bilhões no nível do Opus 4.5
Hoje nossos engenheiros gastam algo como 800 dólares por mês em tokens do Opus, e nessa proporção o prazo de retorno do investimento em um LLM local é de cerca de 10 meses
Infelizmente, modelos maiores ainda parecem continuar sendo melhores
Esse é o meu pedido número um para IA agora. Por favor, Apple
Fico me perguntando se existe algo assim no Linux também
Por exemplo, um desenvolvedor de aplicações poderia assumir que, acima de uma certa versão do kernel, existe algo como um GNU Core AI?
A Apple agora também parece ter chegado a esse ponto, entre Core ML, MLX e Core AI
Não vi nenhum sinal de que o problema da fragmentação de frameworks vá desaparecer tão cedo
A NVIDIA quer que todo mundo faça treinamento e inferência em CUDA, e tenta negar que NPUs sejam úteis
Cada fabricante que faz NPU tem sua própria arquitetura e um framework separado adaptado às limitações herdadas de hardware projetado antes dos LLMs. A maioria também tem outro framework voltado para GPU
Fabricantes de sistemas operacionais também costumam ter um ou dois frameworks que gostariam que fossem usados no lugar dos frameworks específicos de hardware
Fico me perguntando se isso significa poder executar qualquer coisa que se queira na ANE
Da última vez que tentei, parecia que isso só podia ser usado em recursos primários da Apple, como o Face ID
O que não dava para usar a ANE de jeito nenhum era o MLX