Integrando o Claude ao Apple Foundation Models
(platform.claude.com)- Um pacote Swift que conecta o framework Foundation Models da Apple ao Claude como modelo server-side, permitindo que desenvolvedores chamem o Claude pelo mesmo caminho de código usado para o modelo on-device da Apple
- Graças ao protocolo
LanguageModelintroduzido pela Apple na WWDC 2026, tornou-se possível usar uma arquitetura híbrida com uma única API padrão: prototipar com o modelo on-device e enviar apenas tarefas complexas para um modelo em nuvem - O ponto central é a capacidade de trocar de provedor: sem mexer na lógica da sessão, é possível alternar entre Apple, Claude e Gemini apenas mudando a dependência do Swift Package
- Esse pacote, publicado pela Anthropic sob Apache 2.0, é o primeiro exemplo funcional na prática daquela ideia de “conectar qualquer backend”
- As requisições vão direto do app para a API do Claude, e a Apple não fica no caminho, portanto não vê prompts nem respostas; os custos também são cobrados diretamente na conta da Anthropic
Por que isso importa
- Para conectar modelos de linguagem a apps iOS, até agora era necessário cadastro em APIs de nuvem separadas, gerenciamento de chaves, cobrança por token e envio de todos os prompts para fora do dispositivo; na WWDC 2026, a Apple resolveu esse incômodo de longa data
- O framework Foundation Models foi expandido para chamar, por meio de uma única API nativa em Swift, tanto os modelos on-device do Apple Intelligence quanto o Private Cloud Compute e nuvens de terceiros como Claude e Gemini
- A Anthropic publicou um pacote Swift que implementa esse novo protocolo. Ele serve para receber o fluxo vindo do modelo on-device da Apple e acionar o Claude para processar workflows mais complexos
O que muda para desenvolvedores
-
Troca de provedor sem alterar código
- Depois de prototipar o app com o modelo on-device da Apple, tarefas como rotear consultas complexas para o Google Gemini ou Anthropic Claude, ou alternar entre eles, podem ser feitas apenas atualizando a dependência no Swift Package Manager, sem mudar a lógica da sessão nem o restante do código do app
- O modelo on-device fica com tarefas rápidas e locais, como resumo e extração; o handoff para o Claude ocorre apenas quando há necessidade de raciocínio em múltiplas etapas, geração de código, busca na web ou execução de código
- Em ambos os casos, a API é a mesma,
LanguageModelSession, então a troca exige apenas substituir o argumentomodel:
-
Handoff baseado em tipos
- Após adicionar ao projeto e entrar com a chave de API da Anthropic, é possível passar a saída tipada do modelo on-device da Apple para uma requisição do Claude, e o pacote processa streaming, chamadas de ferramentas e respostas estruturadas de volta para a view em SwiftUI
- O uso é simples a ponto de, com geração guiada, retornar valores Swift tipados com apenas três linhas de código
Estrutura de privacidade e custos
- As requisições são enviadas diretamente do app para a API do Claude, então a Apple não participa do caminho da requisição e não vê prompts nem respostas
- O uso é cobrado diretamente na conta da Anthropic com os preços padrão da API
- O próprio app decide, a cada sessão, se usará o Claude ou o modelo on-device da Apple
O panorama maior
- A Apple planeja transformar em open source neste verão o framework Foundation Models, sua API nativa em Swift para modelos on-device lançada em 2025; com o novo protocolo LanguageModel, seja um modelo da própria Apple ou um provedor remoto, quase qualquer modelo pode operar o LanguageModelSession por trás de uma única API Swift
- Como exemplo concreto dessa ideia de “conectar qualquer backend”, o ClaudeForFoundationModels da Anthropic materializa o padrão adapter
- Com o sistema Dynamic Profiles, a Apple permite que apps troquem modelo, ferramentas e instruções no meio da sessão, posicionando isso como base para workflows multiagente
- Ainda assim, essa integração está em beta e exige iOS, iPadOS, macOS, visionOS, watchOS 27 e Xcode 27, então a API ainda pode mudar antes do lançamento oficial
1 comentários
Comentários do Hacker News
A Apple está controlando a experiência do usuário enquanto transforma os LLMs em commodity
Como uma empresa de hardware, a estratégia parece ser continuar vendendo as melhores máquinas para usar IA, e isso parece uma boa escolha
Elas investem bilhões de dólares em infraestrutura, mas o valor acaba ficando com outras empresas nas camadas mais acima
As empresas que não se adaptarem vão acabar apanhando de scrapers web caseiros baseados em IA feitos pelas pessoas, até finalmente cederem
Talvez faça sentido falar em transformar LLM em commodity, mas isso já é uma funcionalidade voltada ao usuário que vem sendo refinada há anos
Um pacote Swift que permite usar o Claude como modelo de linguagem no servidor dentro do
Apple's Foundation Models framework; eu esperava justamente o contrário. Eu queria que os recursos já existentes do Claude Code de algum jeito rodassem localmente no Neural Engine do meu notebookCom um M2 e 8GB de RAM isso é um sonho impossível, mas por um instante fiquei esperançoso
https://developer.apple.com/videos/play/wwdc2026/232/
https://www.youtube.com/watch?v=wykPErJ8M-8
Mas, na prática, você acaba recebendo o Claude hospedado em algum lugar desconhecido. Pode ser em um datacenter da xAI, em algum lugar da Amazon, ninguém sabe
Isso não é exclusivo do Claude. Os desenvolvedores também podem criar apps que chamam os modelos Gemini baseados em servidor do Google
Na WWDC, a Apple anunciou que abriria o Foundation Models framework para provedores terceirizados de modelos em nuvem. A partir do iOS 27, macOS 27, iPadOS 27, visionOS 27 e watchOS 27, os provedores de modelos poderão implementar o novo protocolo público
LanguageModelpara oferecer uma interface comum para inferência de modelos. O Google disponibilizou os modelos Gemini no Foundation Models framework por meio do Firebase Apple SDKIsso permite uma experiência de desenvolvimento totalmente nativa. Modelos Gemini hospedados na nuvem podem se conectar diretamente ao Foundation Models framework pela mesma API, e como os modelos da Apple no dispositivo e os modelos Gemini hospedados na nuvem ficam atrás de uma superfície de API comum, fica fácil alternar entre inferência local e inferência em nuvem conforme o caso de uso
https://blog.google/innovation-and-ai/technology/developers-...
language model protocol, e antes que sejamos amaldiçoados por essa expressão terrivelmente longa, todo mundo deveria se unir em torno disso o quanto antesFico feliz que a Apple tenha introduzido esse tipo de abstração, mas a principal preocupação é com o lado dos modelos locais
Por exemplo, mesmo que você queira usar o Gemma 4, do ponto de vista do usuário, se 10 apps baixarem o mesmo modelo separadamente, o celular incha sem necessidade
Ainda não entendi se a Apple forneceu uma forma de vários apps usarem o mesmo modelo no dispositivo. Isso precisa ser possível sem truques complicados de namespace ou permissões
Não vi nada que sugerisse isso
Isso estaria errado enquanto os modelos no dispositivo ainda estiverem muito atrás, mas no longo prazo talvez continue fazendo sentido
Vários apps que eu uso podem precisar do Gemma 4 E4B, mas eu uso dezenas de apps e os desenvolvedores podem escolher entre centenas de modelos. Um cache compartilhado até pode economizar um pouco de espaço quando houver sobreposição, mas o problema central continua. Se cada app escolher seu próprio modelo, disco e swapping de memória explodem
Há uma boa chance de ser melhor o fabricante do dispositivo embutir um padrão. Não estou dizendo que se deva impedir o uso de outros modelos, mas um padrão compartilhado pode ser a melhor escolha, para a experiência de desenvolvedor e de usuário, em 99% dos apps
O maior ganho de desempenho é o modelo já estar carregado na memória, e o modelo padrão tem muito mais chance de permanecer aquecido
O “melhor modelo” normalmente é “o melhor modelo para este dispositivo”, considerando RAM e capacidade de processamento. O desenvolvedor não consegue testar todos os aparelhos, mas a Apple consegue e vai fazer isso
Cada modelo precisa ser otimizado para o hardware. Importa onde cada parte roda, se no ANE, no Metal ou na CPU, e o modelo padrão será otimizado
Se você precisa de um modelo personalizado, LoRA provavelmente é o ideal. Tem algo em torno de 30 MB e ainda aproveita todas as vantagens acima
Dá para argumentar que o padrão deveria ser substituível, mas isso está mais próximo de um ideal estilo Linux do que da Apple, então duvido que veremos isso na prática. E também há desvantagens reais. Querendo ou não, os prompts acabam sendo otimizados para o modelo-alvo do desenvolvimento, então trocar o modelo padrão do sistema pode piorar a qualidade de todos os apps
https://developer.apple.com/videos/play/wwdc2026/339
Fiquei pensando se a Apple está incentivando os desenvolvedores a usar LLMs por meio da sua própria camada de abstração de API. Pode ser uma forma de facilitar uma transição suave para os desenvolvedores caso ela lance seu próprio LLM no futuro
Acho que ouvi dizer que a Apple está gastando muito dinheiro em treinamento e que isso pode se conectar de alguma forma com a Siri ou com a Apple AI atual. Ou talvez seja só uma conveniência para desenvolvedores; fico curioso se há alguma outra intenção
Se você valoriza privacidade, faz sentido haver valor na Apple ficar no meio
O ponto central desse framework é permitir mirar, com a mesma API, no modelo embutido no dispositivo, no modelo online hospedado pela Apple chamado Private Cloud Computer, ou em um shim próprio para qualquer modelo online hospedado arbitrariamente
Assim, em vez de criar sua própria camada de abstração do tipo “isso quero usar com um modelo local, aquilo quero usar com o Claude” ou integrar diretamente APIs da Anthropic/OpenAI, você pode usar a API do sistema para rotear chamadas dinamicamente para diferentes tipos de modelo/provedor
Há várias conveniências e peculiaridades, como abstrair chamadas de ferramentas em um único lugar e manter o mesmo
transcriptao trocar dinamicamente de provedor ou modelo durante uma sessãoComo essa API só pode ser usada em dispositivos Apple, isso também fragmenta o mercado e prende mais os usuários, porque para fazer algo funcionar direito no iOS o desenvolvedor acaba sem poder usar o mesmo sistema em outros lugares
Parece que a Apple está se preparando para o caso de seus modelos no dispositivo melhorarem, o que faz sentido considerando que passou a ter acesso ao Gemini
Se os desenvolvedores escreverem todo o código de chamadas para LLMs externos usando isso, quando os modelos da Apple ficarem mais competentes e cobrirem mais casos de uso, será fácil trocar em cada ponto de chamada. Isso melhora a experiência do usuário do app e também reduz os custos de cobrança dos desenvolvedores, dos quais a Apple não recebe comissão
A Apple é uma empresa, e todos sabemos com o que empresas se importam, então parece improvável um cenário utópico em que modelos locais rodem no celular
Não é à toa que Microsoft e Nvidia estão se aliando
Fico curioso sobre como isso é realmente usado em software distribuído para usuários. Pedir que o próprio usuário crie e insira uma chave de API é uma barreira alta demais para uma boa experiência de uso
A estrutura de “pagar um valor sem saber quanto vai custar uma pergunta, podendo não receber a resposta desejada, e ter de pagar mais se quiser usar mais” não é atraente para a maioria das pessoas que não são apostadoras. Explicar para o usuário médio que um “obrigado” no fim de uma conversa longa pode sair caro por causa do contexto é ainda mais difícil de engolir
Também não ajuda que o custo por token oscile feito ioiô. Usuários comuns precisam de custo fixo e não querem gastar energia acompanhando continuamente o ecossistema de IA. Problemas como “no mês passado minha assinatura durava muito mais” também não apontam para uma boa direção
Na maioria dos casos, acho que a avaliação da Apple de que LLMs locais são o futuro está correta
Ainda não entendo completamente os termos da Anthropic. Dá para inserir algo como
setup-token Set up a long-lived authentication token (requires Claude subscription), mas isso parece uma armadilha. Não sei quem usaria isso e fico pensando se usar em qualquer lugar não seria uma violação imediata dos termosHoje, no allihat.com, se a pessoa não quiser usar uma chave do Claude, eu deixo usar o modelo local da Apple, e a taxa de conversão para usuários pagos subiu cerca de 3 vezes. Mas obviamente isso não substitui o Claude. Eu esperava que a Apple criasse algum mecanismo para fazer o papel de proxy do Claude. Assim eu também não precisaria passar pelo meu servidor só para gerenciar o uso da API do Claude
.proxiedpara rotear as requisições pelo seu próprio backendA Apple está oferecendo modelos de IA gratuitos via seus próprios servidores para desenvolvedores com menos de 2 milhões de downloads https://techcrunch.com/2026/06/08/apple-bets-cheaper-ai-will...
Entendo que a frase “As requisições vão diretamente do app para a API do Claude; a Apple não está no caminho da requisição e não vê os prompts nem as respostas” é do ponto de vista do desenvolvedor
Mas, do ponto de vista do consumidor, isso é simplesmente engraçado
A Microsoft começou a bagunçar o jogo primeiro ao colocar nos termos do Copilot que ele é fornecido apenas para fins de entretenimento, e ao incluir no Copilot para Excel o aviso de “evite usar o COPILOT para tarefas que exijam precisão ou reprodutibilidade, ou que tenham impacto legal, regulatório ou de compliance”
Em seguida, a Apple está recusando discretamente participar, sem investir dezenas ou centenas de bilhões de dólares para criar um LLM concorrente. Claro, ela revende o Claude ou aproveita o Gemini para os ingênuos, mas a Apple sabe como estão as coisas
https://www.microsoft.com/en-us/microsoft-copilot/for-indivi...
https://support.microsoft.com/en-US/Excel/copilot-function
O próprio agente de programação já é uma camada imposta à força, então agora vamos adicionar mais uma camada? Muitas vezes, agentes de programação parecem gerentes de fornecedor de consultorias de terceirização dos anos 90
Prometem ao cliente tudo o que existe sob o céu e depois pressionam o pobre contratado para entregar. Agentes de programação consomem 10 vezes mais tokens, como a diferença entre o valor que a consultoria cobra do cliente e o que paga ao contratado. Num teste simples, uma mesma tarefa em que o modelo estoura o limite de contexto ao passar pelo agente de programação funciona bem quando se faz o prompt diretamente
Camadas são um luxo e eliminam controle e transparência