A IA local precisa virar o padrão
(unix.foo)- Tornou-se comum integrar APIs da OpenAI ou da Anthropic às funcionalidades dos apps, mas depender de modelos de IA hospedados na nuvem faz com que o recurso pare de funcionar por causa de indisponibilidade do servidor ou problemas de pagamento, além de aumentar o peso das questões de privacidade
- Dispositivos modernos têm grande capacidade de processamento on-device, como a Neural Engine, mas na maior parte do tempo ela fica ociosa enquanto o app espera resposta do servidor
- Por exemplo, com o framework FoundationModels da Apple, é possível implementar diretamente no dispositivo recursos de IA como resumo, classificação e extração, sem servidor
- O cliente nativo para iOS do The Brutalist Report gera resumos de artigos on-device usando a API de modelos locais da Apple, evitando o servidor e eliminando a necessidade de prompts e logs de usuário, contas de fornecedor e notas de rodapé sobre retenção de conteúdo
- Modelos locais podem não ser tão inteligentes quanto os modelos de nuvem, mas podem ser suficientes para tarefas de transformação de dados como resumir, classificar, extrair, reescrever e normalizar; modelos de nuvem devem ser usados só quando forem realmente necessários
Problemas da dependência de IA na nuvem
- Está se espalhando a tendência de desenvolvedores adicionarem chamadas de API da OpenAI ou Anthropic sem critério às funcionalidades dos apps
- Essa abordagem torna o software frágil, invasivo para a privacidade e fundamentalmente instável
- É uma arquitetura em que o app para de funcionar se houver indisponibilidade do servidor ou expiração do cartão de crédito
- No momento em que o conteúdo do usuário é transmitido para um provedor terceirizado de IA, a própria natureza do produto muda
- Isso traz junto questões de retenção de dados, consentimento, auditoria, vazamentos, solicitações governamentais e uso em dados de treinamento
- A stack passa a depender do estado da rede, da disponibilidade do fornecedor externo, de rate limit, da cobrança da conta e do estado do próprio backend
- No fim, uma única funcionalidade de UX vira um sistema distribuído com custo
- Enviar para a nuvem algo que poderia ser processado localmente é um tiro no pé
Por que faz sentido usar o dispositivo local
- Hoje, o silício no bolso das pessoas é incomparavelmente mais rápido do que há 10 anos, e a Neural Engine dedicada fica ociosa na maior parte do tempo
- Enquanto isso, continua-se esperando uma resposta JSON de um server farm na Virgínia, o que é irracional
- O objetivo não deveria ser "AI everywhere", e sim software útil
- Se uma funcionalidade pode ser processada localmente, escolher uma dependência externa já é um dano desnecessário
Resumo on-device no The Brutalist Report
- O The Brutalist Report é um serviço agregador de notícias inspirado em sites no estilo dos anos 1990
- Ao criar recentemente seu cliente nativo para iOS, a meta de design foi preservar uma experiência de leitura de notícias densa em informação
- O cliente iOS inclui uma lista de manchetes com alto contraste, um modo leitor que remove elementos que tornaram a web mais difícil de ler e uma visualização “intelligence” para resumir artigos opcionalmente
- O ponto central é que os resumos são gerados on-device por meio da API de modelos locais da Apple
- Não há necessidade de servidor intermediário, prompts ou logs de usuário, contas de fornecedor nem notas do tipo “armazenamos o conteúdo por 30 dias”
- A ideia de que todo uso de IA acontece no lado do servidor se tornou natural demais, e será preciso um esforço de toda a indústria para reverter isso
- Alguns casos de uso exigem a inteligência que só modelos hospedados na nuvem conseguem oferecer, mas nem todos exigem isso, então é preciso julgar com cuidado
Ferramentas de IA local no ecossistema Apple
- No ecossistema Apple, ao longo do último ano, houve investimento para facilitar que desenvolvedores aproveitem modelos locais embutidos de IA
- O fluxo básico é importar
FoundationModels, verificar a disponibilidade deSystemLanguageModel.defaulte então montar um prompt comLanguageModelSessionpara receber a respostaimport FoundationModels let model = SystemLanguageModel.default guard model.availability == .available else { return } let session = LanguageModelSession { """ Provide a brutalist, information-dense summary in Markdown format. - Use **bold** for key concepts. - Use bullet points for facts. - No fluff. Just facts. """ } let response = try await session.respond(options: .init(maximumResponseTokens: 1_000)) { articleText } let markdown = response.content - Para conteúdo longo, é possível dividir o texto simples em blocos de cerca de 10 mil caracteres, gerar em cada bloco notas concisas no estilo “facts only” e depois combinar o resumo final em uma segunda passada
- Esse tipo de tarefa combina bem com modelos locais
- Os dados de entrada já estão no dispositivo, porque são o conteúdo que o usuário já está lendo
- A saída é leve
- O processamento é rápido e privado
- A tarefa é resumir uma página que o usuário acabou de abrir, não gerar novo conhecimento sobre o mundo, então não exige inteligência sobre-humana
- A IA local brilha quando o papel do modelo não é vasculhar o universo inteiro, e sim transformar dados que pertencem ao usuário
Como se constrói confiança
- Recursos de IA como resumo de e-mails, extração de tarefas a partir de notas e classificação de documentos são coisas que as pessoas querem, mas nas quais não conseguem confiar
- A abordagem típica em nuvem transforma todos esses recursos em uma questão de confiança: “pode enviar os dados para o servidor?”
- A IA local muda essa estrutura ao processar ali mesmo os dados que já estão no dispositivo
- A confiança do usuário não é criada com uma política de privacidade de 2.000 palavras
- A confiança surge ao construir algo que nem precise dessa política de privacidade
Saída estruturada e IA baseada em tipos
- Uma das boas decisões recentes da Apple foi mover a “AI output” de um bloco de texto sem estrutura para dados tipados
- Em vez de “pedir JSON ao modelo e torcer para que venha certo”, um padrão mais novo e melhor é definir uma Swift
structque represente o resultado desejado - Dá-se orientação em linguagem natural para cada campo, e o modelo gera uma instância daquele tipo
import FoundationModels @Generable struct ArticleIntel { @Guide(description: "One sentence. No hype.") var tldr: String @Guide(description: "3–7 bullets. Facts only.") var bullets: [String] @Guide(description: "Comma-separated keywords.") var keywords: [String] } let session = LanguageModelSession() let response = try await session.respond( to: "Extract structured notes from the article.", generating: ArticleIntel.self ) { articleText } let intel = response.content - Com isso, a UI não precisa raspar bullets de Markdown nem torcer para que o modelo tenha lembrado do schema JSON
- O app pode receber tipos reais com campos reais e renderizá-los com consistência
- Isso produz saída estruturada que o app realmente consegue usar, e todo esse processo roda localmente
- Não é apenas uma interface conveniente, mas uma melhora na qualidade de engenharia
- É a diferença que permite que a IA funcione em um app local-first não como “um recurso legal”, mas como “um subsistema confiável”
Contestando a ideia de que “modelos locais são menos inteligentes”
- É verdade que modelos locais não são tão inteligentes quanto modelos de nuvem, mas isso não se aplica à maioria das funcionalidades de apps
- O que a maioria dessas funções exige não é escrever Shakespeare nem explicar mecânica quântica, e sim executar com confiabilidade uma destas tarefas: resumir, classificar, extrair, reescrever ou normalizar
- Para esse tipo de trabalho, os modelos locais são bons o suficiente
- Se você usar um modelo local como substituto para toda a internet, vai se frustrar; mas, se usá-lo como um “transformador de dados” dentro do app, vai se perguntar por que isso estava sendo enviado ao servidor
- Modelos de nuvem devem ser usados só quando realmente forem necessários, e os dados do usuário devem permanecer onde estão
- Ao usar IA, não se deve apenas encaixar uma caixa de chat, mas aproveitá-la como um subsistema real com saída tipada e comportamento previsível
Privacidade e construção de confiança
- Há muitos recursos de IA — como resumo de e-mails, extração de itens de ação de notas e classificação de documentos — que as pessoas querem, mas não confiam
- A abordagem em nuvem transforma tudo isso em um experimento de confiança: "envie seus dados para o servidor, nós vamos tratá-los bem"
- A IA local muda isso de forma fundamental — os dados já estão no dispositivo e são processados na hora no próprio aparelho
- A confiança não é construída escrevendo uma política de privacidade de 2.000 palavras, mas sim criando desde o início uma estrutura que não precise de uma política dessas
1 comentários
Opiniões no Hacker News
A forma como os usuários mainstream veem IA local hoje é parecida com a forma como viam software de código aberto algumas décadas atrás
Em alguns produtos, as soluções pagas estavam muito à frente, então o open source frequentemente era completamente ignorado, num clima de “pra quê se dar ao trabalho?”
Depois surgiram SaaS e plataformas que criam dependência, e agora está bem claro que esse julgamento estava, em grande parte, errado
Na programação, a dependência de Anthropic e OpenAI é absurda, mas muita gente não se importa ou só torce para que a China não pare de liberar pesos abertos
O modelo de negócios de pesos abertos é muito novo, mistura disputa de poder entre Estados e institutos de pesquisa, e há uma quantidade ridícula de dinheiro circulando sem supervisão prática da maioria das pessoas
No momento, um valor enorme está aberto para quase todo mundo, mas isso é uma aposta perigosa que pode parar sem qualquer aviso por motivos fora do nosso controle
Para 95% dos usos, eles já bastam, e não têm prazo de validade
O “risco” seria não poder usar o modelo da próxima geração, e isso parece ter impacto muito baixo
Na melhor das hipóteses, serve como propaganda para vender modelos mais avançados
A grande diferença em relação ao open source é que você não consegue treinar um LLM só com tempo livre e boa vontade
São necessários muitos dados e uma quantidade enorme de computação
Nesse ponto, espero estar errado, e gostaria muito mais de um futuro voltado a pesos abertos
IA local deve ser tratada como um produto separado, e se você fizer localmente aquilo que realmente não precisa de IA na nuvem, usando a IA na nuvem só como alternativa, os custos devem cair bastante
Como foi feita com impostos, pode acabar sendo publicada como open source, e a NSA tem décadas de dados da internet, então, se treinarem com isso, pesos abertos podem ficar tão bons quanto os modelos de alguma empresa
Pensando em remoção de fundo de fotos ou OCR de PDF, quase ninguém paga por um serviço para esse tipo de uso cotidiano
Esse momento vai chegar, e não está tão longe assim
A direção já está definida. No começo, só dava para rodar LLMs bons em grandes datacenters, e agora já chegamos claramente ao nível de vários servidores com algumas H100 instaladas, caminhando cada vez mais para “MacBook Pro ou Strix Halo com 128GB de VRAM”
Dentro de um ano, nas empresas, o padrão será “planejar com um LLM remoto caro e executar com um LLM local lento, mas mais rápido que humanos”, e gradualmente isso vai virar “fazer tudo com LLM local já basta”
No fim, surge um equilíbrio parecido com a nuvem tradicional: você hospeda por conta própria ou paga por flexibilidade e velocidade
A questão é até que ponto a hospedagem local vai acabar com o atual superaquecimento por recursos computacionais e o que isso significará para o mercado
Estou rodando Qwen e Gemma quantizados em um PC gamer razoável de 3 anos atrás, algo como uma RTX 3080 12GB e 32GB de RAM
É lento e a janela de contexto é pequena, mas, com o ambiente de execução certo, dá para vasculhar e classificar fotos de viagem
Dá para fazer OCR de recibos, resumir gastos, responder perguntas simples, analisar código e também escrever código quando não é preciso muito contexto
Se eu me dedicar à integração com o VS Code, acho que até daria para montar um autocompletar aceitável
Vejo “MacBook Pro ou Strix Halo com 128GB de VRAM” como a configuração mínima viável para programação no estilo agente
Só que, no momento, a economia está invertida. A versão em nuvem é várias ordens de magnitude mais barata do que hospedar por conta própria, porque o compartilhamento permite um aproveitamento muito maior dos servidores
Se uma empresa gastar US$ 500 mil em equipamento para rodar GLM 5.1, ela ganha segurança de dados, flexibilidade e ausência de censura, mas fica caro demais comparado ao preço por assento da Anthropic
No post logo algumas linhas abaixo, estavam surtando porque o Chrome colocou um modelo LLM local que usa alguns GB de espaço para inferência local
Ou seja, se fizer, reclamam; se não fizer, reclamam também
Fiz isso recentemente para brincar com geração de imagem
As pessoas não estão irritadas com a instalação de modelo local em si, mas com a falta de autonomia do usuário
É só não instalar silenciosamente e dar a opção de baixar o modelo ou não
Não é difícil, e é assim que todas as outras opções locais funcionam
Se não for opt-in ou se for enfiado à força no navegador, é ruim mesmo
Ninguém fica indignado porque um app que roda LLM local baixa os dados de que precisa
Este comentário trata a natureza da discussão de forma bem desonesta
Acho que a discussão sobre IA privada e a discussão sobre IA local precisam ser separadas
A opção realista para rodar LLMs grandes é um ou vários servidores grandes online, mas isso não significa que só empresas privadas devam operá-los
Garantias fortes de isolamento entre tenants, idealmente zero trust, e uma solução de inferência self-hosted com implantação e manutenção fáceis, algo como um Plex para IA, seriam uma opção voltada à privacidade
Honestamente, não pesquisei nada sobre isso e nem sei o quanto é viável. Talvez isso já exista e eu só precise entrar no servidor de Discord certo
E, embora talvez nem precisasse dizer isso aqui, o surpreendente é que os modelos abertos já estão próximos dos melhores modelos comerciais, então dá para dizer que a parte mais difícil já foi em grande parte resolvida
Usa computação confidencial da NVIDIA, o código do enclave é open source e, ao conectar, ele é validado por atestação remota, provando criptograficamente que o provedor de inferência não pode ver nenhum dado
Tinfoil: https://tinfoil.sh/ é um bom exemplo. Divulgação de interesse: sou cofundador
Dá para ler mais sobre como funciona aqui: https://docs.tinfoil.sh/verification/verification-in-tinfoil
Dizer que os modelos abertos já estão próximos dos melhores modelos comerciais é, em tarefas específicas, em grande parte verdade
Por exemplo, interfaces de chat já têm dificuldade para aproveitar bem uma inteligência de modelo superior ao nível oferecido pelos melhores modelos open source
Mas ambientes de execução para programação ainda se beneficiam de maior inteligência de modelo, especialmente porque, em casos como claude-code ou codex, o ambiente de execução do provedor e a interface de chamada de ferramentas do modelo são ajustados em conjunto via reinforcement learning, e isso é outro motivo para haver diferença de desempenho mesmo controlando a inteligência do modelo
O fundador do opencode, um ambiente open source de execução para programação com suporte a vários provedores de modelo, também comentou recentemente como é difícil ajustar bem o ambiente para cada provedor: https://x.com/thdxr/status/2053290393727324313
O exemplo do texto reforça o que eu penso: para modelos locais terem sucesso, eles não precisam ser grandes o bastante para competir com os modelos de ponta, só precisam ser bons o suficiente
Precisam fazer bem tarefas pequenas e rodar de forma razoável em dispositivos de consumo
Melhor ainda se rodarem em celular
Ao experimentar LLMs locais, achei que aumentar o tamanho do modelo ajuda, mas o fator que realmente transformou modelos quase inúteis em algo útil foi a capacidade de usar ferramentas
Permitir busca na web e captura de páginas ajudou muito mais a reduzir alucinações do que usar um modelo maior, além de não haver o problema da data de corte do treinamento
Claro, modelos maiores podem usar ferramentas melhor, mas modelos pequenos muitas vezes já foram suficientes
Fiz uma demo do que a nova Prompt API do Chrome, que usa modelos locais, consegue fazer: https://adsm.dev/posts/prompt-api/#what-could-you-build-with...
Ela brilha em ambientes limitados onde transforma dados que pertencem ao usuário, como no post original
Para tarefas mais abertas, é claramente menos útil
Ela é ok, mas realmente fraca
Os modelos 8B de um ano atrás já eram melhores em alguns aspectos, e os modelos lançados mais recentemente ficaram significativamente melhores
Não dá sem modelo local nem sem página web
Enquanto todo o resto arca com eletricidade e desgaste de hardware, o fornecedor ganha mais e melhores ferramentas de exploração publicitária e vigilância mais baratas
Espetacular
Os atores já estabelecidos vão fazer de tudo para impedir o avanço do local, mas há alguns motivos técnicos para acreditar que modelos pequenos e especializados podem acabar virando o padrão
Se isso acontecer, o local virá junto
O texto original foca em saber se aquilo que os usuários querem exige modelos grandes
Mas também há argumentos de que modelos grandes talvez nunca se tornem confiáveis o suficiente na prática, a menos que a) a interpretabilidade mecanística amadureça bastante ou b) sistemas multiagente deixem de ser todos multimodelo
No caso de a), os avanços em interpretabilidade mecanística podem corrigir problemas dos modelos grandes, mas também podem permitir obter representações integradas e recortar apenas as partes úteis de modelos gigantes
Seria pegar só o necessário e descartar o resto, reduzindo custos e a superfície de problemas
Precisa só de lógica? Só de visão? Basta recortar aquela parte do monstrengo gigante
A capacidade de isolar problemas dificilmente vem sem a capacidade de isolar subsistemas funcionais
No caso de b), basta olhar para vetores maliciosos ou categorias de alucinação especializadas em uso de ferramentas
Se não houver uma solução completa para alinhamento útil/honesto/inofensivo, então criatividade e rigor, entre muitos outros fatores, provavelmente entram em conflito de forma fundamental
Se, no fim das contas, todo trabalho já exigir vários modelos, por que precisar de um modelo universal gigante e caro
Assim, a especialização também pressiona tudo em direção ao menor conjunto possível de modelos especialistas confiáveis
Minha preocupação com LLMs, deixando de lado o aspecto filosófico e os impactos econômicos, é que parece difícil treinar modelos funcionais localmente
Até dá para fazer LLMs de brinquedo, mas algo realmente útil parece difícil
Não só exige uma capacidade computacional enorme, como também datasets em sua maioria obtidos ilegalmente
Talvez eu pessoalmente não seja tão inteligente assim, mas, para adquirir a inteligência que tenho hoje, não precisei aprender a partir de todos os livros já escritos, todos os artigos da Wikipedia, todos os posts de blog, todos os manuais de referência e todas as linhas de código já produzidas
Na verdade, não aprendi nem 1% disso, nem 0,00000000001%
Está claro que texto em si não é pré-requisito para inteligência
No mínimo, se eu cheguei perto de inteligência só observando casualmente o mundo ao meu redor por uns 20 anos, isso é um forte indício de que o “dataset” necessário são apenas os sensores e o mundo ao redor
Claro, o cérebro humano não começa do zero; houve milhões de anos de evolução para criar o terreno em que a inteligência pudesse se enraizar
Mas essa estrutura básica é bem geral e não parece depender de um conjunto específico de treinamento
Talvez também seja possível evoluí-la artificialmente
Se o modelo base der suporte ao meu idioma, há uma boa chance de eu conseguir treinar alguns LoRAs por mês com a sobra de computação dos eletrônicos que já tenho
No futuro, quando computadores domésticos comuns tiverem a capacidade dos servidores atuais, também será possível treinar LLMs completos em casa
Não tenho como participar de nada sobre com o que ele foi treinado, como os dados de treino foram rotulados, que guardrails existem ou quais vieses pode ter
Assim como em todo o resto, surgirão grandes fabricantes de LLMs, pequenos fabricantes de LLMs, artesãos de LLM, entusiastas de LLM e consumidores de LLM
Há bastantes casos de uso em que uma pessoa, ou um uso não comercial, consegue obter os dados de treino necessários
A partir daí, vira uma questão de computação e tempo para treinar, e, se você estiver disposto a esperar, dá para criar modelos úteis com hardware de consumo
Faz sentido dizer “use modelos em nuvem só quando realmente precisar”, mas o problema é que é muito mais fácil usar modelos de ponta subsidiados do que gastar tempo ajustando a configuração de um modelo local
Acabei de perceber isso com agentes de programação
Talvez nem sempre precise usar a versão mais nova em xhigh, mas no fim acabo fazendo isso
Porque o trabalho termina em menos tempo, com menos esforço e por praticamente o mesmo preço
Acho que só veremos um esforço sério em direção à IA local quando os principais fornecedores começarem a cobrar com base no uso real de tokens
Eu deixo abertas umas 8 abas de provedores com plano grátis, e ChatGPT, Claude e Gemini ficam no lado de ponta
Não tenho problema nenhum em levar um até o limite e depois passar para o próximo
Posso ficar o dia inteiro assim, fazendo com que implementem funções ou classes específicas do meu código
Como eu realmente sei escrever e projetar software, não preciso ficar repetindo agentes para tentar gerar tudo em um dia
Só com chatbot web e copiar/colar já consigo gerar milhares de linhas de código por hora, mantendo um forte modelo mental do código e alterando eu mesmo o que precisar
Fiz isso hoje de manhã em um projeto Python
Como fui eu que projetei o que precisava, cada geração consistia em pedir uma única função e, quando precisei acrescentar algo pela manhã, nem perguntei ao chatbot: fui direto ao lugar certo e corrigi manualmente
Quando você gera tudo a partir da especificação inteira, não consegue fazer isso
Especialmente quando o preço esconde o custo real
Sempre que aparece um post sobre LLM, há muitos comentários afirmando com convicção que conseguem resultados tão bons quanto Opus com os DeepSeek/Qwen mais recentes etc., mas minha experiência está longe disso
Modelos open source desmoronam completamente em comparação com Claude quando você pede qualquer coisa minimamente complexa
Fico suspeitando que não estamos numa situação parecida com a do Linux nos anos 90
Funcionava até certo ponto, mas estava longe de estar pronto para usuários domésticos, e havia muita gente insistindo na sua cara que estava tudo bem principalmente por motivos ideológicos
As pessoas estão realmente tentando criar o “melhor software possível”
Os aceleracionistas quixotescos da IA são uma minoria barulhenta entre quem faz software, e escolher APIs online em vez de sistemas locais geralmente não é preguiça de desenvolvedor, mas uma escolha em favor do usuário
Hoje, dá para fazer mais coisas e fazer melhor com IA privada do que com modelos locais
Isso é inevitável
Mesmo que a IA local melhore, o que está na fronteira do desempenho de LLMs muitas vezes continua valendo o investimento
A maioria das pessoas não adota um produto a menos que ele seja de altíssimo nível e extremamente conveniente
Esse padrão é alto, e a IA local frequentemente não o atende
A insistência do HN em tratar todos os usuários como fanáticos por open source, privacidade em primeiro lugar e Linux self-hosted é constrangedoramente antiquada