13 pontos por GN⁺ 8 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • Tornou-se comum integrar APIs da OpenAI ou da Anthropic às funcionalidades dos apps, mas depender de modelos de IA hospedados na nuvem faz com que o recurso pare de funcionar por causa de indisponibilidade do servidor ou problemas de pagamento, além de aumentar o peso das questões de privacidade
  • Dispositivos modernos têm grande capacidade de processamento on-device, como a Neural Engine, mas na maior parte do tempo ela fica ociosa enquanto o app espera resposta do servidor
  • Por exemplo, com o framework FoundationModels da Apple, é possível implementar diretamente no dispositivo recursos de IA como resumo, classificação e extração, sem servidor
  • O cliente nativo para iOS do The Brutalist Report gera resumos de artigos on-device usando a API de modelos locais da Apple, evitando o servidor e eliminando a necessidade de prompts e logs de usuário, contas de fornecedor e notas de rodapé sobre retenção de conteúdo
  • Modelos locais podem não ser tão inteligentes quanto os modelos de nuvem, mas podem ser suficientes para tarefas de transformação de dados como resumir, classificar, extrair, reescrever e normalizar; modelos de nuvem devem ser usados só quando forem realmente necessários

Problemas da dependência de IA na nuvem

  • Está se espalhando a tendência de desenvolvedores adicionarem chamadas de API da OpenAI ou Anthropic sem critério às funcionalidades dos apps
  • Essa abordagem torna o software frágil, invasivo para a privacidade e fundamentalmente instável
    • É uma arquitetura em que o app para de funcionar se houver indisponibilidade do servidor ou expiração do cartão de crédito
  • No momento em que o conteúdo do usuário é transmitido para um provedor terceirizado de IA, a própria natureza do produto muda
    • Isso traz junto questões de retenção de dados, consentimento, auditoria, vazamentos, solicitações governamentais e uso em dados de treinamento
  • A stack passa a depender do estado da rede, da disponibilidade do fornecedor externo, de rate limit, da cobrança da conta e do estado do próprio backend
  • No fim, uma única funcionalidade de UX vira um sistema distribuído com custo
  • Enviar para a nuvem algo que poderia ser processado localmente é um tiro no pé

Por que faz sentido usar o dispositivo local

  • Hoje, o silício no bolso das pessoas é incomparavelmente mais rápido do que há 10 anos, e a Neural Engine dedicada fica ociosa na maior parte do tempo
    • Enquanto isso, continua-se esperando uma resposta JSON de um server farm na Virgínia, o que é irracional
  • O objetivo não deveria ser "AI everywhere", e sim software útil
  • Se uma funcionalidade pode ser processada localmente, escolher uma dependência externa já é um dano desnecessário

Resumo on-device no The Brutalist Report

  • O The Brutalist Report é um serviço agregador de notícias inspirado em sites no estilo dos anos 1990
  • Ao criar recentemente seu cliente nativo para iOS, a meta de design foi preservar uma experiência de leitura de notícias densa em informação
  • O cliente iOS inclui uma lista de manchetes com alto contraste, um modo leitor que remove elementos que tornaram a web mais difícil de ler e uma visualização “intelligence” para resumir artigos opcionalmente
  • O ponto central é que os resumos são gerados on-device por meio da API de modelos locais da Apple
  • Não há necessidade de servidor intermediário, prompts ou logs de usuário, contas de fornecedor nem notas do tipo “armazenamos o conteúdo por 30 dias”
  • A ideia de que todo uso de IA acontece no lado do servidor se tornou natural demais, e será preciso um esforço de toda a indústria para reverter isso
  • Alguns casos de uso exigem a inteligência que só modelos hospedados na nuvem conseguem oferecer, mas nem todos exigem isso, então é preciso julgar com cuidado

Ferramentas de IA local no ecossistema Apple

  • No ecossistema Apple, ao longo do último ano, houve investimento para facilitar que desenvolvedores aproveitem modelos locais embutidos de IA
  • O fluxo básico é importar FoundationModels, verificar a disponibilidade de SystemLanguageModel.default e então montar um prompt com LanguageModelSession para receber a resposta
    import FoundationModels  
    
    let model = SystemLanguageModel.default  
    guard model.availability == .available else { return }  
    
    let session = LanguageModelSession {  
      """  
      Provide a brutalist, information-dense summary in Markdown format.  
      - Use **bold** for key concepts.  
      - Use bullet points for facts.  
      - No fluff. Just facts.  
      """  
    }  
    
    let response = try await session.respond(options: .init(maximumResponseTokens: 1_000)) {  
      articleText  
    }  
    
    let markdown = response.content  
    
  • Para conteúdo longo, é possível dividir o texto simples em blocos de cerca de 10 mil caracteres, gerar em cada bloco notas concisas no estilo “facts only” e depois combinar o resumo final em uma segunda passada
  • Esse tipo de tarefa combina bem com modelos locais
    • Os dados de entrada já estão no dispositivo, porque são o conteúdo que o usuário já está lendo
    • A saída é leve
    • O processamento é rápido e privado
    • A tarefa é resumir uma página que o usuário acabou de abrir, não gerar novo conhecimento sobre o mundo, então não exige inteligência sobre-humana
  • A IA local brilha quando o papel do modelo não é vasculhar o universo inteiro, e sim transformar dados que pertencem ao usuário

Como se constrói confiança

  • Recursos de IA como resumo de e-mails, extração de tarefas a partir de notas e classificação de documentos são coisas que as pessoas querem, mas nas quais não conseguem confiar
  • A abordagem típica em nuvem transforma todos esses recursos em uma questão de confiança: “pode enviar os dados para o servidor?”
  • A IA local muda essa estrutura ao processar ali mesmo os dados que já estão no dispositivo
  • A confiança do usuário não é criada com uma política de privacidade de 2.000 palavras
  • A confiança surge ao construir algo que nem precise dessa política de privacidade

Saída estruturada e IA baseada em tipos

  • Uma das boas decisões recentes da Apple foi mover a “AI output” de um bloco de texto sem estrutura para dados tipados
  • Em vez de “pedir JSON ao modelo e torcer para que venha certo”, um padrão mais novo e melhor é definir uma Swift struct que represente o resultado desejado
  • Dá-se orientação em linguagem natural para cada campo, e o modelo gera uma instância daquele tipo
    import FoundationModels  
    
    @Generable  
    struct ArticleIntel {  
      @Guide(description: "One sentence. No hype.") var tldr: String  
      @Guide(description: "3–7 bullets. Facts only.") var bullets: [String]  
      @Guide(description: "Comma-separated keywords.") var keywords: [String]  
    }  
    
    let session = LanguageModelSession()  
    let response = try await session.respond(  
      to: "Extract structured notes from the article.",  
      generating: ArticleIntel.self  
    ) {  
      articleText  
    }  
    
    let intel = response.content  
    
  • Com isso, a UI não precisa raspar bullets de Markdown nem torcer para que o modelo tenha lembrado do schema JSON
  • O app pode receber tipos reais com campos reais e renderizá-los com consistência
  • Isso produz saída estruturada que o app realmente consegue usar, e todo esse processo roda localmente
  • Não é apenas uma interface conveniente, mas uma melhora na qualidade de engenharia
  • É a diferença que permite que a IA funcione em um app local-first não como “um recurso legal”, mas como “um subsistema confiável”

Contestando a ideia de que “modelos locais são menos inteligentes”

  • É verdade que modelos locais não são tão inteligentes quanto modelos de nuvem, mas isso não se aplica à maioria das funcionalidades de apps
  • O que a maioria dessas funções exige não é escrever Shakespeare nem explicar mecânica quântica, e sim executar com confiabilidade uma destas tarefas: resumir, classificar, extrair, reescrever ou normalizar
  • Para esse tipo de trabalho, os modelos locais são bons o suficiente
  • Se você usar um modelo local como substituto para toda a internet, vai se frustrar; mas, se usá-lo como um “transformador de dados” dentro do app, vai se perguntar por que isso estava sendo enviado ao servidor
  • Modelos de nuvem devem ser usados só quando realmente forem necessários, e os dados do usuário devem permanecer onde estão
  • Ao usar IA, não se deve apenas encaixar uma caixa de chat, mas aproveitá-la como um subsistema real com saída tipada e comportamento previsível

Privacidade e construção de confiança

  • Há muitos recursos de IA — como resumo de e-mails, extração de itens de ação de notas e classificação de documentos — que as pessoas querem, mas não confiam
  • A abordagem em nuvem transforma tudo isso em um experimento de confiança: "envie seus dados para o servidor, nós vamos tratá-los bem"
  • A IA local muda isso de forma fundamental — os dados já estão no dispositivo e são processados na hora no próprio aparelho
  • A confiança não é construída escrevendo uma política de privacidade de 2.000 palavras, mas sim criando desde o início uma estrutura que não precise de uma política dessas

1 comentários

 
GN⁺ 8 시간 전
Opiniões no Hacker News
  • A forma como os usuários mainstream veem IA local hoje é parecida com a forma como viam software de código aberto algumas décadas atrás
    Em alguns produtos, as soluções pagas estavam muito à frente, então o open source frequentemente era completamente ignorado, num clima de “pra quê se dar ao trabalho?”
    Depois surgiram SaaS e plataformas que criam dependência, e agora está bem claro que esse julgamento estava, em grande parte, errado
    Na programação, a dependência de Anthropic e OpenAI é absurda, mas muita gente não se importa ou só torce para que a China não pare de liberar pesos abertos
    O modelo de negócios de pesos abertos é muito novo, mistura disputa de poder entre Estados e institutos de pesquisa, e há uma quantidade ridícula de dinheiro circulando sem supervisão prática da maioria das pessoas
    No momento, um valor enorme está aberto para quase todo mundo, mas isso é uma aposta perigosa que pode parar sem qualquer aviso por motivos fora do nosso controle

    • Não sei o que impede continuar rodando os melhores LLMs de pesos abertos já lançados em hardware de consumo
      Para 95% dos usos, eles já bastam, e não têm prazo de validade
      O “risco” seria não poder usar o modelo da próxima geração, e isso parece ter impacto muito baixo
    • Não sei qual é o modelo de negócios da IA de pesos abertos e, na prática, acho que ele não existe
      Na melhor das hipóteses, serve como propaganda para vender modelos mais avançados
      A grande diferença em relação ao open source é que você não consegue treinar um LLM só com tempo livre e boa vontade
      São necessários muitos dados e uma quantidade enorme de computação
      Nesse ponto, espero estar errado, e gostaria muito mais de um futuro voltado a pesos abertos
    • Não acho que deva ser uma disputa entre IA local e IA na nuvem
      IA local deve ser tratada como um produto separado, e se você fizer localmente aquilo que realmente não precisa de IA na nuvem, usando a IA na nuvem só como alternativa, os custos devem cair bastante
    • Estou esperando o governo dos EUA criar sua própria IA local
      Como foi feita com impostos, pode acabar sendo publicada como open source, e a NSA tem décadas de dados da internet, então, se treinarem com isso, pesos abertos podem ficar tão bons quanto os modelos de alguma empresa
    • Quando custo vira um fator importante, ou quando uma opção gratuita porém mais fraca se torna atraente e acessível, por exemplo como um agente on-device com experiência de usuário ao estilo Apple, os usuários migram bastante para o lado local
      Pensando em remoção de fundo de fotos ou OCR de PDF, quase ninguém paga por um serviço para esse tipo de uso cotidiano
  • Esse momento vai chegar, e não está tão longe assim
    A direção já está definida. No começo, só dava para rodar LLMs bons em grandes datacenters, e agora já chegamos claramente ao nível de vários servidores com algumas H100 instaladas, caminhando cada vez mais para “MacBook Pro ou Strix Halo com 128GB de VRAM”
    Dentro de um ano, nas empresas, o padrão será “planejar com um LLM remoto caro e executar com um LLM local lento, mas mais rápido que humanos”, e gradualmente isso vai virar “fazer tudo com LLM local já basta”
    No fim, surge um equilíbrio parecido com a nuvem tradicional: você hospeda por conta própria ou paga por flexibilidade e velocidade
    A questão é até que ponto a hospedagem local vai acabar com o atual superaquecimento por recursos computacionais e o que isso significará para o mercado

    • Esse ponto já chegou agora mesmo
      Estou rodando Qwen e Gemma quantizados em um PC gamer razoável de 3 anos atrás, algo como uma RTX 3080 12GB e 32GB de RAM
      É lento e a janela de contexto é pequena, mas, com o ambiente de execução certo, dá para vasculhar e classificar fotos de viagem
      Dá para fazer OCR de recibos, resumir gastos, responder perguntas simples, analisar código e também escrever código quando não é preciso muito contexto
      Se eu me dedicar à integração com o VS Code, acho que até daria para montar um autocompletar aceitável
      Vejo “MacBook Pro ou Strix Halo com 128GB de VRAM” como a configuração mínima viável para programação no estilo agente
      Só que, no momento, a economia está invertida. A versão em nuvem é várias ordens de magnitude mais barata do que hospedar por conta própria, porque o compartilhamento permite um aproveitamento muito maior dos servidores
      Se uma empresa gastar US$ 500 mil em equipamento para rodar GLM 5.1, ela ganha segurança de dados, flexibilidade e ausência de censura, mas fica caro demais comparado ao preço por assento da Anthropic
    • O maior impacto dos modelos locais pode ser simplesmente impedir que a inferência remota seja a única opção
  • No post logo algumas linhas abaixo, estavam surtando porque o Chrome colocou um modelo LLM local que usa alguns GB de espaço para inferência local
    Ou seja, se fizer, reclamam; se não fizer, reclamam também

    • Basta não usar gigabytes de banda e armazenamento sem perguntar
    • Se eu precisar do modelo, vou lá e baixo por conta própria
      Fiz isso recentemente para brincar com geração de imagem
    • Essa é uma leitura meio desonesta
      As pessoas não estão irritadas com a instalação de modelo local em si, mas com a falta de autonomia do usuário
      É só não instalar silenciosamente e dar a opção de baixar o modelo ou não
      Não é difícil, e é assim que todas as outras opções locais funcionam
    • Interpretação estranha
      Se não for opt-in ou se for enfiado à força no navegador, é ruim mesmo
      Ninguém fica indignado porque um app que roda LLM local baixa os dados de que precisa
    • Seria bom ler os comentários para ver do que as pessoas estão realmente reclamando
      Este comentário trata a natureza da discussão de forma bem desonesta
  • Acho que a discussão sobre IA privada e a discussão sobre IA local precisam ser separadas
    A opção realista para rodar LLMs grandes é um ou vários servidores grandes online, mas isso não significa que só empresas privadas devam operá-los
    Garantias fortes de isolamento entre tenants, idealmente zero trust, e uma solução de inferência self-hosted com implantação e manutenção fáceis, algo como um Plex para IA, seriam uma opção voltada à privacidade
    Honestamente, não pesquisei nada sobre isso e nem sei o quanto é viável. Talvez isso já exista e eu só precise entrar no servidor de Discord certo
    E, embora talvez nem precisasse dizer isso aqui, o surpreendente é que os modelos abertos já estão próximos dos melhores modelos comerciais, então dá para dizer que a parte mais difícil já foi em grande parte resolvida

    • Outra opção é inferência privada verificável executando modelos open source dentro de enclaves seguros na nuvem
      Usa computação confidencial da NVIDIA, o código do enclave é open source e, ao conectar, ele é validado por atestação remota, provando criptograficamente que o provedor de inferência não pode ver nenhum dado
      Tinfoil: https://tinfoil.sh/ é um bom exemplo. Divulgação de interesse: sou cofundador
      Dá para ler mais sobre como funciona aqui: https://docs.tinfoil.sh/verification/verification-in-tinfoil
      Dizer que os modelos abertos já estão próximos dos melhores modelos comerciais é, em tarefas específicas, em grande parte verdade
      Por exemplo, interfaces de chat já têm dificuldade para aproveitar bem uma inteligência de modelo superior ao nível oferecido pelos melhores modelos open source
      Mas ambientes de execução para programação ainda se beneficiam de maior inteligência de modelo, especialmente porque, em casos como claude-code ou codex, o ambiente de execução do provedor e a interface de chamada de ferramentas do modelo são ajustados em conjunto via reinforcement learning, e isso é outro motivo para haver diferença de desempenho mesmo controlando a inteligência do modelo
      O fundador do opencode, um ambiente open source de execução para programação com suporte a vários provedores de modelo, também comentou recentemente como é difícil ajustar bem o ambiente para cada provedor: https://x.com/thdxr/status/2053290393727324313
  • O exemplo do texto reforça o que eu penso: para modelos locais terem sucesso, eles não precisam ser grandes o bastante para competir com os modelos de ponta, só precisam ser bons o suficiente
    Precisam fazer bem tarefas pequenas e rodar de forma razoável em dispositivos de consumo
    Melhor ainda se rodarem em celular
    Ao experimentar LLMs locais, achei que aumentar o tamanho do modelo ajuda, mas o fator que realmente transformou modelos quase inúteis em algo útil foi a capacidade de usar ferramentas
    Permitir busca na web e captura de páginas ajudou muito mais a reduzir alucinações do que usar um modelo maior, além de não haver o problema da data de corte do treinamento
    Claro, modelos maiores podem usar ferramentas melhor, mas modelos pequenos muitas vezes já foram suficientes

  • Fiz uma demo do que a nova Prompt API do Chrome, que usa modelos locais, consegue fazer: https://adsm.dev/posts/prompt-api/#what-could-you-build-with...
    Ela brilha em ambientes limitados onde transforma dados que pertencem ao usuário, como no post original
    Para tarefas mais abertas, é claramente menos útil

    • Não recomendaria usar a Prompt API do Chrome como um bom exemplo de LLM local
      Ela é ok, mas realmente fraca
      Os modelos 8B de um ano atrás já eram melhores em alguns aspectos, e os modelos lançados mais recentemente ficaram significativamente melhores
    • “Reescrever texto publicitário usando o contexto ao redor”, claro, esse é o plano
      Não dá sem modelo local nem sem página web
      Enquanto todo o resto arca com eletricidade e desgaste de hardware, o fornecedor ganha mais e melhores ferramentas de exploração publicitária e vigilância mais baratas
    • Estão rodando LLM para fazer transformações de dados para as quais procedimentos determinísticos seriam muito mais adequados, usando para isso uma fonte de alimentação de 1000 watts
      Espetacular
  • Os atores já estabelecidos vão fazer de tudo para impedir o avanço do local, mas há alguns motivos técnicos para acreditar que modelos pequenos e especializados podem acabar virando o padrão
    Se isso acontecer, o local virá junto
    O texto original foca em saber se aquilo que os usuários querem exige modelos grandes
    Mas também há argumentos de que modelos grandes talvez nunca se tornem confiáveis o suficiente na prática, a menos que a) a interpretabilidade mecanística amadureça bastante ou b) sistemas multiagente deixem de ser todos multimodelo
    No caso de a), os avanços em interpretabilidade mecanística podem corrigir problemas dos modelos grandes, mas também podem permitir obter representações integradas e recortar apenas as partes úteis de modelos gigantes
    Seria pegar só o necessário e descartar o resto, reduzindo custos e a superfície de problemas
    Precisa só de lógica? Só de visão? Basta recortar aquela parte do monstrengo gigante
    A capacidade de isolar problemas dificilmente vem sem a capacidade de isolar subsistemas funcionais
    No caso de b), basta olhar para vetores maliciosos ou categorias de alucinação especializadas em uso de ferramentas
    Se não houver uma solução completa para alinhamento útil/honesto/inofensivo, então criatividade e rigor, entre muitos outros fatores, provavelmente entram em conflito de forma fundamental
    Se, no fim das contas, todo trabalho já exigir vários modelos, por que precisar de um modelo universal gigante e caro
    Assim, a especialização também pressiona tudo em direção ao menor conjunto possível de modelos especialistas confiáveis

  • Minha preocupação com LLMs, deixando de lado o aspecto filosófico e os impactos econômicos, é que parece difícil treinar modelos funcionais localmente
    Até dá para fazer LLMs de brinquedo, mas algo realmente útil parece difícil
    Não só exige uma capacidade computacional enorme, como também datasets em sua maioria obtidos ilegalmente

    • Isso me parece pessimista demais
      Talvez eu pessoalmente não seja tão inteligente assim, mas, para adquirir a inteligência que tenho hoje, não precisei aprender a partir de todos os livros já escritos, todos os artigos da Wikipedia, todos os posts de blog, todos os manuais de referência e todas as linhas de código já produzidas
      Na verdade, não aprendi nem 1% disso, nem 0,00000000001%
      Está claro que texto em si não é pré-requisito para inteligência
      No mínimo, se eu cheguei perto de inteligência só observando casualmente o mundo ao meu redor por uns 20 anos, isso é um forte indício de que o “dataset” necessário são apenas os sensores e o mundo ao redor
      Claro, o cérebro humano não começa do zero; houve milhões de anos de evolução para criar o terreno em que a inteligência pudesse se enraizar
      Mas essa estrutura básica é bem geral e não parece depender de um conjunto específico de treinamento
      Talvez também seja possível evoluí-la artificialmente
    • Com a tecnologia atual, o modelo inteiro não, mas LoRA é excelente para fine-tuning e pode ser criado em poucas horas num computador gamer avançado
      Se o modelo base der suporte ao meu idioma, há uma boa chance de eu conseguir treinar alguns LoRAs por mês com a sobra de computação dos eletrônicos que já tenho
      No futuro, quando computadores domésticos comuns tiverem a capacidade dos servidores atuais, também será possível treinar LLMs completos em casa
    • Isso é importante porque, mesmo rodando localmente, ele ainda pode ser um modelo proprietário
      Não tenho como participar de nada sobre com o que ele foi treinado, como os dados de treino foram rotulados, que guardrails existem ou quais vieses pode ter
    • Há tecnologia demais que não pode ser reproduzida localmente, e não acho que LLMs sejam especialmente diferentes
      Assim como em todo o resto, surgirão grandes fabricantes de LLMs, pequenos fabricantes de LLMs, artesãos de LLM, entusiastas de LLM e consumidores de LLM
    • Depende da área
      Há bastantes casos de uso em que uma pessoa, ou um uso não comercial, consegue obter os dados de treino necessários
      A partir daí, vira uma questão de computação e tempo para treinar, e, se você estiver disposto a esperar, dá para criar modelos úteis com hardware de consumo
  • Faz sentido dizer “use modelos em nuvem só quando realmente precisar”, mas o problema é que é muito mais fácil usar modelos de ponta subsidiados do que gastar tempo ajustando a configuração de um modelo local
    Acabei de perceber isso com agentes de programação
    Talvez nem sempre precise usar a versão mais nova em xhigh, mas no fim acabo fazendo isso
    Porque o trabalho termina em menos tempo, com menos esforço e por praticamente o mesmo preço
    Acho que só veremos um esforço sério em direção à IA local quando os principais fornecedores começarem a cobrar com base no uso real de tokens

    • O fato de ser mais fácil usar modelos de ponta não é problema, é funcionalidade
      Eu deixo abertas umas 8 abas de provedores com plano grátis, e ChatGPT, Claude e Gemini ficam no lado de ponta
      Não tenho problema nenhum em levar um até o limite e depois passar para o próximo
      Posso ficar o dia inteiro assim, fazendo com que implementem funções ou classes específicas do meu código
      Como eu realmente sei escrever e projetar software, não preciso ficar repetindo agentes para tentar gerar tudo em um dia
      Só com chatbot web e copiar/colar já consigo gerar milhares de linhas de código por hora, mantendo um forte modelo mental do código e alterando eu mesmo o que precisar
      Fiz isso hoje de manhã em um projeto Python
      Como fui eu que projetei o que precisava, cada geração consistia em pedir uma única função e, quando precisei acrescentar algo pela manhã, nem perguntei ao chatbot: fui direto ao lugar certo e corrigi manualmente
      Quando você gera tudo a partir da especificação inteira, não consegue fazer isso
    • O caminho de menor resistência normalmente vence
      Especialmente quando o preço esconde o custo real
    • Não estou vendo bom desempenho em modelos locais
      Sempre que aparece um post sobre LLM, há muitos comentários afirmando com convicção que conseguem resultados tão bons quanto Opus com os DeepSeek/Qwen mais recentes etc., mas minha experiência está longe disso
      Modelos open source desmoronam completamente em comparação com Claude quando você pede qualquer coisa minimamente complexa
      Fico suspeitando que não estamos numa situação parecida com a do Linux nos anos 90
      Funcionava até certo ponto, mas estava longe de estar pronto para usuários domésticos, e havia muita gente insistindo na sua cara que estava tudo bem principalmente por motivos ideológicos
  • As pessoas estão realmente tentando criar o “melhor software possível”
    Os aceleracionistas quixotescos da IA são uma minoria barulhenta entre quem faz software, e escolher APIs online em vez de sistemas locais geralmente não é preguiça de desenvolvedor, mas uma escolha em favor do usuário
    Hoje, dá para fazer mais coisas e fazer melhor com IA privada do que com modelos locais
    Isso é inevitável
    Mesmo que a IA local melhore, o que está na fronteira do desempenho de LLMs muitas vezes continua valendo o investimento
    A maioria das pessoas não adota um produto a menos que ele seja de altíssimo nível e extremamente conveniente
    Esse padrão é alto, e a IA local frequentemente não o atende
    A insistência do HN em tratar todos os usuários como fanáticos por open source, privacidade em primeiro lugar e Linux self-hosted é constrangedoramente antiquada