Fazer coding com IA em casa sem gastar como uma empresa
(stephen.bochinski.dev)- As opções para reduzir o custo de coding com IA para uso pessoal se dividem em três: auto-hospedagem, aluguel de API de modelos open source e otimização de assinaturas frontier
- A auto-hospedagem envolve comprar equipamento e rodar modelos open source localmente; depois disso, não há custo por token, mas o custo inicial é alto e os modelos que dá para rodar em casa são mais fracos do que os modelos de laboratórios frontier
- Alugar modelos open source por cobrança de API evita imobilizar milhares de dólares em uma configuração de GPU, evita o trabalho de extrair desempenho e facilita trocar no mês seguinte para uma opção mais barata ou melhor
- As assinaturas frontier da OpenAI e da Anthropic custam cerca de US$ 400 por mês e podem render o equivalente a aproximadamente US$ 2.800 em uso de API a preço de tabela, mas workflows grandes e AI-native consomem rapidamente os tokens incluídos
- A abordagem mais adequada é uma estratégia híbrida: usar assinaturas frontier para raciocínio difícil e escrita de especificações, e APIs open source para tarefas pequenas e mecânicas
Três opções
- Há três formas de fazer coding com IA em casa sem gastar em nível empresarial, e a escolha ideal depende muito de quanto você confia nos lançamentos de hardware e modelos ao longo do próximo ano
- Auto-hospedagem é comprar o próprio equipamento e executar modelos open source localmente, sem custo por token depois disso
- O custo inicial é alto, e os modelos que de fato dá para rodar em casa são mais fracos do que os lançados por laboratórios frontier
- Só vale a pena em custo-benefício quando você consegue manter o equipamento ocupado com tarefas de longa duração, em que modelos lentos e baratos trabalham a noite toda
- Para a maioria das pessoas, é difícil manter o hardware de casa sob carga alta de forma contínua, e o equipamento comprado hoje pode parecer uma má escolha daqui a um ano
- Aluguel de API de modelos open source é usar, via cobrança de API, os mesmos modelos open source oferecidos por provedores, e é a opção mais adequada para a maioria das pessoas
- Você evita investir milhares de dólares em uma única configuração de GPU e foge do trabalho de extrair desempenho de longo prazo de modelos abertos
- Também é fácil migrar no mês seguinte para uma opção mais barata ou melhor, sem precisar revender equipamento
- Serviços como OpenRouter tornam a troca quase equivalente a mudar uma única linha
- Otimização de assinaturas frontier significa aproveitar ao máximo as assinaturas da OpenAI e da Anthropic
- Planos de cerca de US$ 400 por mês podem render aproximadamente US$ 2.800 em uso de API a preço de tabela, trazendo um grande desconto até você bater no limite
- Os planos medem uso, e workflows grandes e AI-native consomem rapidamente os tokens incluídos
- Funciona bem para trabalho conduzido diretamente por humanos, mas não é suficiente como motor de agentes que rodam o dia inteiro
A combinação que funcionou melhor
- A abordagem que funcionou melhor foi combinar assinaturas frontier com APIs de modelos open source
- Mantém-se algumas assinaturas frontier para raciocínio difícil e escrita de especificações, enquanto pequenas tarefas mecânicas ficam por conta da cobrança de API de modelos open source
- Com desenvolvimento guiado por especificação, os modelos caros criam o plano e os modelos baratos preenchem esse plano
- Se esse método for bem executado, é possível produzir por cerca de US$ 1.000 em um mês o equivalente ao que uma equipe de 20 engenheiros entregaria
1 comentários
Opiniões do Hacker News
Parece que cheguei a um platô e não sei como subir para o próximo nível. No momento continuo usando
5.5-xhighno plano Codex de $100/mês e isso parece suficientePenso no que fazer em seguida, detalho o pedido até pouco antes da implementação em uma sessão de chat e, quando o Codex cuida do trabalho em nível de commit, faço uma checagem rápida no servidor de desenvolvimento local. Se necessário, peço ajustes, depois mando commitar e então peço recomendações para a próxima etapa com base na especificação. De qualquer forma, às vezes ainda preciso “aprovar” pedidos fora do sandbox
Ainda não encontrei um tipo de tarefa que valha a pena deixar rodando durante a noite. Até daria para mandar um plano grande de uma vez só, mas com frequência acabo querendo que os resultados intermediários sejam um pouco diferentes, então parece desperdício
O próximo passo talvez seja procurar algo como uma VM dedicada pela qual eu possa tunelar pedidos da GUI do Codex. Não quero dar acesso “perigoso” ao meu Mac inteiro
Não entendo o que as pessoas estão fazendo em projetos paralelos para queimar tokens tão rápido, a ponto de precisarem de dois planos de $200 por mês mais cobrança extra por tokens
Só encontrei um caso em que faz algum sentido deixar a IA martelando por horas sem supervisão. Estou fazendo engenharia reversa de um widget com cinco imagens de firmware, então despejei os binários e mandei a IA descompilar e analisar em engenharia reversa esses projetos de firmware interligados. É um trabalho complexo, mas com escopo muito bem definido. Não é difícil; é volumoso. O resultado é apenas um monte de texto parecido com C para fins informativos, não algo que possa ser compilado diretamente. A qualidade da saída depende fortemente do assembly de entrada, e o resultado completo é documentação em forma de código
O risco é zero, então não me incomoda deixar a IA tocar isso sem supervisão. Mesmo assim, quando a IA molda o assembly em algo parecido com um projeto em C, fica muito mais fácil para eu ler e raciocinar. Considero uma vitória fácil
A pessoa pede para criar um programa e, assim que ele fica pronto, já pergunta à IA como executá-lo. Se aparece um bug, pergunta à IA o que deu errado ou joga tudo fora e tenta de novo trocando o modelo/o harness
Exemplo: https://m.youtube.com/watch?v=xc1296HY8Fw&ra=m
É completamente diferente do fluxo de trabalho profissional que você descreveu. Está mais para brinquedo de consumo
Gastei cerca de $4,8 em 320.000.000 tokens. Quando eu usava o plano do Claude, havia uma pressão de que o LLM precisava estar sempre fazendo alguma coisa para justificar o preço. Depois que mudei para o DeepSeek, parei de pensar assim. Não sinto culpa por não usar uma assinatura e nem me preocupo com limite. É só pagar mais. Especialmente por não haver limite por hora, a diferença em execução paralela fica enorme
Comprar mais tokens não faz sua capacidade de pensar “subir de nível”. Quem roda coisas mais automatizadas provavelmente está acelerando além do próprio pensamento, e isso vai acabar cobrando seu preço
Em uma RTX 5090 eu rodo Trellis2 -> ultrashapes -> Trellis2 -> conexão de rigging e configuração de animação
Só que 99% desse trabalho é o Codex esperando pela saída. Mesmo rodando por 12 horas, na maior parte do tempo é só configurar muitos sleeps. Nunca cheguei a esgotar os tokens. Com o Codex de $100/mês, bati no limite semanal em uns 3 dias porque estava tocando 10 agentes ao mesmo tempo e programando o pipeline de assets como um louco, então fiz upgrade. O plano de $200/mês tem 4x mais créditos, então ainda não bati no teto e posso ir com tudo
“O começo é self-hosting. Você compra a máquina, roda um modelo open source localmente e depois não paga por token”, mas a conta de luz não é grátis
Pelo que vejo, no fim das contas você está pagando um prêmio por privacidade, e para mim isso vale a pena
Então, no meu caso, não houve custo adicional de hardware, porque teria sido uma compra de substituição de qualquer forma
Rodar modelos de IA em casa nesse equipamento é algo que eu quero fazer, e usarei o OpenRouter se precisar
Reconheço que a conta econômica deste texto está correta. Mas acho triste demais que o resultado seja virar alguém que cuida de máquinas para fazer o trabalho que a gente amava. No longo prazo, talvez faça sentido discutir essas diferenças sutis
O erro que cometi na vida — e agora já estou numa idade em que isso é, na prática, difícil de corrigir — foi acreditar que, se eu continuasse obtendo satisfação suficiente no trabalho, isso compensaria a falta de outras satisfações pessoais. Sempre gostei do fato de poder ajudar diretamente as pessoas por meio de algo que eu gostava e fazia bem, e isso amenizava a tristeza de ter dificuldade para construir uma vida familiar tradicional
Sempre achei que conseguiria reencontrar essa alegria de novas formas, mas, a menos que haja uma nova inclinação do pêndulo em direção ao esforço humano, nem mesmo o pequeno prazer de explorar essas coisas do meu jeito, com o meu próprio equipamento, será suficiente
O mundo que criamos para nós mesmos é sombrio. Hoje em dia, tenho medo de envelhecer ainda mais dentro dele
Comprar uma 6000 custaria algo entre 7 e 8 mil dólares, mas é bem possível que o valor de revenda continue bom. A 3090 ainda está acima de 50% do preço sugerido. Mesmo sem usar LLM, isso ainda é uma proposta de valor interessante para treinar modelos de visão com redes neurais convolucionais “tradicionais”. Com 96 GB, dá para usar tamanhos de batch enormes. O principal motivo para o upgrade é que o desempenho por watt praticamente dobrou. Por exemplo, a 4000 Pro Blackwell consome mais ou menos metade da 3090 com desempenho parecido
As pessoas tendem a presumir que gasto de capital simplesmente desaparece, mas, como vimos com a RAM, é melhor não ter certeza de que você não vai conseguir revender se precisar
Fiz as contas e, tirando a privacidade, não fazia sentido. Mesmo assim, eu fiz. [0]
0 - https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
Do ponto de vista puramente de consumo de energia, onde estaria o ponto de equilíbrio?
Não consigo entender de jeito nenhum como as pessoas gastam tanto assim
Tenho usado o plano Cursor de US$ 60/mês no modo automático, e mesmo deixando ele planejar e programar a noite toda, 4 dias por semana, nunca cheguei perto do uso incluído
O que exatamente elas estão fazendo de diferente para o custo ficar tão alto?
Será que estão usando consumo sob demanda, outros modelos pagos ou ativando modos mais altos? Não entendo por que isso seria necessário. Nas tarefas em que trabalho, a saída do Auto é absurdamente boa, e ainda não encontrei um problema que ele não conseguisse resolver em um nível suficientemente bom
Na empresa, estou fazendo entrevistas para entrada no time, e candidatos dizem que gastam US$ 2 mil por mês em tokens no emprego atual. Simplesmente não consigo imaginar o que teria de acontecer para chegar nisso
Em uma startup pequena, eu gastava US$ 200 por mês no plano Max. Agora, com o mesmo uso, estou gastando alguns milhares de dólares por mês no Claude Enterprise
A Anthropic subsidia o uso dos consumidores e cobra das empresas com uma margem bem boa por retenção zero de dados (ZDR)
Por exemplo, posso pedir a um agente com acesso ao navegador, logs, métricas, GitHub e logs de CI para implementar um recurso novo
Se aparecerem alguns relatórios de bug no Slack, eu subo mais alguns agentes. Se o PM quiser ajustes de UI, eu subo um agente. Muito do trabalho de desenvolvedor não é necessariamente complexo, e eu só reviso o PR final e deixo comentários como faria com um colega. Aí meu agente volta, ajusta os comentários e pede uma nova revisão
Enquanto isso, posso dedicar minha atenção real a recursos mais pesados, documentos de design, análise de dados etc.
Para uso pessoal, gasto US$ 300 por mês; no trabalho, alguns milhares de dólares. Os agentes realmente podem transformar a produtividade e entregam valor suficiente pelo custo
Do ponto de vista da empresa, a escolha é pagar alguns milhares de dólares por mês ou contratar mais um engenheiro que custa centenas de milhares por ano em custo total. No momento, para mim, isso é pelo menos um multiplicador de 2x
Pelo contexto das interações com esse tipo de gente, isso parece muito provavelmente a resposta mais simples para uma pergunta bem desconcertante. A menos que estejam desperdiçando créditos de propósito, nem parece possível gastar US$ 2 mil por mês
Quando eu uso IA, uso só a ferramenta em si, e o contexto é exatamente o código em que estou trabalhando. Quero ver se ela ajuda a resolver um problema específico, e eu entendo bem o restante da base de código para julgar se a resposta é boa ou ruim
Coisas de baixo nível também fazem o agente tropeçar. Agora mesmo ele ficou tentando não interpretar direito um erro dizendo que a função exigia um valor de retorno bool, tentou 10 variações da mesma coisa e eu precisei interromper. Habilidades também podem causar problemas. Por exemplo, se você der permissão, ele adora ler o código-fonte da biblioteca que eu uso. Isso é uma toca de coelho
Se a ideia é que “o custo inicial é alto e os modelos que você realmente consegue rodar em casa são mais fracos do que os dos laboratórios líderes, então só vale a pena quando você consegue manter o equipamento ocupado com tarefas longas, executadas durante a noite por modelos lentos e baratos”, então este não é um texto sobre IA para programar em casa, e sim sobre vibe coding em casa
Discordo de bastante coisa neste texto. Estou escrevendo este comentário em um computador doméstico com 64 GB de RAM e sem GPU, e faço bastante programação com IA gastando muito pouco
Rodo Gemma 4 26b (mixture-of-experts) e Qwen 3 coder no Ollama. Uso autocompletar de código do Github Copilot e também os tiers gratuitos das APIs do Gemini e do Mistral. Também tenho uma conta paga da API do Gemini, mas agora é pré-paga, então não preciso me preocupar em levar uma cobrança acidental de US$ 1000. Dá para fazer bastante coisa até com o Gemini Flash Lite 3.1
Nada disso fica queimando token para produzir um amontoado caro de código espaguete, mas com certeza ainda é programação com IA
Com isso eu não consigo fazer vibe coding no estilo “canhão de slop”, mas também não é isso que quero, porque é código pessoal e eu não quero que vire espaguete. O que eu quero é algo que procure instantaneamente posts do Stack Overflow e do Reddit dentro de uma caixa de chat, alivie a dor física de ter que realmente digitar código TypeScript e reduza a perda de tempo de ficar depurando eternamente problemas obscuros de Docker. Sou desenvolvedor backend, então minha paciência com frontend é negativa, e embora eu goste de Docker, não tenho paciência para problemas irritantes e manias intermináveis. Esse modelo faz isso muito bem
A maior parte dos melhores engenheiros que conheço migrou muito mais para vibe coding este ano. As possibilidades hoje estão bem melhores
Usar diretamente a API da plataforma DeepSeek e só conectar o modelo V4 Flash a um harness como o Opencode já é satisfatório o bastante. Acho que gastei uns $10 ao longo de algumas semanas
Também dei uma olhada em modelos self-hosted, mas o hardware está caro demais agora
São $5 no primeiro mês, depois $10, e dá para cancelar a qualquer momento. Também dá para continuar pegando desconto com e-mails novos
Ainda assim, é interessante. O que se ganha por esse preço? É só para programação ou inclui também, por exemplo, geração de imagens?
O que o pessoal faz em casa? Eu programo mais ou menos 5 apps com o plano Claude de $20 por mês e, claro, posso bater no limite de taxa, mas não faço ideia do que seria necessário para queimar $3k em tokens
Tem análise da causa raiz de issues de suporte ao cliente rodando a cada hora, automações diárias como análise de logs, e automações semanais/mensais para acompanhamento e execução de KPI
Quando eu fazia side projects, era bem mais fácil ficar dentro do limite do plano de $20 por mês porque 1) o escopo era bem definido e 2) não havia usuários nem necessidade de automação. Agora eu bato no limite semanal com frequência e preciso de vários planos Max
Acho que o pessoal que torra tokens usa configurações com vários subagentes, 50 skills carregadas, 40 ferramentas MCP e coisas assim. Isso tudo enche o contexto a cada turno
Foi especialmente bom para projetos pessoais em casa. Mesmo depois de passar o dia inteiro fazendo trabalho chato da empresa, fico muito mais afim de mexer em side projects quando não preciso lidar com as tarefas repetitivas deles
A maioria das pessoas que queima milhares de dólares em tokens em casa provavelmente está produzindo uma grande pilha de slop
A maior parte da programação pode ser feita rápido com teclado, IntelliSense e alguns templates simples de geração de código
Mas as pessoas passaram a depender da IA para fazer tudo, e agora os tech bros começaram a espremer isso como traficantes
Há alguns meses investi cerca de $4.000 em um NVIDIA DGX Spark. Ele tem 128 GB de RAM unificada e um chip NVIDIA GB10
Graças à RAM, a vários núcleos de CPU e ao SSD NVMe de 4 TB, é um computador ARM64 Linux bastante capaz mesmo sem GPU, e até agora eu o tenho usado principalmente assim. Mas estou curioso sobre qual seria o modelo com melhor desempenho que pode rodar bem nesse hardware, especialmente para programação
Estou mantendo o vLLM como motor de inferência e amarrei o loop de 2 agentes com o Opencode
O planejador Qwen3.6-35B-A3B roda bem em cerca de 50 a 55 tokens por segundo, e o programador Qwen3-Coder-30B-A3B-Instruct fica em torno de 30 a 35 tokens. Com os dois agentes carregados e em espera, o uso de RAM fica em cerca de 112 GB dos 128 GB
Está bem legal. Tenho brincado de desmontar jogos MS-DOS dos anos 1980, e esse tipo de tarefa combina bem com essa configuração. Não é a coisa mais rápida do mundo, mas, com a janela de contexto do planejador em 256k tokens e a do agente de programação em 128k, eles conseguem trocar entre si listas de tarefas bem longas sem reclamar. O único problema real é que, mesmo com prompts bem restritos, o agente de programação alucina como se tivesse tomado LSD. Ainda assim, o agente de planejamento parece detectar bem essas alucinações, quebrar o trabalho de novo e passar de volta para o programador
Muito legal. Acho que vou ficar triste quando tiver que devolver o equipamento de review em alguns meses
Além disso, também brinquei com o Deepseek v4 Flash usando a configuração do Antirez (https://github.com/antirez/ds4), e ele é muito bom e realmente fácil de rodar. Só que no Spark ele é bem lento, cerca de 14 tokens por segundo. E, a menos que você tenha duas unidades Spark, provavelmente vai conseguir rodar só esse modelo por vez. Ele consome toda a RAM
Para mim, parece que investir em hardware é o caminho certo
Aprendi a programar há quase 24 anos e ainda continuo aprendendo coisas novas. Nesse tempo, nunca precisei depender de um modelo de assinatura para aprender e construir coisas novas
Se LLMs e agentes forem as ferramentas básicas para programação e desenvolvimento de software pelo menos pelos próximos anos, investir $2000~3000 em hardware como um Halo Strix PC parece uma escolha óbvia
Tenho uma GTX1080ti de mais ou menos 2018, não estou usando e ela já se pagou há anos, então hoje o custo do hardware é zero
Roda Gemma e4b multimodal, qwen 3.5 8b e o modelo de embeddings qwen 4b bem o suficiente
O LLM entrega mais de 40 tokens por segundo
Em carga puxa 350W da tomada, em economia de energia 3W e em idle 80W
Minha eletricidade custa £0.035 por kWh, o que é barato para o Reino Unido, porque transfiro a carga para a bateria da casa
Dá cerca de 1 penny para 144k tokens de saída, e teoricamente leva uma hora
Mesmo com hardware grátis e eletricidade cerca de 10 vezes mais barata que uma tarifa normal, ainda assim sai só um pouco mais barato do que usar o modelo deepseek v4 flash, muito mais poderoso
Somando a recente movimentação da Casa Branca em relação à Anthropic com a realidade de que bons modelos da próxima geração talvez precisem de mais de 128GB para rodar bem, isso não é um bom sinal para o futuro
Não estou menosprezando o local. Eu também sou um desses usuários e ainda uso assinatura junto, mas é preciso enxergar os trade-offs com clareza
Mas isso me parece medir produtividade por linhas de código. No meu trabalho, não tenho sentido benefício em nenhuma assinatura
Claro, não dá para gerar um app CRUD inteiro e tedioso do zero com um único prompt, mas paciência
Comecei a usar uma abordagem brain -> worker para programar
O Brain é o modelo caro e inteligente da assinatura do Claude. Quando dá, uso o Fable 5; agora estou usando o Opus
O Worker é um modelo local (qwen3.6:46B), implantado com Opencode + Ollama em uma GPU de 36GB
O Brain cuida da análise/design e da criação das tarefas. As tarefas precisam ser simples e claras para que o worker consiga executá-las. O Worker programa, o Brain valida e, se necessário, cria tarefas de correção. No momento, a proporção entre correções e tarefas é de mais ou menos 1:20
Se você não tiver GPU em casa, o qwen3.6 também é relativamente barato na nuvem
É uma configuração mais experimental, feita por curiosidade, mas funciona melhor do que eu esperava. Ela está me permitindo manter 3 agentes de programação rodando continuamente há 4 dias. Expliquei aqui como cheguei a essa configuração: https://news.ycombinator.com/item?id=48520757
Será que agora já dá para rodar algo comparável ao Opus 4.6 localmente? Continuo ouvindo coisas diferentes
Se isso fosse possível gastando $10k, eu cancelaria a assinatura. O problema é que não quero gastar esse dinheiro só para conferir por conta própria
Na prática, para proteger as margens dos datacenters, ninguém oferece ao consumidor uma configuração capaz de rodar essa quantidade de VRAM em uma única máquina. A Apple conseguia no passado, mas parou, e esses equipamentos hoje são negociados no eBay por mais de $20k cada
Dá para rodar modelos muito fortes com placas das séries 3090/4090/5090/6000. Mas, se você quer algo “nível modelo de ponta”, o investimento mínimo em produto novo fica em torno de $22k. No mercado de usados, o custo inicial para montar um servidor próprio pode cair bastante, mas o consumo de energia provavelmente será 4 a 6 vezes maior, ou mais
No momento, isso não é algo viável para uma pessoa comum
Hoje é impossível montar uma máquina dessas do zero por menos de $100K. Mas estamos em um momento em que é difícil até colocar preço em autonomia