Fazer coding com IA em casa sem gastar como uma empresa

(stephen.bochinski.dev)

5 pontos por GN⁺ 2026-06-15 | 2 comentários | Compartilhar no WhatsApp

As opções para reduzir o custo de coding com IA para uso pessoal se dividem em três: auto-hospedagem, aluguel de API de modelos open source e otimização de assinaturas frontier
A auto-hospedagem envolve comprar equipamento e rodar modelos open source localmente; depois disso, não há custo por token, mas o custo inicial é alto e os modelos que dá para rodar em casa são mais fracos do que os modelos de laboratórios frontier
Alugar modelos open source por cobrança de API evita imobilizar milhares de dólares em uma configuração de GPU, evita o trabalho de extrair desempenho e facilita trocar no mês seguinte para uma opção mais barata ou melhor
As assinaturas frontier da OpenAI e da Anthropic custam cerca de US$ 400 por mês e podem render o equivalente a aproximadamente US$ 2.800 em uso de API a preço de tabela, mas workflows grandes e AI-native consomem rapidamente os tokens incluídos
A abordagem mais adequada é uma estratégia híbrida: usar assinaturas frontier para raciocínio difícil e escrita de especificações, e APIs open source para tarefas pequenas e mecânicas

Três opções

Há três formas de fazer coding com IA em casa sem gastar em nível empresarial, e a escolha ideal depende muito de quanto você confia nos lançamentos de hardware e modelos ao longo do próximo ano
Auto-hospedagem é comprar o próprio equipamento e executar modelos open source localmente, sem custo por token depois disso
- O custo inicial é alto, e os modelos que de fato dá para rodar em casa são mais fracos do que os lançados por laboratórios frontier
- Só vale a pena em custo-benefício quando você consegue manter o equipamento ocupado com tarefas de longa duração, em que modelos lentos e baratos trabalham a noite toda
- Para a maioria das pessoas, é difícil manter o hardware de casa sob carga alta de forma contínua, e o equipamento comprado hoje pode parecer uma má escolha daqui a um ano
Aluguel de API de modelos open source é usar, via cobrança de API, os mesmos modelos open source oferecidos por provedores, e é a opção mais adequada para a maioria das pessoas
- Você evita investir milhares de dólares em uma única configuração de GPU e foge do trabalho de extrair desempenho de longo prazo de modelos abertos
- Também é fácil migrar no mês seguinte para uma opção mais barata ou melhor, sem precisar revender equipamento
- Serviços como OpenRouter tornam a troca quase equivalente a mudar uma única linha
Otimização de assinaturas frontier significa aproveitar ao máximo as assinaturas da OpenAI e da Anthropic
- Planos de cerca de US$ 400 por mês podem render aproximadamente US$ 2.800 em uso de API a preço de tabela, trazendo um grande desconto até você bater no limite
- Os planos medem uso, e workflows grandes e AI-native consomem rapidamente os tokens incluídos
- Funciona bem para trabalho conduzido diretamente por humanos, mas não é suficiente como motor de agentes que rodam o dia inteiro

A combinação que funcionou melhor

A abordagem que funcionou melhor foi combinar assinaturas frontier com APIs de modelos open source
Mantém-se algumas assinaturas frontier para raciocínio difícil e escrita de especificações, enquanto pequenas tarefas mecânicas ficam por conta da cobrança de API de modelos open source
Com desenvolvimento guiado por especificação, os modelos caros criam o plano e os modelos baratos preenchem esse plano
Se esse método for bem executado, é possível produzir por cerca de US$ 1.000 em um mês o equivalente ao que uma equipe de 20 engenheiros entregaria

2 comentários

pencil6962 27 일 전

Na prática, basta assinar um modelo barato. É meio parecido com o que foi dito no texto, né.

GN⁺ 2026-06-15

Opiniões do Hacker News

Parece que cheguei a um platô e não sei como subir para o próximo nível. No momento continuo usando 5.5-xhigh no plano Codex de $100/mês e isso parece suficiente
Penso no que fazer em seguida, detalho o pedido até pouco antes da implementação em uma sessão de chat e, quando o Codex cuida do trabalho em nível de commit, faço uma checagem rápida no servidor de desenvolvimento local. Se necessário, peço ajustes, depois mando commitar e então peço recomendações para a próxima etapa com base na especificação. De qualquer forma, às vezes ainda preciso “aprovar” pedidos fora do sandbox
Ainda não encontrei um tipo de tarefa que valha a pena deixar rodando durante a noite. Até daria para mandar um plano grande de uma vez só, mas com frequência acabo querendo que os resultados intermediários sejam um pouco diferentes, então parece desperdício
O próximo passo talvez seja procurar algo como uma VM dedicada pela qual eu possa tunelar pedidos da GUI do Codex. Não quero dar acesso “perigoso” ao meu Mac inteiro
Não entendo o que as pessoas estão fazendo em projetos paralelos para queimar tokens tão rápido, a ponto de precisarem de dois planos de $200 por mês mais cobrança extra por tokens
- É porque você está tratando o problema como engenheiro, e não como um “influenciador” ou “desenvolvedor 10x”. Você vê isso como um problema a ser resolvido com engenharia, e a IA é só a ferramenta. Pela minha experiência, quase não existem problemas para engenheiros que precisem de geração de código autônoma por horas
  Só encontrei um caso em que faz algum sentido deixar a IA martelando por horas sem supervisão. Estou fazendo engenharia reversa de um widget com cinco imagens de firmware, então despejei os binários e mandei a IA descompilar e analisar em engenharia reversa esses projetos de firmware interligados. É um trabalho complexo, mas com escopo muito bem definido. Não é difícil; é volumoso. O resultado é apenas um monte de texto parecido com C para fins informativos, não algo que possa ser compilado diretamente. A qualidade da saída depende fortemente do assembly de entrada, e o resultado completo é documentação em forma de código
  O risco é zero, então não me incomoda deixar a IA tocar isso sem supervisão. Mesmo assim, quando a IA molda o assembly em algo parecido com um projeto em C, fica muito mais fácil para eu ler e raciocinar. Considero uma vitória fácil
- Já vi bastante vídeo de não especialistas criando coisas com IA, e quem torra 12 horas de trabalho literalmente nem lê a saída nem entende o que está fazendo
  A pessoa pede para criar um programa e, assim que ele fica pronto, já pergunta à IA como executá-lo. Se aparece um bug, pergunta à IA o que deu errado ou joga tudo fora e tenta de novo trocando o modelo/o harness
  Exemplo: https://m.youtube.com/watch?v=xc1296HY8Fw&ra=m
  É completamente diferente do fluxo de trabalho profissional que você descreveu. Está mais para brinquedo de consumo
- Reduzi o Claude para o plano de $20/mês e hoje quase só uso para chat na web. Para programar, uso o Claude Code com o DeepSeek configurado em cobrança por API
  Gastei cerca de $4,8 em 320.000.000 tokens. Quando eu usava o plano do Claude, havia uma pressão de que o LLM precisava estar sempre fazendo alguma coisa para justificar o preço. Depois que mudei para o DeepSeek, parei de pensar assim. Não sinto culpa por não usar uma assinatura e nem me preocupo com limite. É só pagar mais. Especialmente por não haver limite por hora, a diferença em execução paralela fica enorme
- “Pensar no que fazer em seguida” é o verdadeiro gargalo que todo mundo que tenta fazer trabalho real acaba encontrando. Se o sistema está acompanhando a velocidade do meu raciocínio, então ele está indo bem
  Comprar mais tokens não faz sua capacidade de pensar “subir de nível”. Quem roda coisas mais automatizadas provavelmente está acelerando além do próprio pensamento, e isso vai acabar cobrando seu preço
- Estou usando o Codex de $200/mês para criar jogos para meus filhos por diversão e curiosidade. Sou desenvolvedor e já trabalhei com jogos, mas nunca fiz desenvolvimento de jogos. Tenho tarefas rodando à noite, mas na maioria das vezes é algo como “cuidar do meu pipeline de assets 3D e gastar tempo adicionando coisas”
  Em uma RTX 5090 eu rodo Trellis2 -> ultrashapes -> Trellis2 -> conexão de rigging e configuração de animação
  Só que 99% desse trabalho é o Codex esperando pela saída. Mesmo rodando por 12 horas, na maior parte do tempo é só configurar muitos sleeps. Nunca cheguei a esgotar os tokens. Com o Codex de $100/mês, bati no limite semanal em uns 3 dias porque estava tocando 10 agentes ao mesmo tempo e programando o pipeline de assets como um louco, então fiz upgrade. O plano de $200/mês tem 4x mais créditos, então ainda não bati no teto e posso ir com tudo
“O começo é self-hosting. Você compra a máquina, roda um modelo open source localmente e depois não paga por token”, mas a conta de luz não é grátis
Pelo que vejo, no fim das contas você está pagando um prêmio por privacidade, e para mim isso vale a pena
- Por coincidência, eu precisava de um notebook novo e comprei de um amigo um M1 Max usado por um preço bem baixo, que também era rápido o suficiente para recompilar outras coisas que me interessam
  Então, no meu caso, não houve custo adicional de hardware, porque teria sido uma compra de substituição de qualquer forma
  Rodar modelos de IA em casa nesse equipamento é algo que eu quero fazer, e usarei o OpenRouter se precisar
  Reconheço que a conta econômica deste texto está correta. Mas acho triste demais que o resultado seja virar alguém que cuida de máquinas para fazer o trabalho que a gente amava. No longo prazo, talvez faça sentido discutir essas diferenças sutis
  O erro que cometi na vida — e agora já estou numa idade em que isso é, na prática, difícil de corrigir — foi acreditar que, se eu continuasse obtendo satisfação suficiente no trabalho, isso compensaria a falta de outras satisfações pessoais. Sempre gostei do fato de poder ajudar diretamente as pessoas por meio de algo que eu gostava e fazia bem, e isso amenizava a tristeza de ter dificuldade para construir uma vida familiar tradicional
  Sempre achei que conseguiria reencontrar essa alegria de novas formas, mas, a menos que haja uma nova inclinação do pêndulo em direção ao esforço humano, nem mesmo o pequeno prazer de explorar essas coisas do meu jeito, com o meu próprio equipamento, será suficiente
  O mundo que criamos para nós mesmos é sombrio. Hoje em dia, tenho medo de envelhecer ainda mais dentro dele
- Acho que dá para esperar que as placas da geração atual tenham pelo menos uma vida útil de 5 anos. A 3090 ainda continua útil por causa dos 24 GB de RAM, porque durante anos o fator limitante do machine learning em casa foi justamente a memória
  Comprar uma 6000 custaria algo entre 7 e 8 mil dólares, mas é bem possível que o valor de revenda continue bom. A 3090 ainda está acima de 50% do preço sugerido. Mesmo sem usar LLM, isso ainda é uma proposta de valor interessante para treinar modelos de visão com redes neurais convolucionais “tradicionais”. Com 96 GB, dá para usar tamanhos de batch enormes. O principal motivo para o upgrade é que o desempenho por watt praticamente dobrou. Por exemplo, a 4000 Pro Blackwell consome mais ou menos metade da 3090 com desempenho parecido
  As pessoas tendem a presumir que gasto de capital simplesmente desaparece, mas, como vimos com a RAM, é melhor não ter certeza de que você não vai conseguir revender se precisar
- Se você tiver energia solar, na prática isso pode chegar perto de ser meio que grátis. Então talvez durante o dia a computação privada de IA fique efetivamente mais barata
- Pagar mais pelo custo do hardware também é um custo adicional
  Fiz as contas e, tirando a privacidade, não fazia sentido. Mesmo assim, eu fiz. [0]
  0 - https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
- Há um experimento mental interessante em “eletricidade não é grátis”. Se uma IA consegue criar algo em um dia, mas eu preciso passar o dia inteiro criando a mesma coisa, qual dos dois estaria consumindo mais eletricidade?
  Do ponto de vista puramente de consumo de energia, onde estaria o ponto de equilíbrio?
Não consigo entender de jeito nenhum como as pessoas gastam tanto assim
Tenho usado o plano Cursor de US$ 60/mês no modo automático, e mesmo deixando ele planejar e programar a noite toda, 4 dias por semana, nunca cheguei perto do uso incluído
O que exatamente elas estão fazendo de diferente para o custo ficar tão alto?
Será que estão usando consumo sob demanda, outros modelos pagos ou ativando modos mais altos? Não entendo por que isso seria necessário. Nas tarefas em que trabalho, a saída do Auto é absurdamente boa, e ainda não encontrei um problema que ele não conseguisse resolver em um nível suficientemente bom
Na empresa, estou fazendo entrevistas para entrada no time, e candidatos dizem que gastam US$ 2 mil por mês em tokens no emprego atual. Simplesmente não consigo imaginar o que teria de acontecer para chegar nisso
- O plano Enterprise do Claude é 30 a 40 vezes mais caro que o plano para consumidores
  Em uma startup pequena, eu gastava US$ 200 por mês no plano Max. Agora, com o mesmo uso, estou gastando alguns milhares de dólares por mês no Claude Enterprise
  A Anthropic subsidia o uso dos consumidores e cobra das empresas com uma margem bem boa por retenção zero de dados (ZDR)
- Se eu puder dar aos agentes acesso amplo e um loop de feedback eficaz, basta eu definir a direção e conferir apenas o resultado final
  Por exemplo, posso pedir a um agente com acesso ao navegador, logs, métricas, GitHub e logs de CI para implementar um recurso novo
  Se aparecerem alguns relatórios de bug no Slack, eu subo mais alguns agentes. Se o PM quiser ajustes de UI, eu subo um agente. Muito do trabalho de desenvolvedor não é necessariamente complexo, e eu só reviso o PR final e deixo comentários como faria com um colega. Aí meu agente volta, ajusta os comentários e pede uma nova revisão
  Enquanto isso, posso dedicar minha atenção real a recursos mais pesados, documentos de design, análise de dados etc.
  Para uso pessoal, gasto US$ 300 por mês; no trabalho, alguns milhares de dólares. Os agentes realmente podem transformar a produtividade e entregam valor suficiente pelo custo
  Do ponto de vista da empresa, a escolha é pagar alguns milhares de dólares por mês ou contratar mais um engenheiro que custa centenas de milhares por ano em custo total. No momento, para mim, isso é pelo menos um multiplicador de 2x
- Talvez essas pessoas só estejam querendo ostentar uma habilidade insana de prompt. Tipo: um engenheiro com orgulho próprio por acaso apareceria gastando menos de US$ 2 mil por mês?
  Pelo contexto das interações com esse tipo de gente, isso parece muito provavelmente a resposta mais simples para uma pergunta bem desconcertante. A menos que estejam desperdiçando créditos de propósito, nem parece possível gastar US$ 2 mil por mês
- Concordo. Mas uma parte considerável dessas pessoas também fala muito sobre suas instruções/regras/habilidades/recursos personalizados. Aí já consomem uma boa parte da janela de contexto antes mesmo de começar
  Quando eu uso IA, uso só a ferramenta em si, e o contexto é exatamente o código em que estou trabalhando. Quero ver se ela ajuda a resolver um problema específico, e eu entendo bem o restante da base de código para julgar se a resposta é boa ou ruim
- Há alguns fatores. 1) Se você não escreve prompts com precisão suficiente para limitar o escopo, o agente pode vasculhar a base de código inteira, voltar repetidamente aos mesmos lugares e acabar travando. 2) Em geral tudo bem não verificar a saída, mas às vezes ele simplesmente não entende e produz lixo; se você não ler o código para identificar o problema, não vai sair disso só com prompt. Se deixar no automático, ele queima tokens
  Coisas de baixo nível também fazem o agente tropeçar. Agora mesmo ele ficou tentando não interpretar direito um erro dizendo que a função exigia um valor de retorno bool, tentou 10 variações da mesma coisa e eu precisei interromper. Habilidades também podem causar problemas. Por exemplo, se você der permissão, ele adora ler o código-fonte da biblioteca que eu uso. Isso é uma toca de coelho
Se a ideia é que “o custo inicial é alto e os modelos que você realmente consegue rodar em casa são mais fracos do que os dos laboratórios líderes, então só vale a pena quando você consegue manter o equipamento ocupado com tarefas longas, executadas durante a noite por modelos lentos e baratos”, então este não é um texto sobre IA para programar em casa, e sim sobre vibe coding em casa
Discordo de bastante coisa neste texto. Estou escrevendo este comentário em um computador doméstico com 64 GB de RAM e sem GPU, e faço bastante programação com IA gastando muito pouco
Rodo Gemma 4 26b (mixture-of-experts) e Qwen 3 coder no Ollama. Uso autocompletar de código do Github Copilot e também os tiers gratuitos das APIs do Gemini e do Mistral. Também tenho uma conta paga da API do Gemini, mas agora é pré-paga, então não preciso me preocupar em levar uma cobrança acidental de US$ 1000. Dá para fazer bastante coisa até com o Gemini Flash Lite 3.1
Nada disso fica queimando token para produzir um amontoado caro de código espaguete, mas com certeza ainda é programação com IA
- Sinto a mesma coisa. Tenho uma máquina com 64 GB de RAM e uma 5090 de 24 GB e estou usando Qwen 3.6 35B A3B. Por sorte comprei um Alienware 16 Area51 uns 15 segundos antes de as pessoas começarem a pré-encomendar computadores para os próximos 3 anos como idiotas e estragarem tudo
  Com isso eu não consigo fazer vibe coding no estilo “canhão de slop”, mas também não é isso que quero, porque é código pessoal e eu não quero que vire espaguete. O que eu quero é algo que procure instantaneamente posts do Stack Overflow e do Reddit dentro de uma caixa de chat, alivie a dor física de ter que realmente digitar código TypeScript e reduza a perda de tempo de ficar depurando eternamente problemas obscuros de Docker. Sou desenvolvedor backend, então minha paciência com frontend é negativa, e embora eu goste de Docker, não tenho paciência para problemas irritantes e manias intermináveis. Esse modelo faz isso muito bem
- Com certeza existem tarefas que dá para deixar rodando por bastante tempo. Acho que a distinção entre vibe coding e uma rotina de programação com participação humana vai ficar mais borrada à medida que os fluxos de trabalho forem sendo validados e os modelos ficarem mais inteligentes e baratos
  A maior parte dos melhores engenheiros que conheço migrou muito mais para vibe coding este ano. As possibilidades hoje estão bem melhores
Usar diretamente a API da plataforma DeepSeek e só conectar o modelo V4 Flash a um harness como o Opencode já é satisfatório o bastante. Acho que gastei uns $10 ao longo de algumas semanas
Também dei uma olhada em modelos self-hosted, mas o hardware está caro demais agora
- Se eu usasse o Opencode Go, mas só com o DeepSeek Flash, acho que renderia por mais tempo. Em tokens, equivale a uns $65, mas como a cobrança é mensal, você precisa usar tudo, então, se o uso for baixo, chamar o DeepSeek diretamente sai mais barato
  São $5 no primeiro mês, depois $10, e dá para cancelar a qualquer momento. Também dá para continuar pegando desconto com e-mails novos
- Quer dizer usar diretamente pelo DeepSeek? Pelo que eu entendi, embora eu não tenha confirmado, outros provedores de IA estavam oferecendo alguns modelos do DeepSeek por um preço mais baixo
  Ainda assim, é interessante. O que se ganha por esse preço? É só para programação ou inclui também, por exemplo, geração de imagens?
O que o pessoal faz em casa? Eu programo mais ou menos 5 apps com o plano Claude de $20 por mês e, claro, posso bater no limite de taxa, mas não faço ideia do que seria necessário para queimar $3k em tokens
- Depende do caso, mas automação consome rapidinho planos de $100 a $200 por mês, além de queimar milhares de dólares só em tokens
  Tem análise da causa raiz de issues de suporte ao cliente rodando a cada hora, automações diárias como análise de logs, e automações semanais/mensais para acompanhamento e execução de KPI
  Quando eu fazia side projects, era bem mais fácil ficar dentro do limite do plano de $20 por mês porque 1) o escopo era bem definido e 2) não havia usuários nem necessidade de automação. Agora eu bato no limite semanal com frequência e preciso de vários planos Max
- Comigo é a mesma coisa. $20 por mês basta, e eu uso para programar todos os dias
  Acho que o pessoal que torra tokens usa configurações com vários subagentes, 50 skills carregadas, 40 ferramentas MCP e coisas assim. Isso tudo enche o contexto a cada turno
- Também sou parecido, mas acho que bato menos no limite porque ainda faço bastante do raciocínio por conta própria e só uso IA para acelerar tarefas chatas que não quero fazer manualmente
  Foi especialmente bom para projetos pessoais em casa. Mesmo depois de passar o dia inteiro fazendo trabalho chato da empresa, fico muito mais afim de mexer em side projects quando não preciso lidar com as tarefas repetitivas deles
  A maioria das pessoas que queima milhares de dólares em tokens em casa provavelmente está produzindo uma grande pilha de slop
- A resposta curta para “o que você faz para queimar $3k em tokens?” é: produzir slop
  A maior parte da programação pode ser feita rápido com teclado, IntelliSense e alguns templates simples de geração de código
  Mas as pessoas passaram a depender da IA para fazer tudo, e agora os tech bros começaram a espremer isso como traficantes
Há alguns meses investi cerca de $4.000 em um NVIDIA DGX Spark. Ele tem 128 GB de RAM unificada e um chip NVIDIA GB10
Graças à RAM, a vários núcleos de CPU e ao SSD NVMe de 4 TB, é um computador ARM64 Linux bastante capaz mesmo sem GPU, e até agora eu o tenho usado principalmente assim. Mas estou curioso sobre qual seria o modelo com melhor desempenho que pode rodar bem nesse hardware, especialmente para programação
- Estou pesquisando e testando agora para um texto sobre o Spark que vou publicar no Ars, e acabei chegando por acaso a uma configuração de 2 agentes LLM usando o Qwen3.6-35B-A3B(nvidia/Qwen3.6-35B-A3B-NVFP4) como agente de planejamento e a versão FP8 do Qwen3-Coder-30B-A3B-Instruct (Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8) como agente de programação
  Estou mantendo o vLLM como motor de inferência e amarrei o loop de 2 agentes com o Opencode
  O planejador Qwen3.6-35B-A3B roda bem em cerca de 50 a 55 tokens por segundo, e o programador Qwen3-Coder-30B-A3B-Instruct fica em torno de 30 a 35 tokens. Com os dois agentes carregados e em espera, o uso de RAM fica em cerca de 112 GB dos 128 GB
  Está bem legal. Tenho brincado de desmontar jogos MS-DOS dos anos 1980, e esse tipo de tarefa combina bem com essa configuração. Não é a coisa mais rápida do mundo, mas, com a janela de contexto do planejador em 256k tokens e a do agente de programação em 128k, eles conseguem trocar entre si listas de tarefas bem longas sem reclamar. O único problema real é que, mesmo com prompts bem restritos, o agente de programação alucina como se tivesse tomado LSD. Ainda assim, o agente de planejamento parece detectar bem essas alucinações, quebrar o trabalho de novo e passar de volta para o programador
  Muito legal. Acho que vou ficar triste quando tiver que devolver o equipamento de review em alguns meses
  Além disso, também brinquei com o Deepseek v4 Flash usando a configuração do Antirez (https://github.com/antirez/ds4), e ele é muito bom e realmente fácil de rodar. Só que no Spark ele é bem lento, cerca de 14 tokens por segundo. E, a menos que você tenha duas unidades Spark, provavelmente vai conseguir rodar só esse modelo por vez. Ele consome toda a RAM
- https://www.canirun.ai/?status=tight talvez responda a essa pergunta
- O Deepseek v4 flash é surpreendentemente forte para o tamanho e dizem que roda bem nesse hardware
- Se você ainda não sabe disso e mesmo assim diz que “tem usado assim”, então o texto deveria começar com “há alguns meses joguei $4k fora em um brinquedo”
- O DeepSeek V4 Flash é um modelo de programação muito competente que roda bem no hardware que você descreveu. Só procurar uma versão otimizada especificamente para uso local
Para mim, parece que investir em hardware é o caminho certo
Aprendi a programar há quase 24 anos e ainda continuo aprendendo coisas novas. Nesse tempo, nunca precisei depender de um modelo de assinatura para aprender e construir coisas novas
Se LLMs e agentes forem as ferramentas básicas para programação e desenvolvimento de software pelo menos pelos próximos anos, investir $2000~3000 em hardware como um Halo Strix PC parece uma escolha óbvia
- Fiquei pensando se não poderia haver uma opção “grátis” com hardware encostado
  Tenho uma GTX1080ti de mais ou menos 2018, não estou usando e ela já se pagou há anos, então hoje o custo do hardware é zero
  Roda Gemma e4b multimodal, qwen 3.5 8b e o modelo de embeddings qwen 4b bem o suficiente
  O LLM entrega mais de 40 tokens por segundo
  Em carga puxa 350W da tomada, em economia de energia 3W e em idle 80W
  Minha eletricidade custa £0.035 por kWh, o que é barato para o Reino Unido, porque transfiro a carga para a bateria da casa
  Dá cerca de 1 penny para 144k tokens de saída, e teoricamente leva uma hora
  Mesmo com hardware grátis e eletricidade cerca de 10 vezes mais barata que uma tarifa normal, ainda assim sai só um pouco mais barato do que usar o modelo deepseek v4 flash, muito mais poderoso
- Sim e não. Hardware tem efeito de aprisionamento. Estou satisfeito com 128GB de memória unificada, mas me preocupa um pouco que agora pareça mais caro do que quando comprei
  Somando a recente movimentação da Casa Branca em relação à Anthropic com a realidade de que bons modelos da próxima geração talvez precisem de mais de 128GB para rodar bem, isso não é um bom sinal para o futuro
  Não estou menosprezando o local. Eu também sou um desses usuários e ainda uso assinatura junto, mas é preciso enxergar os trade-offs com clareza
- Com $3k você não consegue desempenho de modelo de ponta. Se for diluído em comprar o PC inteiro, não só a GPU, mal dá para conseguir um desempenho aceitável
- Tem que pensar em 10 mil dólares, não 3 mil
- Penso de forma parecida. Uso uma placa com 16GB de VRAM barata, comprada há cerca de um ano, e entendo que dá para pagar e obter uma taxa de tokens por segundo muito maior do que qualquer coisa que eu consiga em casa
  Mas isso me parece medir produtividade por linhas de código. No meu trabalho, não tenho sentido benefício em nenhuma assinatura
  Claro, não dá para gerar um app CRUD inteiro e tedioso do zero com um único prompt, mas paciência
Comecei a usar uma abordagem brain -> worker para programar
O Brain é o modelo caro e inteligente da assinatura do Claude. Quando dá, uso o Fable 5; agora estou usando o Opus
O Worker é um modelo local (qwen3.6:46B), implantado com Opencode + Ollama em uma GPU de 36GB
O Brain cuida da análise/design e da criação das tarefas. As tarefas precisam ser simples e claras para que o worker consiga executá-las. O Worker programa, o Brain valida e, se necessário, cria tarefas de correção. No momento, a proporção entre correções e tarefas é de mais ou menos 1:20
Se você não tiver GPU em casa, o qwen3.6 também é relativamente barato na nuvem
É uma configuração mais experimental, feita por curiosidade, mas funciona melhor do que eu esperava. Ela está me permitindo manter 3 agentes de programação rodando continuamente há 4 dias. Expliquei aqui como cheguei a essa configuração: https://news.ycombinator.com/item?id=48520757
Será que agora já dá para rodar algo comparável ao Opus 4.6 localmente? Continuo ouvindo coisas diferentes
Se isso fosse possível gastando $10k, eu cancelaria a assinatura. O problema é que não quero gastar esse dinheiro só para conferir por conta própria
- Se você quer nível de modelo de ponta, a opção economicamente racional é OpenRouter ou uma assinatura direta do modelo de ponta que você quiser
  Na prática, para proteger as margens dos datacenters, ninguém oferece ao consumidor uma configuração capaz de rodar essa quantidade de VRAM em uma única máquina. A Apple conseguia no passado, mas parou, e esses equipamentos hoje são negociados no eBay por mais de $20k cada
  Dá para rodar modelos muito fortes com placas das séries 3090/4090/5090/6000. Mas, se você quer algo “nível modelo de ponta”, o investimento mínimo em produto novo fica em torno de $22k. No mercado de usados, o custo inicial para montar um servidor próprio pode cair bastante, mas o consumo de energia provavelmente será 4 a 6 vezes maior, ou mais
- Com $10k você não chega nem perto de Opus ou Sonnet
  No momento, isso não é algo viável para uma pessoa comum
- Infelizmente, ainda não dá para rodar algo equivalente ao Opus 4.6 localmente. O mais próximo que se consegue hoje fica mais ou menos no nível do Sonnet 3.7
- Gastei $8k e cheguei a algo próximo de um Sonnet 2 a 3 vezes mais lento. É uma configuração rodando deep seek v4 flash em duas Spark
- Em alguns benchmarks, o Kimi K2.6 apareceu dentro da margem de erro do Opus 4.6, e dá para rodá-lo com 8 RTX6000
  Hoje é impossível montar uma máquina dessas do zero por menos de $100K. Mas estamos em um momento em que é difícil até colocar preço em autonomia