34 pontos por GN⁺ 2025-08-10 | 1 comentários | Compartilhar no WhatsApp
  • Use uma estratégia híbrida com vários modelos de IA gratuitos na web em paralelo, separando resolução de problemas e geração de código e aproveitando os pontos fortes de cada modelo
  • Com o AI Code Prep GUI, selecione e organize apenas o código necessário para evitar perda de desempenho causada por contexto desnecessário, fornecendo à IA apenas o contexto essencial
  • Para planejamento e depuração, use modelos gratuitos/de alto desempenho (Gemini 2.5 Pro, o3, o4-mini, Claude 4 etc.); para execução e escrita de código, use GPT-4.1 e Claude 3.5
  • Obtenha tokens gratuitos ou baratos com compartilhamento de dados da OpenAI, GitHub Copilot, Poe.com, OpenRouter etc., para minimizar custos
  • Combine várias ferramentas de agente e CLI, como Claude Code, Qwen Code, Gemini CLI, Roo Code e Trae IDE, conforme a situação, para aumentar a eficiência do trabalho

Minha configuração do navegador: o buffet de IA grátis

  • Mantenho várias abas abertas no navegador com versões gratuitas de diversos modelos de IA poderosos
  • Em vez de depender de um único modelo, a ideia é obter respostas sob vários pontos de vista. Estas são as combinações de modelos gratuitos que uso com mais frequência.
  • GLM 4.5: pode ser usado gratuitamente na web e, na prática, tem desempenho no nível do Claude 4 ou até superior. Sempre deixo 2 a 3 abas abertas
  • Kimi K2: modelo semelhante à linha Claude ou Opus, disponível gratuitamente na web. Normalmente deixo 1 a 2 abas abertas; antes da chegada do GLM 4.5, ele resolveu bugs difíceis para mim várias vezes por dia
  • Qwen3 Coder e modelos novos: usado para testar vários modelos especializados em programação
  • OpenAI Playground: permite usar gratuitamente vários modelos, como GPT-4.5 e o3. Se você permitir, nas configurações da conta, que a OpenAI “use seus dados para treinar modelos”, recebe tokens grátis
  • Google Gemini AI Studio: permite usar os modelos Gemini 2.5 Pro/Flash de forma gratuita e quase ilimitada. Normalmente deixo de 1 a 3 abas abertas
  • Google Gemini 2.5 Pro: é um serviço separado do AI Studio e oferece geração de imagens e pesquisa aprofundada melhores. Uso abas dele em paralelo com o AI Studio
  • Poe.com: oferece créditos grátis diários para modelos premium como Claude 4 e o4-mini
  • OpenRouter: permite misturar modelos gratuitos e pagos. Deixo vários modelos configurados em abas diferentes
  • ChatGPT: a versão gratuita ainda é útil, então mantenho pelo menos 1 aba aberta
  • Perplexity AI: forte para perguntas voltadas a pesquisa
  • Deepseek: oferece gratuitamente os modelos v3 e r1. Porém, atenção ao limite de contexto
  • Grok.com: oferece uso geral, pesquisa aprofundada e edição de imagens grátis e ilimitados. Em especial, a função de pesquisa aprofundada é útil por ser semelhante à do Perplexity
  • Phind: tenta fornecer fluxogramas ou diagramas junto com as respostas
  • lmarena.ai: oferece Claude Opus 4 e Sonnet 4 gratuitamente. Poder usar o Opus 4 de graça tem bastante valor

O próprio Claude.ai também é gratuito, mas as restrições de uso são frequentes e podem ser inconvenientes, então recorro a outras abordagens, como a extensão Cody ou o Copilot.

Observação importante — ao usar o Grok
O Grok oferece computação gratuita e geração de imagens sem censura, o que pode ser útil quando os sistemas de segurança de outros modelos atrapalham. No entanto, há relatos de que seus operadores podem ter a intenção de promover ideologias ligadas ao nazismo ou desinformação. Em especial, também houve alegações de que ele foi instruído a fornecer informações falsas sobre eventos históricos, como genocídios na África. Essas distorções aparecem principalmente na plataforma X, mas é recomendável usá-lo apenas de forma limitada para fins seguros, como programação, ou então sempre tendo em mente possíveis vieses.

Um fluxo mais inteligente e barato: contexto focado

  • Ao usar interfaces de chat de IA baseadas na web (AI Studio, ChatGPT, OpenRouter etc.), muitas vezes elas são melhores para resolver problemas ou sugerir soluções do que IDEs ou frameworks de agentes (Cline, Trae, Copilot etc.)
  • Se você fizer tudo com ferramentas como Cursor, Cline e Roo Code, acaba enviando para a IA grandes quantidades de texto que não têm relação direta com o problema, como instruções de uso do servidor MCP ou procedimentos de edição de arquivos, o que confunde a IA e reduz seu desempenho
  • Por causa disso, mesmo usando o modelo mais caro, você pode não conseguir superar esse “efeito de lentidão” causado por informação desnecessária
  • Por isso, a abordagem é gerar manualmente o contexto exato necessário para resolver o problema, colar isso em um chat de IA na web e então fazer a pergunta ou pedir uma revisão de código
  • Quando surge uma solução, esse conteúdo é transformado em um prompt para agentes como o Cline, deixando para eles apenas a edição dos arquivos
  • Assim, é possível usar o GPT-4.1 (com uso ilimitado) para resolver problemas e planejar de forma barata, sem precisar gastar créditos do Claude à toa
  • Para problemas difíceis, usa-se o Claude; para execução, usa-se em paralelo a IA de chat na web, aumentando a eficiência
  • Como o AI Code Prep ajuda (estrutura de prompt de exemplo)

    Prompt de exemplo:

    Can you help me figure out why my program does x instead of y?  
    
    • O AI Code Prep GUI varre a pasta do projeto recursivamente, explorando todas as subpastas e arquivos, e organiza o código e as perguntas em um formato fácil para a IA ler
    • Exemplo de contexto gerado:
    Can you help me figure out why my program does x instead of y?  
    
    fileName.js: <code>  
    ... conteúdo do arquivo ... </code>  
    
    nextFile.py: <code>  
    import example  
    ... outros conteúdos ... </code>  
    
    Can you help me figure out why my program does x instead of y?  
    
    • A pergunta é repetida duas vezes (é possível escolher topo/rodapé/ambos) para ajudar a IA a manter o foco
    • No Windows, basta clicar com o botão direito dentro da pasta do projeto → executar “AI Code Prep GUI” → os arquivos de código são selecionados automaticamente, enquanto diretórios desnecessários como node_modules e .git são excluídos automaticamente
    • Mesmo que a seleção não fique perfeita, ela pode ser ajustada facilmente por meio de checkboxes
    • Quando um projeto grande excede o limite de contexto da IA, é possível selecionar apenas os arquivos realmente necessários
  • Por que esse método é importante?

    • Muitos agentes de código, como Cline, GitHub Copilot, Cursor e Windsurf, enviam contexto demais ou contexto de menos, o que os torna ineficientes
    • Ao selecionar os arquivos manualmente, você pode fornecer à IA apenas as informações necessárias, sem dados desnecessários
    • Como tem interface GUI, ele é superior a outras ferramentas de geração de contexto que exigem CLI ou links públicos do GitHub em termos de preservação da segurança do código privado e conveniência
    • Consulte wuu73.org/aicp para ver as atualizações mais recentes de funcionalidades

Estratégia de Modelos: Escolhendo o Cérebro Certo para o Trabalho

  • Muitos modelos de IA poderosos são oferecidos gratuitamente por interfaces web (Gemini no AI Studio, Grok, Deepseek, etc.), então a prioridade é aproveitá-los primeiro
  • O Poe.com oferece créditos diários gratuitos para modelos de ponta como Claude e a nova série o4
  • Gemini 2.5 Pro (oferecido no AI Studio) é excelente para depuração, planejamento e trabalho geral, sendo atualmente considerado o modelo mais versátil
  • Para problemas difíceis, experimente o o4-mini (disponível no OpenRouter ou no Poe)
    • Ao usar a API, ele custa muito menos do que modelos topo de linha anteriores (Claude 3.5/3.7/4)
    • Já houve casos em que resolveu imediatamente bugs que estavam difíceis de solucionar
  • Claude 3.7 ou 4 pode ser acessado via Poe, API (OpenRouter), GitHub Copilot Chat etc.
    • Há alguma franquia gratuita, mas o custo pesa em caso de uso frequente
    • O 3.7/4 produz saídas criativas e explosivas (no estilo “Hunter S. Thompson”), mas para programação real pode ser mais eficiente deixar a execução para o Claude 3.5, mais contido
  • Como aproveitar tokens grátis no OpenAI Playground

    • Ao ativar a configuração de compartilhamento de dados da conta OpenAI, é possível usar uma grande quantidade de tokens gratuitos por dia
    • OpenAI Playground → ícone de configurações no canto superior direito → Data Controls no menu à esquerda → em Sharing, ative "Share inputs and outputs with OpenAI" para receber os seguintes benefícios:
    • Até 250 mil tokens por dia: gpt-5, gpt-4.1, gpt-4o, o1, o3
    • Até 2,5 milhões de tokens por dia: gpt-4.1-mini, gpt-4.1-nano, gpt-4o-mini, o1-mini, o3-mini, o4-mini, codex-mini-latest
    • Com essa configuração, é possível usar em grande volume e de graça modelos de ponta como o3 e GPT-4.5
    • No OpenAI Playground, você pode executar o3 e o4-mini lado a lado para compará-los e entender os pontos fortes e os usos de cada modelo.
  • Estratégia de uso recomendada por modelo

    • Gemini 2.5 Pro: prioridade máxima para depuração, planejamento e tarefas gerais de programação
    • o4-mini: ótimo para resolver bugs difíceis, com excelente custo-benefício
    • Claude 4 / 3.7: ideal para resolver problemas urgentes e difíceis, mas com limitações de acesso e custo
    • Claude 3.5: adequado para refinar os resultados criativos do 3.7/4 ou escrever código de fato
    • o3, GPT-4.5, Qwen3 Coder 480b, GLM 4.5: têm excelente capacidade para resolver problemas complexos e podem ser usados em grande volume ao aproveitar a configuração de tokens grátis

A Abordagem Híbrida: Planejamento Premium + Execução Econômica

  • Após testar vários modelos, foi desenvolvida uma estratégia híbrida capaz de maximizar tanto a qualidade quanto a eficiência de custo
  • O insight central é que cada modelo tem pontos fortes em etapas específicas do processo de desenvolvimento

Teoria do "Smart Juice" — por que a IA fica burra
A quantidade de “energia de inteligência” que o modelo pode receber é limitada.
Quando você envia um prompt conciso e focado, quase 100% dessa energia é usada para resolver o problema.
Mas, se você envia uma entrada desnecessariamente complexa (explicações longas sobre uso de ferramentas, contexto irrelevante para o problema, várias páginas de código etc.), boa parte dessa energia é consumida processando isso, reduzindo a “inteligência” disponível para a resolução real do problema.

Ex.: agentes integrados a IDE, como Cursor e Cline, enviam muitas instruções e contexto antes da pergunta, o que reduz o foco do modelo.
Portanto, a melhor forma de obter resultados ideais é reduzir o contexto desnecessário e enviar apenas o essencial para resolver o problema.

  • Fluxo de trabalho ao iniciar um novo projeto

    • 1. Planejar e fazer brainstorming
      • Use modelos web inteligentes e gratuitos (Gemini 2.5, o4-mini, Claude 3.7/4, o3 etc.) para desenhar a abordagem, montar um plano passo a passo e identificar as bibliotecas necessárias.
    • 2. Gerar prompt para o agente
      • Peça a um dos modelos acima:
        "Write a detailed-enough prompt for [Cline](https://cline.bot/), my AI coding agent, to complete the following tasks: [descrição da tarefa]"
      • Depois, refine esse prompt mais uma vez com uma IA gratuita boa em reescrita, como o ChatGPT.
    • 3. Executar com o Cline
      • Cole o prompt refinado no Cline e execute com GPT 4.1 ou Claude 3.5 (ou Claude 4, se for uma tarefa complexa).
      • A linha GPT 4.1 é bem treinada para seguir instruções.
    • 4. Fallback
      • Se o GPT 4.1 falhar, troque para Claude 3.5 via API.
      • O Deepseek v3 ou R1 também é muito forte na execução de instruções.
  • Estratégia principal

    • Use modelos caros e inteligentes (ou o Gemini 2.5 Pro, quando disponível gratuitamente) para a etapa de estratégia e design.
    • Cole o plano em 2 ou 3 outros modelos gratuitos (Deepseek R1, Claude no Poe, etc.) para validação:
      "Is this good? Can you improve it or find flaws?"
    • Na etapa de programação e execução, use modelos estáveis e eficientes (GPT 4.1, Claude 3.5) no Cline.
  • Dicas de uso por modelo

    • o4-mini
      • É forte em estratégia de implementação em alto nível, como interpretar lógica de código complexa e escolher frameworks e bibliotecas.
    • Brainstorming de ideias
      • Use Gemini 2.5, o4-mini, GPT 4.1, ChatGPT, o3-mini (muitas vezes grátis no duck.ai) e Phind, entre outros.
    • Se não houver solução
      • Se um modelo gratuito/barato não resolver, faça escalonamento para um modelo avançado e pago via API.

Agentes e Configurações Alternativos

  • Trae.ai (Bytedance, criadora do TikTok)
    • IDE compatível com VS Code, oferece uso gratuito de IA: incluindo Claude 4, Claude 3.7, Claude 3.5 e GPT 4.1.
    • O desempenho do agente embutido é inferior ao do Cline (sendo sincero, o Cline é o mais forte).
    • Como é um clone do VS Code, parece ser possível instalar a extensão do Cline.
    • Mas a velocidade é lenta por sobrecarga nos servidores → baixa efetividade prática no uso gratuito.
    • Ainda assim, vale mencionar pela acessibilidade aos modelos gratuitos.
  • 2 configurações recomendadas

    • 1. VS Code + Cline + Copilot
      • Assinatura do Copilot por US$ 10/mês → permite usar APIs de modelos poderosos no Cline de forma econômica.
      • A camada gratuita também permite alguns recursos básicos.
    • 2. Trae.ai + Cline
      • Testar se é possível combinar o acesso aos modelos gratuitos do Trae com o uso de chave de API no Cline.

    Dica: em alguns casos, o agente padrão do Copilot resolve problemas com os quais o Cline não lida bem, e às vezes acontece o contrário.
    O Cline pode enviar prompts excessivamente longos e perder desempenho → há casos em que o Copilot leva vantagem.

  • Roo Code: um clone do Cline

    • Roo Code é quase igual ao Cline, mas oferece alguns recursos diferentes.
    • Dependendo do projeto ou do estilo de programação, o Roo Code pode ser melhor.
    • O Cline em si é gratuito, mas há cobrança pelas chamadas de API.
    • A forma mais econômica: configurar a VS Code LM API + assinatura do Copilot por US$ 10/mês → uso quase ilimitado de modelos poderosos.
  • Novas ferramentas CLI: Claude Code, Qwen Code, Gemini CLI

    • O interesse por ferramentas de programação baseadas em CLI cresceu muito recentemente.
    • Claude Code: oferece suporte a subagentes (subagents) → executa apenas uma tarefa, sem usar ferramentas adicionais.
      • É possível reproduzir o fluxo de trabalho focado em “smart juice” explicado neste guia.
      • Remove instruções desnecessárias de agente (bloat) e mantém a eficiência.
    • Qwen Code e Gemini CLI também têm suas próprias vantagens.
    • Há um guia de configuração no site z.ai para usar o Claude Code com GLM 4.5.
    • Como cada ferramenta CLI tem pontos fortes diferentes, vale experimentar com base em guias e dicas da comunidade.

TL;DR: Guia rápido

  • Modelos & Papéis
    • Planejamento & Brainstorming
      GLM 4.5, Kimi K2, série mais recente do Qwen3 Coder & 2507, Gemini 2.5 Pro (AI Studio), o4-mini (OpenRouter), Claude 3.7/4 (Poe), recomendando o uso de 250 mil tokens grátis por dia no OpenAI Playground (o3, GPT-5)
    • Resolução de problemas & Debugging
      GPT-5 (tokens grátis no Playground), GLM-4.5 (desempenho no nível do Claude 4), Claude 4 (tokens diários grátis no Poe)
    • Programação de fato
      GPT-4.1 (Cline), com Claude 3.5 como alternativa em caso de falha, ou usar Qwen3 Coder, Instruct, 2507, GLM 4.5, Kimi K2
  • Ferramentas principais
    • VS Code
    • AI Code Prep GUI – escaneia e seleciona apenas os arquivos necessários localmente, otimizando o contexto para a IA
    • Cline (agente para VS Code) – execução de código passo a passo
    • Chats web gratuitos – Poe.com, ChatGPT, Grok, Deepseek, Perplexity, OpenAI Playground, AI Studio (Gemini 2.5 Pro), OpenRouter, duck.ai
  • Fluxo rápido
    1. Agrupe os arquivos relacionados ao projeto com o AI Code Prep GUI
    2. Cole esse contexto no modelo de chat web de sua preferência para planejamento e debugging
    3. Peça a um modelo: escreva um prompt detalhado para Cline para esta tarefa e depois refine no ChatGPT ou similar
    4. Cole o prompt final no Cline configurado com GPT-4.1 para gerar/modificar código
      → se falhar, troque para Claude 3.5
  • Truques para economizar
    • Ativar “compartilhamento de dados” no OpenAI Playground → 250 mil tokens grátis por dia (GPT-4.5, o3) + 2,5 milhões de tokens grátis por dia (o4-mini, o3-mini)
    • Assinatura do GitHub Copilot por US$ 10/mês → permite uso limitado de modelos Claude no Cline
    • OpenRouter por uso → uso barato de modelos recentes como o4-mini e Claude 3.7

Algumas reflexões

  • A IA é um amplificador de produtividade impressionante, mas não é uma varinha mágica.
  • A verdadeira mágica acontece quando sua curiosidade, persistência e vontade de experimentar se combinam com essas ferramentas poderosas.
  • Não se frustre com bugs ou problemas — todo desafio é uma oportunidade de aprender algo novo.
  • Misture modelos, teste ideias ousadas e não tenha medo de quebrar e refazer.
  • O melhor desenvolvedor não é aquele que nunca fica travado, mas aquele que continua avançando mesmo quando trava, usando todas as ferramentas e técnicas disponíveis.
  • Abrace o caos, aproveite o processo e deixe sua criatividade guiar o caminho!

Últimas atualizações de modelos (ago 2025)

💰 Foco em orçamento: máximo valor

  • GPT 4.5

    • Status: Descontinuado
  • o3

    • Capacidade: desempenho comparável ao Claude 4, excelente para resolver problemas difíceis, nível gênio
    • Dica de uso: é possível analisar toda a base de código com o AI Code Prep GUI
    • Tokens grátis: 250 mil tokens/dia ao ativar o compartilhamento de dados em Data Controls/Sharing settings
  • o4-mini

    • Capacidade: um pouco inferior ao o3, mas ainda com desempenho excelente, como se fosse o irmão mais novo do o3
    • Tokens grátis: 2,5M tokens/dia ao ativar o compartilhamento de dados
  • Gemini 2.5 Pro

    • Uso: gratuito no AI Studio
    • Especialidade: debugging complexo, design de arquitetura e planejamento
  • Deepseek R1 0528

    • Capacidade: modelo muito inteligente com desempenho de raciocínio aprimorado
    • Uso: disponível gratuitamente na interface web do Deepseek

🚀 Premium: resolva problemas AGORA

  • Claude 4 Sonnet

    • Capacidade: com contexto suficiente, resolve a maioria dos problemas de uma vez só
    • Especialidade: melhor desempenho geral em escrita, resolução de problemas e mais
    • Uso: quando você realmente precisa resolver perfeitamente já na primeira tentativa
  • Claude 4 Opus

    • Preço: US$ 75 / 1M tokens
    • Desempenho: conhecido por ser ainda melhor que o Sonnet, em nível de “molho secreto”
    • Uso: quando você precisa da solução definitiva de problemas

Modelos trabalhadores sólidos

Os modelos a seguir seguem bem instruções e executam tarefas com estabilidade:

  • GPT 4.1

    • Usado como modelo inteligente de alto nível para design e resolução de problemas, e depois para modificações reais no código
    • É possível colar diretamente no Cline a saída obtida de qualquer lugar e executá-la
  • Claude Sonnet 3.5

    • Forte em programação e edição
    • Um pouco mais lento que o 4.1, mas muito estável
  • Deepseek v3

    • Adequado para escrever código, corrigir código e trabalho com agentes
    • Excelente custo-benefício
  • OpenRouter Free Models

    • Em OpenRouter, defina o filtro de preço como $0 para explorar modelos gratuitos
    • Quando surgirem novos modelos, vale a pena testá-los

Claude 4 grátis: lmarena.ai e mais

Claude Opus 4 and Sonnet 4
  • Em lmarena.ai, Claude Opus 4, Sonnet 4 e outros são oferecidos gratuitamente
  • Dica: sempre salve, lembre e aproveite oportunidades de uso gratuito de modelos da Anthropic
  • Uso: quando tudo falhar ou for preciso concluir o trabalho perfeitamente de imediato, escolha Claude 4 Sonnet ou Opus

NOVO!! Novos modelos chineses incríveis + GPT 5

  • GLM 4.5

    • Desempenho: semelhante ao Claude 4 Opus ou Sonnet
    • Características: executa regras de agente e uso de ferramentas quase perfeitamente
    • Uso: muito forte para corrigir bugs muito difíceis e lidar com tarefas complexas que exigem muito contexto
  • Qwen3 Coder 480B

    • Avaliação: modelo poderoso e barato, muito preferido
    • Uso: tarefas de programação em ambientes de alto desempenho e baixo custo
  • Qwen3 Instruct & Thinking 2507

    • Desempenho: estabilidade e força semelhantes ao Qwen3 Coder
    • Vantagens: confiável e custo-efetivo
  • Kimi K2 (Moonshot)

    • Características: parece ter sido treinado com dados sintéticos baseados em Anthropic ou semelhantes ao Claude
    • Avaliação: desempenho excelente, modelo usado com frequência
  • GPT 5

    • Limitações: tem menos pontos fortes no uso de ferramentas customizadas (MCP, Cline etc.)
    • Forma recomendada de uso:
      1. Usar os melhores modelos, como GPT 5 e GLM 4.5, para planejamento e resolução de problemas
      2. Depois, escrever um prompt para que um modelo agente mais simples faça a edição real e o uso das ferramentas
    • Comparação:
      • GPT 4.1 ainda oferece excelente valor pelo custo
      • Os novos modelos chineses têm pontos fortes no uso de ferramentas customizadas/Cline
    • Resumo: ainda não foram suficientemente testados, mas cada modelo tem áreas em que se destaca, e no momento os modelos chineses são muito atraentes em preço e estabilidade

Fluxo de trabalho atual de programação (2025)

  • Para novos projetos:

    • 1. Fase de planejamento:
      • Anotar todos os detalhes do projeto (linguagem, bibliotecas, servidor etc.) em um bloco de notas
    • 2. Consulta com múltiplos modelos:
      • Colar o mesmo conteúdo em vários modelos para obter “opiniões múltiplas de médicos”:
    • 3. Refinamento:
      • Ajustar os detalhes por meio de conversas iterativas com o modelo
    • 4. Geração de tarefas:
      • Pedir ao modelo para escrever uma lista de tarefas passo a passo para o agente de programação Cline AI
    • 5. Execução:
      • Executar as tarefas no Cline (ou Roo Code) com o GPT 4.1 configurado no modo act
  • Para resolução de problemas:

    • Análise de codebases complexas: usar GPT 4.5 + AI Code Prep
    • Pedir ao GPT 4.5: “escreva um prompt para que o Cline conclua esta tarefa”
    • Escolher o modelo de acordo com a complexidade do problema
    • Buscar soluções sob vários ângulos usando diferentes modelos
  • Lista de tarefas & Test Driven Development (em breve)

    Test Driven Development & listas de tarefas:
    • Pedir à IA que escreva listas detalhadas de tarefas para executar no Cline, Roo Code e agente Trae
    • É possível instruir o Cline ou o Roo Code a registrar o andamento das tarefas em um arquivo Markdown e marcá-las como concluídas ao terminar
    • Com isso, fica fácil acompanhar o progresso e evitar omissões
    • No momento, é possível experimentar pedindo ao modelo para gerar uma checklist em Markdown e fazendo o Cline ou o Roo Code atualizar esse arquivo
  • Hacks para economizar dinheiro

    • GPT 4.5 & o3: ao ativar o compartilhamento de dados de treinamento do modelo, são fornecidos 250 mil tokens grátis por dia
    • Modelos baratos: é possível usar 2,5 milhões de tokens por dia no o4-mini e no 4.1-mini/nano
    • GitHub Copilot: por $10 por mês, é possível usar os novos modelos Claude (com limite de velocidade)
    • Trae IDE: atualmente é possível usar Claude 4 e GPT 4.1 grátis (sem assinatura, aparentemente sem limites)
    • Poe.com: fornece créditos diários grátis para todos os modelos
    • Interfaces web: use interfaces gratuitas de chat na web para planejamento e consultoria
  • Em breve: dados ao vivo do Reddit & insights

    Raspagem de dados do Reddit em tempo real & insights diários:
    • Haverá raspagem em tempo real de dados do Reddit para fornecer casos de uso de modelos de IA atualizados diariamente
    • Incluirá análise detalhada de uso, visualização de dados e novos insights sobre fluxos de trabalho reais de programação e tendências

1 comentários

 
GN⁺ 2025-08-10
Comentários do Hacker News
  • Só para quem ficou confuso: há mais 2 ou 3 páginas no texto principal, acessíveis pelo ícone de seta na parte inferior

  • Sou o autor do texto, e peço desculpas pelo problema com a fonte. O conteúdo já está um pouco desatualizado, mas a área de IA muda tão rápido que pretendo atualizar incluindo os modelos mais recentes. Hoje em dia estão saindo modelos novos o tempo todo, e pessoalmente meu favorito recente é o GLM-4.5. O Kimi K2 também é bom, e o Qwen3-Coder 480b ou 2507 instruct também são muito bons. Esses modelos funcionam muito bem em ambientes agentic ou ferramentas de agente Também criei meu próprio app helper de contexto (https://wuu73.org/aicp), acessível por esse link. É muito conveniente quando fico indo e voltando entre os vários chats de IA e IDEs que uso no dia a dia (quase sempre de graça, e também obtendo os melhores resultados). Tentei eliminar ao máximo toda a burocracia e inconveniência ao usar interfaces web de chat. É gratuito e o feedback foi muito bom; críticas também são bem-vindas Fica muito conveniente alternar entre IDE <----> abas de chat na web. Originalmente fiz isso para economizar meu tempo, e como a UI é em PySide6, roda bem mais leve do que uma webview. Textos usados com frequência podem ser adicionados na hora com botões de preset, e ele também lembra o estado de contexto por projeto, como tamanho da janela e arquivos usados. Na próxima execução, abre exatamente daquele jeito Ele faz varredura automática dos arquivos de código e infere quais arquivos podem ser úteis. Também dá para colocar texto acima e abaixo do código na caixa de prompt (isso tende a melhorar a saída). Um botão que uso bastante está configurado assim: "escreva um prompt para o Cline (agente de programação), envolva o prompt inteiro em uma única tag de código para facilitar copiar e colar, divida todo o trabalho em partes pequenas e forneça explicações detalhadas e os motivos para que o Cline consiga seguir, e adicione blocos de search and replace em linguagem simples para indicar os locais de edição" Meu fluxo para resolver problemas ou encontrar bugs é: no VS Code, normalmente digito aicp no terminal para abrir o app, faço o fine-tuning dos arquivos, escrevo a explicação ou a correção que quero, clico no botão do Cline e em Generate Context!, e colo no GLM-4.5. Se for um problema difícil, testo também em 2 ou 3 modelos como o3, o4-mini, GPT-5 e Gemini 2.5 Pro. Escolho a resposta mais sensata e colo no Cline (VS Code, GPT 4.1 ilimitado/versão gratuita). O 4.1 não é absurdamente inteligente, mas executa instruções com precisão. Também corrige sozinho pequenos erros típicos de modelos grandes. Os modelos grandes escrevem muito bem explicações detalhadas e listas de tarefas, e o 4.1 executa isso no modo agent Assim, dá para programar com uma IA muito inteligente de forma ilimitada e gratuita. Se você acoplar MCP (tools etc.) ao modelo, o desempenho acaba até piorando, e usar APIs como Claude 4 só faz gastar muito dinheiro

    • A velocidade de rolagem do site é lenta (abaixo de 1 fps no Firefox Android), e o call-out sobre o grok não pode ser rolado. No topo também aparece um botão verde suspeitosamente grande escrito CSS loaded

    • O diagrama em [https://wuu73.org/aicp] é útil, mas ao clicar ele não é mostrado na resolução completa, então fica borrado. É igual tanto no Firefox quanto no Chrome. No repositório do GitHub ele fica nítido, então parece ser um problema da biblioteca de renderização em JS

    • Gostei do texto e agradeço a atualização. Eu teria muito interesse se você pudesse abordar com mais profundidade as diferenças de experiência entre usar Roo Code e Cline. Até agora eu só usei Roo Code; achei interessante, mas os resultados foram um pouco inconsistentes

    • Queria saber se você já testou o Microsoft copilot. Na prática, é um modelo da OpenAI gratuito

    • Você disse que dá para programar de graça, mas no caso da OpenAI isso só é gratuito se você permitir, nas configurações de dados, que seus dados sejam usados no treinamento do modelo. Ou seja, não é realmente "de graça"

  • Minha experiência também bate com o conteúdo do texto. Recursos agentic realmente só funcionam direito em modelos grandes (e esse "funcionam"... por exemplo, o OpenAI Codex com o4-mini precisou mandar 200 requisições para corrigir 3 linhas) Para mudanças simples, modelos pequenos são muito melhores porque são bem mais rápidos. Então estou focando não no modelo "melhor", mas no "mais burro possível que ainda sirva" Levando isso mais longe e abandonando a abordagem agentic, dá para fazer tarefas muito precisas até com modelos minúsculos. Se você disser exatamente o que quer, ele devolve o diff direto Esse jeito de ficar vasculhando o sistema de arquivos é ineficiente na minha escala. Eu consigo colocar quase todo o codebase no contexto, então simplesmente jogo src/ inteiro no prompt. Em projetos de outras pessoas há muito boilerplate, então estou experimentando busca de código com modelos superbaratos como gpt-oss-20b, e para esse tipo de uso modelos ainda menores também servem. Patent pending

    • Penso igual. O Haiku já consegue administrar bem o fluxo de conversa, e tarefas mais complexas eu mando para modelos grandes como Gemini 2.5 Pro ou GPT-5. Recentemente tenho experimentado usar o Codex via MCP(${codex mcp}) no Gemini CLI, e funciona muito bem. O Gemini CLI é baseado principalmente em Flash, mas é suficiente para definição do problema e reavaliação de respostas. O mesmo vale para usar Gemini 2.5 Pro pelo Claude Code MCP. Usar o Claude Code como o próprio MCP não funciona muito bem. A ideia básica dessa abordagem veio, claro, do Aider: usar ao mesmo tempo um modelo principal, um auxiliar e um editor

    • O Aider, como ferramenta de programação não agentic, equilibra bem eficiência e eficácia. Como ele cria um mapeamento do repositório com tree-sitter, precisa bem menos ficar vasculhando o sistema de arquivos. Não tem MCP, mas como usa comandos de shell eu consigo usar utilitários que já conheço bem. Com provedores como a Cerebras, a velocidade de processamento de prompt é instantânea. Dá para continuar intervindo sem ficar esperando várias chamadas de ferramenta. Em projetos pequenos, é o melhor disparado

    • Também estou pensando cada vez mais assim. Quero ferramentas rápidas e confiáveis. Entrar em flow state é importante para mim, e esperar ferramentas de programação agentic quebra totalmente esse fluxo. Por isso meu interesse em modelos pequenos, ou em provedores como a Cerebras, só cresce. Se você reduz o escopo do problema, a confiabilidade também aumenta. Pessoalmente, eu gostaria de ouvir mais sobre as ferramentas "cirúrgicas" que você usa. Aliás, organizei várias ideias sobre esse tema recentemente neste post do meu blog, graças a isso

    • No Codex CLI não dá mais para trocar para modelos abaixo do GPT-5 (sem chave de API), porque dizem que não é recomendado. Se rodar com a opção thinking=high, o desempenho fica muito melhor que o do o4-mini, e o o4-mini na prática parece um gpt-5-thinking-mini. No codex isso não pode ser configurado, e o gpt-5-thinking-high fica parecido com o o1 ou o3-pro

    • "(na prática funciona)"... você comentou sobre o OpenAI Codex com o4-mini ter precisado de 200 requisições para mudar 3 linhas de código; como referência, pela minha experiência já cheguei a gastar dias de verdade em tarefas de 3 linhas

  • Acho que existe um enorme potencial em uma stack totalmente local, sem nuvem no estilo Cursor. Exemplos: • Cursor CLI para trabalho agentic/dev (https://x.com/cursor_ai/status/1953559384531050724) • uma camada de memória local compatível com CLI — LEANN (índice 97% menor, custo de nuvem zero, privacidade total, https://github.com/yichuan-w/LEANN) ou Milvus (embora este muitas vezes acabe sendo usado com nuvem/tokens) • como exemplo de engine de inferência, há o Ollama, que é excelente para rodar modelos GPT OSS localmente Desse jeito, dá para montar um ambiente pessoal dev+IA totalmente offline, privado e muito rápido. O projeto LEANN foi projetado justamente para isso: footprint minúsculo, busca semântica em todo o ambiente local, compatibilidade pronta com Claude Code/Cursor, e a geração pode ser resolvida com Ollama. Não custa absolutamente nada e não exige API nenhuma. Claro, configurar dá um pouco de trabalho. Mas eu gostaria que alguém tornasse isso fácil de usar de forma totalmente open source

    • Sinto que isso resume muito bem algo próximo da forma definitiva de uma stack de IA realmente local. Em ferramentas como Cursor ou aider, sempre senti falta de uma camada de memória forte e privada. A combinação de um índice privado minúsculo como o LEANN com inferência local via Ollama me parece realmente poderosa. Gosto da ideia de usar essa combinação para programação, e se uma experiência realmente privada no estilo "Cursor-like" se tornar viável, acho que o workflow de IA vai mudar completamente
  • Se você está procurando APIs gratuitas, no Google Gemini dá para usar Gemini de graça, especialmente o gemini-2.5-pro com thinking ativado. O limite é bem alto; estou fazendo benchmark e ainda não consegui atingir. Modelos de pesos abertos como DeepSeek R1 e GPT-OSS também têm acesso gratuito via API oferecido por vários provedores de inferência e fabricantes de hardware

    • O limite gratuito do Gemini 2.5 pro é 100 por dia
      https://ai.google.dev/gemini-api/docs/rate-limits

    • Só lembrando que, se isso não for para um uso sensível, tudo bem, mas o Google usa essas interações para treinamento (exceto no plano pago)

  • Fiquei surpreso com a quantidade de informação nova no texto; foi bem mais do que eu esperava. Normalmente não investigo as opções tão a fundo, mas desta vez senti que valeu a pena ler o artigo inteiro. E os comentários do HN também trouxeram muita informação prática, então obrigado a todos

  • Eu recomendaria ao OP conhecer Continue.dev, ollama/lmstudio e como rodar modelos localmente. Alguns modelos são realmente fortes em autocomplete, e outros, como gpt-oss, também vão bem em raciocínio e uso de ferramentas. Para mim, esse é o meu copilot preferido

    • Comigo é a mesma coisa! Estou usando Continue no VSCode, e os modelos grandes da Qwen e o gpt-oss-120b funcionam bem razoavelmente no modo agentic

    • Tenho a impressão de que o Zed é um passo acima do continue.dev. Lá você também pode usar o modelo que quiser

  • Como o post diz, o problema dos agentes de programação é que cada requisição envia os próprios dados mais quase o codebase inteiro, então o custo fica alto. Já em chats de IA, o custo é praticamente desprezível. Eu uso exclusivamente OpenRouter, que dá acesso a quase todos os modelos. O Sonnet era meu favorito, mas depois de usar Gemini 2.5 Pro, quase sempre ele se sai melhor (a desvantagem é ser lento). Para perguntas simples ou quando não lembro uma sintaxe, o Gemini Flash é perfeito por ser extremamente rápido

  • Algumas pessoas podem achar surpreendente o quanto se entrega dos próprios dados por causa de um plano gratuito, mas a verdade é que rodar um bom LLM em casa exige recursos demais, então acho melhor simplesmente entregar meu código e usar de graça. De qualquer forma, esse código provavelmente vai acabar virando open source

    • Se no lugar onde eu trabalho acham aceitável usar modelos para programar, então do meu ponto de vista isso não é uma preocupação
  • Concordo muito com a afirmação de que "ao usar IA em chats web (ou seja, interfaces web como ChatGPT e Openrouter), os resultados para resolver problemas ou propor soluções quase sempre são melhores do que em IDEs ou frameworks de agente". Mesmo que copiar código da IDE e colar no chat web pareça um pouco incômodo, na minha experiência os resultados são muito melhores do que com Github copilot ou cursor

    • Minha experiência é completamente o oposto. Seja agentic ou não, o mais importante é o contexto. Ter acesso agentic ao projeto inteiro, ligação direta com o GitHub, fine-tune, RAG e outras formas de acessar todo o contexto reduz muito as alucinações. Há uma diferença enorme entre "escreva x" e "escreva x levando em conta meu estilo, a dependência y e o código z ao redor". Sinceramente, não entendo por que alguém defenderia programação com IA por copiar e colar. Acho que é por isso que a abordagem com agentes está tão explosivamente popular agora