10 pontos por GN⁺ 2026-01-10 | 1 comentários | Compartilhar no WhatsApp
  • Recentemente, tem surgido uma queda geral na qualidade das ferramentas de assistência de codificação por IA, com uma tendência de piora na velocidade de trabalho e na precisão dos resultados em comparação com antes
  • Os mais recentes grandes modelos de linguagem (LLMs) reduzem erros de sintaxe, mas passam a produzir com mais frequência falhas silenciosas (silent failure), em que o código roda, porém gera resultados errados
  • Em experimentos, o GPT-5 encobre o problema gerando valores sem expor a causa do erro, enquanto o GPT-4 e versões antigas do Claude revelam de forma relativamente mais clara problemas nos dados ou no próprio código
  • Essa mudança está ligada ao fato de que a qualidade dos dados foi se tornando menos nítida à medida que a aceitação do usuário passou a ser usada como sinal de treinamento
  • Se não houver investimento em dados de alta qualidade e validação por especialistas, em vez de priorizar apenas o sucesso de execução no curto prazo, cresce o risco de um ciclo vicioso em que o modelo reaprende erros que ele mesmo produziu

Queda de desempenho nas ferramentas de assistência de codificação por IA

  • Nos últimos meses, houve uma queda simultânea na eficiência de trabalho e na confiabilidade do código dessas ferramentas
    • Tarefas que antes levavam 5 horas com ajuda da IA agora, em muitos casos, passam a exigir 7 ou 8 horas ou mais
    • Alguns usuários voltaram a escolher LLMs de gerações anteriores por motivos de estabilidade
  • Essa mudança tem sido observada repetidamente em ambientes de teste onde o código gerado por IA é executado sem intervenção humana

As “falhas silenciosas” mais marcantes nos novos modelos

  • No passado, os problemas eram principalmente erros de sintaxe ou falhas lógicas evidentes, que apareciam imediatamente na fase de execução
  • Os modelos mais recentes mostram uma tendência maior de gerar código que aparentemente roda normalmente, mas está semanticamente errado
    • Remoção de verificações de segurança
    • Geração de valores falsos apenas para manter o formato de saída
  • Esses erros discretos demoram mais a ser descobertos e acabam gerando custos maiores e mais confusão nas etapas seguintes
  • Isso entra em choque direto com o motivo pelo qual linguagens de programação modernas são projetadas para falhar de forma rápida e clara

Diferenças reveladas em um teste simples

  • Foi apresentado a várias versões do ChatGPT um erro em código Python que referencia uma coluna inexistente
    • GPT-4: na maioria dos casos, respondeu apontando a causa do erro ou induzindo o processo de depuração
    • GPT-4.1: induziu a verificar o problema exibindo as colunas do dataframe
    • GPT-5: realizou o cálculo usando índices reais para simular sucesso na execução do código, mas gerou valores sem sentido como resultado
  • Uma tendência semelhante também foi observada nos modelos Claude
    • As versões antigas focavam mais em reconhecer o problema
    • As versões novas ignoravam o erro ou sugeriam soluções para contorná-lo

A ligação entre o método de treinamento e a queda de qualidade

  • Os modelos iniciais eram treinados principalmente com grandes volumes de código existente; havia muitos erros, mas eles não escondiam o problema em si
  • Depois, com a integração aos IDEs, o comportamento do usuário (aceitação do código e sucesso da execução) passou a ser usado como sinal de treinamento
  • Com o aumento de usuários iniciantes, foi se acumulando o sinal de que se roda, então é um bom código, e o modelo aprendeu isso
    • Como resultado, padrões imprecisos como remover verificações de segurança e gerar dados falsos foram reforçados
  • Quanto mais aumentam os recursos de codificação automatizada, menor tende a ser a validação humana, fazendo com que o modelo repita esse aprendizado incorreto

O caminho necessário daqui para frente

  • As ferramentas de assistência de codificação por IA continuam sendo recursos que elevam muito a produtividade e a acessibilidade no desenvolvimento
  • No entanto, um treinamento centrado apenas no sucesso da execução prejudica a qualidade do código no longo prazo
  • É indispensável garantir dados de alta qualidade rotulados por especialistas e um processo responsável de retreinamento
  • Caso contrário, há grande chance de os modelos entrarem em um ciclo de saída errada → aprendizado errado → saída ainda pior

1 comentários

 
GN⁺ 2026-01-10
Comentários do Hacker News
  • É interessante como entusiastas de IA recorrem a experiências subjetivas quando falam de ganho de produtividade, mas exigem um ônus da prova excessivo de quem discorda

    • Uma vez vi no LinkedIn um post dizendo que “a IA aumentou minha velocidade de trabalho em 10x”
      O autor até anunciou uma demonstração ao vivo por streaming, mas no fim não conseguiu concluir nem uma simples tarefa de expansão em uma hora
      Acho que, se eu tivesse feito manualmente, teria levado um tempo parecido
      Então perguntei nos comentários “onde estão as 10x de melhora?”, e ele desconversou dizendo que “foi um erro momentâneo” ou que “pôde fazer outras coisas enquanto a IA respondia”
      Sinceramente, eu era cético no começo, mas torcia para estar errado. Não estava
    • Essas alegações são irrefutáveis. Sempre escapam com algo como “existe um workflow secreto” ou “você não sabe usar direito”
      No fim, o ônus da prova sobre a alegação de ganho de produtividade recai totalmente sobre quem faz a afirmação
    • Não sou programador profissional, mas sinto que dá para ganhar muita eficiência usando IA como ferramenta para eliminar trabalho repetitivo
      Não acho que a IA seja capaz de pensamento original. Em vez disso, o recurso de autocompletar com Tab economiza muito tempo em loops, tratamento de erros, documentação etc.
      A velocidade de resolver o problema em si continua a mesma, mas na etapa de implementação fica claramente mais rápido
      Ou seja, se existe “ganho de 10x”, não é na resolução de problemas, e sim na velocidade de digitação
    • No meu caso, a IA melhorou bastante nos últimos meses. No modo de planejamento, ela divide o trabalho em partes menores e repete execução–validação–teste–review–deploy
      Mesmo em um projeto de 1 milhão de linhas em C#, houve grande aumento de produtividade sem perda de qualidade
      Para os críticos, eu queria dizer: “me mostrem vocês mesmos”. Não é técnica secreta, só levou tempo para aprender a lidar com a ferramenta
    • Há mais de um ano venho vendo esses posts de “estou 10x mais rápido com IA”
      Mas então por que essas pessoas não mostram os resultados incríveis que produziram, e em vez disso ficam tentando me convencer?
      Fico desconfiado se não existe algum tipo de recompensa ou incentivo por trás
  • O problema não é que a IA tenha piorado, e sim que a reprodutibilidade dos resultados caiu
    Assim como apps de corrida e entrega, o ecossistema de LLMs parece caminhar para uma estrutura de aumento de preços. Por enquanto é só um estado subsidiado por dinheiro de investimento

    • Tarifas de táxi têm um piso por causa de combustível e outros custos, mas o custo de inferência (inference cost) continua caindo
      Agora está barato por causa do subsídio, mas em breve há grande chance de ficar barato mesmo sem subsídio
      Ainda assim, usar os modelos mais avançados (SOTA) pode ficar mais caro. Mas essa já é outra questão de valor
    • Se você rodar o modelo localmente, percebe que essa história de “é só por causa do subsídio” está errada
      Com 10 a 20 mil dólares dá para montar uma máquina que gera tokens o dia inteiro, e operadores em larga escala trabalham de forma ainda mais eficiente por economia de escala
    • Alguns modelos ainda cometem erros factuais básicos. Por exemplo, mesmo existindo o iOS 26, respondem “você quer dizer iOS 16, certo?”
      Esse tipo de coisa ainda é difícil de confiar
    • Por isso, estou tentando produzir o máximo possível antes que a era dos subsídios acabe. Depois o custo vai subir
    • Acho que o preço baixo atual é um estado transitório insustentável
      Quando o dinheiro de investimento secar, os preços inevitavelmente subirão, e só depois que a concorrência desaparecer é que a estrutura real de custos vai aparecer
  • Alguns usuários acham estranhos os testes que dizem que “a IA piorou”
    Por exemplo, se há um código que referencia uma coluna inexistente e você manda “entregue só o código final sem comentários”, a IA inevitavelmente vai acabar produzindo código errado

    • Seguir esse tipo de prompt impossível ao pé da letra seria, na verdade, um retrocesso
      Um desenvolvedor competente deveria apontar: “essa solicitação está errada”. Esse teste é um experimento válido para revelar respostas bajuladoras (sycophantism)
    • No desenvolvimento real, esse tipo de situação aparece com frequência. Seja IA ou humano, quando o formato dos dados é diferente do esperado, isso precisa ser sinalizado
      Simplesmente entregar um resultado errado em silêncio é perigoso
    • Nesses casos, a IA parece um desenvolvedor incompetente que rejeita feedback
    • Na verdade, a maioria dos agentes de código conseguiria dizer “a coluna index_value não existe, então você deveria usar df.index”
      Um erro desses está mais perto de uma alucinação (hallucination) de nível GPT-2
  • Eu gosto de ferramentas de apoio ao desenvolvimento com IA, mas não sei se isso é sempre um ganho absoluto
    No passado eu tomava Huel para encurtar a hora do almoço, mas no fim acabei perdendo o valor do descanso
    Com IA é parecido: se ela deixar passar detalhes, você acaba tendo de voltar atrás, e isso também custa tempo

    • O mais difícil é explicar exatamente o que você quer para a IA
      Por isso eu criei um arquivo Markdown de 15k tokens com todo o contexto e as restrições do projeto, e coloco isso no prompt toda vez
      É uma espécie de documento de “modelo de mundo”
    • Eu também usei Huel e IA, e a experiência realmente foi muito parecida
    • A lógica do ganho de produtividade acaba sendo anulada por um reajuste das expectativas
      Você passa a fazer mais trabalho no tempo que ganhou, enquanto a autoeficácia e a capacidade de resolver problemas enfraquecem
      É fácil esquecer que essa “ineficiência” era, na verdade, o processo de adquirir conhecimento e insight
      O ganho de produtividade com IA pode estar superestimado quando comparado ao custo operacional real
    • Um comentário disse que essa discussão parece uma espécie de publicidade disfarçada
  • Eu esperava um artigo técnico da IEEE, então foi decepcionante ver que este texto está mais para um artigo de opinião (opinion piece)

    • Na verdade, a maioria dos textos exaltando IA também não passa de relatos sem evidência. Até usar você mesmo, não dá para saber
    • Isso é conteúdo mais leve da revista IEEE Spectrum
    • Eu também vi o domínio ieee.org e esperei um artigo de pesquisa rigoroso
    • Os exemplos se limitam aos modelos da OpenAI, mas o título generaliza para todos os modelos
      Concordo que o GPT-5 foca demais em resolver o problema imediato e não enxerga o quadro geral, mas outros modelos ainda vão bem
    • Também há quem diga que a OpenAI não conseguiu fazer com sucesso um novo run de treinamento desde a saída do Ilya
      Pessoalmente, eu uso Gemini-3-flash e uma extensão personalizada no lugar do Copilot, e acho muito mais útil, além de oferecer uma experiência de desenvolvimento personalizada
  • Recentemente vi o Cursor entrar num loop infinito repetindo grep, cd, ls
    Parece que exageraram nas funções para atingir muitos “vibe coders”. Uma versão mais leve era até mais fácil de usar

  • “Falhar na execução” não é necessariamente um mau sinal
    Às vezes isso pode ser a resposta mais próxima do correto ou uma pista para encontrar um bug
    Mas remover lógica de validação ou mudar o significado só para fazer executar é o pior resultado possível

  • Fico me perguntando o que vai acontecer quando os LLMs tiverem consumido toda a informação da internet
    Se o Stack Overflow e o código open source desaparecerem, será que eles não vão acabar aprendendo de si mesmos até colapsar (model collapse)?

    • Model collapse é um conceito realmente estudado
      Mas muitos pesquisadores acham que, em escala real de dados, o risco não é tão grande
      Recentemente, 33% do modelo NVIDIA Nemotron 3 Nano foi treinado com dados sintéticos (synthetic data)
    • Talvez a IA evolua na direção do AlphaZero, criando e mantendo projetos por conta própria
      Seria possível rodar simulações incluindo funções de valor como facilidade de manutenção
    • Mas, se ela voltar a treinar com dados alucinados produzidos por IA, a qualidade pode cair aos poucos
      Se a IA não conseguir reconhecer os próprios erros, pode haver uma autodestruição gradual
    • No fim, parece que a era do compartilhamento pode acabar e dar lugar a colaborações pequenas e fechadas
      Talvez a internet de “sharing is caring” desapareça
    • Provavelmente no futuro o treinamento será feito só com snapshots da internet anteriores ao surgimento dos LLMs, e os dados adicionais serão curados por humanos
  • A IA não piorou; ela melhorou, mas a forma de usar mudou
    Com o scaffolding adequado, dá para obter resultados muito melhores
    Tirar a conclusão de que “a IA é burra” a partir de um teste simples é um erro

    • Houve quem respondesse: “então no fim é só dizer ‘você está usando errado’, não é?”
    • Mas também existe a opinião de que o próprio fato de exigir scaffolding já é um problema
      Por exemplo, se você perguntar “receita de dezembro”, a maioria dos modelos soma todos os meses de dezembro sem restringir o ano
      Esse tipo de erro lógico causa problemas no trabalho real
    • Desenvolvedores que escrevem código limpo e se comunicam com clareza tendem a lidar melhor com LLMs
      Parece que vocabulário técnico e capacidade de expressão afetam o desempenho
    • Esses textos parecem um tipo de conteúdo no estilo “Look Ma, I made the AI fail!
    • Mas também apontam que dizer “você precisa entender scaffolding” acaba sendo uma barreira para usuários comuns
  • Eu também senti variações mensais na qualidade dos modelos
    Às vezes parece que eles esqueceram coisas que antes faziam bem, como tratamento de erros ou convenções de nomes de variáveis
    Em conversas longas, a qualidade também pode cair. Parece haver um ponto ótimo de comprimento de prompt

    • Segundo a documentação do GitHub Copilot (link),
      é melhor começar novas tarefas em uma nova thread e apagar solicitações desnecessárias
    • No fim, a conversa inteira é uma única query, então quanto mais longa ela fica, mais a IA depende da capacidade de interpretar corretamente o contexto