- Recentemente, tem surgido uma queda geral na qualidade das ferramentas de assistência de codificação por IA, com uma tendência de piora na velocidade de trabalho e na precisão dos resultados em comparação com antes
- Os mais recentes grandes modelos de linguagem (LLMs) reduzem erros de sintaxe, mas passam a produzir com mais frequência falhas silenciosas (silent failure), em que o código roda, porém gera resultados errados
- Em experimentos, o GPT-5 encobre o problema gerando valores sem expor a causa do erro, enquanto o GPT-4 e versões antigas do Claude revelam de forma relativamente mais clara problemas nos dados ou no próprio código
- Essa mudança está ligada ao fato de que a qualidade dos dados foi se tornando menos nítida à medida que a aceitação do usuário passou a ser usada como sinal de treinamento
- Se não houver investimento em dados de alta qualidade e validação por especialistas, em vez de priorizar apenas o sucesso de execução no curto prazo, cresce o risco de um ciclo vicioso em que o modelo reaprende erros que ele mesmo produziu
Queda de desempenho nas ferramentas de assistência de codificação por IA
- Nos últimos meses, houve uma queda simultânea na eficiência de trabalho e na confiabilidade do código dessas ferramentas
- Tarefas que antes levavam 5 horas com ajuda da IA agora, em muitos casos, passam a exigir 7 ou 8 horas ou mais
- Alguns usuários voltaram a escolher LLMs de gerações anteriores por motivos de estabilidade
- Essa mudança tem sido observada repetidamente em ambientes de teste onde o código gerado por IA é executado sem intervenção humana
As “falhas silenciosas” mais marcantes nos novos modelos
- No passado, os problemas eram principalmente erros de sintaxe ou falhas lógicas evidentes, que apareciam imediatamente na fase de execução
- Os modelos mais recentes mostram uma tendência maior de gerar código que aparentemente roda normalmente, mas está semanticamente errado
- Remoção de verificações de segurança
- Geração de valores falsos apenas para manter o formato de saída
- Esses erros discretos demoram mais a ser descobertos e acabam gerando custos maiores e mais confusão nas etapas seguintes
- Isso entra em choque direto com o motivo pelo qual linguagens de programação modernas são projetadas para falhar de forma rápida e clara
Diferenças reveladas em um teste simples
- Foi apresentado a várias versões do ChatGPT um erro em código Python que referencia uma coluna inexistente
- GPT-4: na maioria dos casos, respondeu apontando a causa do erro ou induzindo o processo de depuração
- GPT-4.1: induziu a verificar o problema exibindo as colunas do dataframe
- GPT-5: realizou o cálculo usando índices reais para simular sucesso na execução do código, mas gerou valores sem sentido como resultado
- Uma tendência semelhante também foi observada nos modelos Claude
- As versões antigas focavam mais em reconhecer o problema
- As versões novas ignoravam o erro ou sugeriam soluções para contorná-lo
A ligação entre o método de treinamento e a queda de qualidade
- Os modelos iniciais eram treinados principalmente com grandes volumes de código existente; havia muitos erros, mas eles não escondiam o problema em si
- Depois, com a integração aos IDEs, o comportamento do usuário (aceitação do código e sucesso da execução) passou a ser usado como sinal de treinamento
- Com o aumento de usuários iniciantes, foi se acumulando o sinal de que se roda, então é um bom código, e o modelo aprendeu isso
- Como resultado, padrões imprecisos como remover verificações de segurança e gerar dados falsos foram reforçados
- Quanto mais aumentam os recursos de codificação automatizada, menor tende a ser a validação humana, fazendo com que o modelo repita esse aprendizado incorreto
O caminho necessário daqui para frente
- As ferramentas de assistência de codificação por IA continuam sendo recursos que elevam muito a produtividade e a acessibilidade no desenvolvimento
- No entanto, um treinamento centrado apenas no sucesso da execução prejudica a qualidade do código no longo prazo
- É indispensável garantir dados de alta qualidade rotulados por especialistas e um processo responsável de retreinamento
- Caso contrário, há grande chance de os modelos entrarem em um ciclo de saída errada → aprendizado errado → saída ainda pior
1 comentários
Comentários do Hacker News
É interessante como entusiastas de IA recorrem a experiências subjetivas quando falam de ganho de produtividade, mas exigem um ônus da prova excessivo de quem discorda
O autor até anunciou uma demonstração ao vivo por streaming, mas no fim não conseguiu concluir nem uma simples tarefa de expansão em uma hora
Acho que, se eu tivesse feito manualmente, teria levado um tempo parecido
Então perguntei nos comentários “onde estão as 10x de melhora?”, e ele desconversou dizendo que “foi um erro momentâneo” ou que “pôde fazer outras coisas enquanto a IA respondia”
Sinceramente, eu era cético no começo, mas torcia para estar errado. Não estava
No fim, o ônus da prova sobre a alegação de ganho de produtividade recai totalmente sobre quem faz a afirmação
Não acho que a IA seja capaz de pensamento original. Em vez disso, o recurso de autocompletar com Tab economiza muito tempo em loops, tratamento de erros, documentação etc.
A velocidade de resolver o problema em si continua a mesma, mas na etapa de implementação fica claramente mais rápido
Ou seja, se existe “ganho de 10x”, não é na resolução de problemas, e sim na velocidade de digitação
Mesmo em um projeto de 1 milhão de linhas em C#, houve grande aumento de produtividade sem perda de qualidade
Para os críticos, eu queria dizer: “me mostrem vocês mesmos”. Não é técnica secreta, só levou tempo para aprender a lidar com a ferramenta
Mas então por que essas pessoas não mostram os resultados incríveis que produziram, e em vez disso ficam tentando me convencer?
Fico desconfiado se não existe algum tipo de recompensa ou incentivo por trás
O problema não é que a IA tenha piorado, e sim que a reprodutibilidade dos resultados caiu
Assim como apps de corrida e entrega, o ecossistema de LLMs parece caminhar para uma estrutura de aumento de preços. Por enquanto é só um estado subsidiado por dinheiro de investimento
Agora está barato por causa do subsídio, mas em breve há grande chance de ficar barato mesmo sem subsídio
Ainda assim, usar os modelos mais avançados (SOTA) pode ficar mais caro. Mas essa já é outra questão de valor
Com 10 a 20 mil dólares dá para montar uma máquina que gera tokens o dia inteiro, e operadores em larga escala trabalham de forma ainda mais eficiente por economia de escala
Esse tipo de coisa ainda é difícil de confiar
Quando o dinheiro de investimento secar, os preços inevitavelmente subirão, e só depois que a concorrência desaparecer é que a estrutura real de custos vai aparecer
Alguns usuários acham estranhos os testes que dizem que “a IA piorou”
Por exemplo, se há um código que referencia uma coluna inexistente e você manda “entregue só o código final sem comentários”, a IA inevitavelmente vai acabar produzindo código errado
Um desenvolvedor competente deveria apontar: “essa solicitação está errada”. Esse teste é um experimento válido para revelar respostas bajuladoras (sycophantism)
Simplesmente entregar um resultado errado em silêncio é perigoso
Um erro desses está mais perto de uma alucinação (hallucination) de nível GPT-2
Eu gosto de ferramentas de apoio ao desenvolvimento com IA, mas não sei se isso é sempre um ganho absoluto
No passado eu tomava Huel para encurtar a hora do almoço, mas no fim acabei perdendo o valor do descanso
Com IA é parecido: se ela deixar passar detalhes, você acaba tendo de voltar atrás, e isso também custa tempo
Por isso eu criei um arquivo Markdown de 15k tokens com todo o contexto e as restrições do projeto, e coloco isso no prompt toda vez
É uma espécie de documento de “modelo de mundo”
Você passa a fazer mais trabalho no tempo que ganhou, enquanto a autoeficácia e a capacidade de resolver problemas enfraquecem
É fácil esquecer que essa “ineficiência” era, na verdade, o processo de adquirir conhecimento e insight
O ganho de produtividade com IA pode estar superestimado quando comparado ao custo operacional real
Eu esperava um artigo técnico da IEEE, então foi decepcionante ver que este texto está mais para um artigo de opinião (opinion piece)
Concordo que o GPT-5 foca demais em resolver o problema imediato e não enxerga o quadro geral, mas outros modelos ainda vão bem
Pessoalmente, eu uso Gemini-3-flash e uma extensão personalizada no lugar do Copilot, e acho muito mais útil, além de oferecer uma experiência de desenvolvimento personalizada
Recentemente vi o Cursor entrar num loop infinito repetindo
grep,cd,lsParece que exageraram nas funções para atingir muitos “vibe coders”. Uma versão mais leve era até mais fácil de usar
“Falhar na execução” não é necessariamente um mau sinal
Às vezes isso pode ser a resposta mais próxima do correto ou uma pista para encontrar um bug
Mas remover lógica de validação ou mudar o significado só para fazer executar é o pior resultado possível
Fico me perguntando o que vai acontecer quando os LLMs tiverem consumido toda a informação da internet
Se o Stack Overflow e o código open source desaparecerem, será que eles não vão acabar aprendendo de si mesmos até colapsar (model collapse)?
Mas muitos pesquisadores acham que, em escala real de dados, o risco não é tão grande
Recentemente, 33% do modelo NVIDIA Nemotron 3 Nano foi treinado com dados sintéticos (synthetic data)
Seria possível rodar simulações incluindo funções de valor como facilidade de manutenção
Se a IA não conseguir reconhecer os próprios erros, pode haver uma autodestruição gradual
Talvez a internet de “sharing is caring” desapareça
A IA não piorou; ela melhorou, mas a forma de usar mudou
Com o scaffolding adequado, dá para obter resultados muito melhores
Tirar a conclusão de que “a IA é burra” a partir de um teste simples é um erro
Por exemplo, se você perguntar “receita de dezembro”, a maioria dos modelos soma todos os meses de dezembro sem restringir o ano
Esse tipo de erro lógico causa problemas no trabalho real
Parece que vocabulário técnico e capacidade de expressão afetam o desempenho
Eu também senti variações mensais na qualidade dos modelos
Às vezes parece que eles esqueceram coisas que antes faziam bem, como tratamento de erros ou convenções de nomes de variáveis
Em conversas longas, a qualidade também pode cair. Parece haver um ponto ótimo de comprimento de prompt
é melhor começar novas tarefas em uma nova thread e apagar solicitações desnecessárias