Reflexões sobre a IA vistas do fim de 2025

(antirez.com)

21 pontos por GN⁺ 2025-12-23 | 2 comentários | Compartilhar no WhatsApp

A afirmação de que os LLMs não passam de papagaios estocásticos praticamente desapareceu em 2025, e a maioria passou a reconhecer que existem representações internas sobre o significado do prompt e a direção da resposta
Chain of Thought (CoT) se tornou uma técnica central para melhorar a qualidade de saída dos LLMs, combinando amostragem nas representações do modelo com aprendizado sequencial de tokens via aprendizado por reforço
Aprendizado por reforço com recompensas verificáveis abriu possibilidades de escalabilidade além do limite de quantidade de tokens, e deve ser a próxima direção central de avanço da IA
A resistência ao suporte à programação baseado em LLM caiu bastante, e o uso passou a se dividir entre colaboração por interface web e agentes de codificação independentes
Pesquisas em alternativas ao Transformer e a possibilidade de AGI avançam em paralelo, com o surgimento da visão de que diferentes arquiteturas podem atingir inteligência geral de forma independente

Durante muito tempo houve a alegação de que os LLMs eram máquinas probabilísticas (stochastic parrots) com duas características, incapazes de entender significado
- 1. Não possuíam absolutamente nenhuma informação sobre o significado do prompt
- 2. Também não possuíam absolutamente nenhuma informação sobre o que iriam dizer
Com o acúmulo contínuo de resultados funcionais e indícios científicos, essa visão foi perdendo poder de convencimento aos poucos, e em 2025 a alegação praticamente desapareceu

Chain of Thought (CoT) se firmou como uma técnica central para melhorar o desempenho atual dos LLMs
O efeito do CoT vem de trazer informações e conceitos relevantes para o contexto e permitir amostragem no espaço de representação interna do modelo, isto é, exploração interna
Quando combinado com aprendizado por reforço, o modelo aprende um processo de convergência para respostas úteis, alterando seu estado à medida que posiciona os tokens um a um

A visão anterior de que o limite de escalabilidade era determinado pela quantidade de tokens não é mais válida
A introdução do aprendizado por reforço baseado em recompensas verificáveis (RLVR) ampliou o alcance da escalabilidade
Em tarefas com sinais de recompensa claros, como melhorar a velocidade de programas, existe em teoria a possibilidade de melhoria contínua por longos períodos
O avanço do aprendizado por reforço aplicado a LLMs será a tecnologia central da próxima geração de IA

A resistência dos desenvolvedores à programação assistida por IA diminuiu visivelmente
Mesmo quando os LLMs erram, sua capacidade de fornecer código útil e pistas melhorou muito
Com a relação custo-benefício ficando clara, até desenvolvedores céticos passaram a usar essas ferramentas
Convivem tanto o uso do LLM como um colega via interface web quanto o uso como agente de codificação independente

Entre alguns cientistas de IA renomados, se espalhou a percepção de que outro avanço pode surgir mesmo após o Transformer
- Surgiram equipes e empresas explorando alternativas ao Transformer, representação simbólica explícita (symbolic representation) e modelos de mundo (world model)
Considera-se que os LLMs são máquinas diferenciáveis treinadas em um espaço capaz de aproximar etapas discretas de raciocínio
Há quem considere que seja possível alcançar AGI por meio dos LLMs mesmo sem um paradigma fundamentalmente novo
Pode ser possível chegar independentemente à inteligência artificial geral (AGI) por meio de diferentes arquiteturas

Também surgiu a alegação de que o Chain of Thought mudou a natureza dos LLMs
Observa-se que pessoas que antes avaliavam os LLMs como limitados mudaram de posição depois do CoT
Elas dizem que os LLMs ficaram completamente diferentes por causa do CoT, mas isso é falso
Continua sendo a mesma arquitetura com o objetivo do próximo token, e o CoT continua exatamente o mesmo processo de geração token por token

No passado, o teste ARC usado para verificar os limites dos LLMs agora se transformou em um indicador para demonstrar seu desempenho
Diferentemente do início, o teste ARC já não parece mais uma tarefa impossível de superar
Modelos pequenos otimizados para tarefas específicas alcançaram resultados significativos no ARC-AGI-1
Com uma arquitetura da qual muitos achavam que não sairia resultado, foram alcançados resultados impressionantes no ARC-AGI-2 usando grandes LLMs e CoT extensivo

Nos próximos 20 anos, o desafio mais fundamental que a IA enfrentará será evitar a extinção da humanidade

2 comentários

xguru 2025-12-23

Vale a pena ler junto com a review anual de LLMs de 2025 do Andrej Karpathy.

GN⁺ 2025-12-23

Opiniões do Hacker News

Mesmo com os LLMs tendo se tornado muito úteis para engenheiros de software, assusta o quanto a sociedade em geral confia nas respostas deles
Desenvolvedores podem executar o código e verificar sua utilidade imediatamente, mas pessoas comuns muitas vezes acreditam em alucinações (hallucinations) como se fossem fatos em áreas difíceis de validar, como medicina ou aconselhamento de vida
Ao ver citações falsas ou notícias inventadas influenciarem decisões reais, parece que todos estão ignorando a questão da responsabilização (accountability)
- O cerne do problema é a falta de especialistas
  Na prática, ninguém pode perguntar a um médico dez vezes por dia, e um LLM entrega respostas em nível de 80–90% na hora
  É melhor do que buscar no Google e, acima de tudo, o LLM não tenta enganar nem agir em benefício próprio
  Não é perfeito, mas é uma alternativa boa o bastante
- Mesmo na área de redes de computadores, que eu conheço bem, o LLM frequentemente dá respostas plausíveis, mas erradas
  Ainda assim, a maioria das pessoas quase nunca tem chance de conversar com um especialista de verdade, e muitas vezes o LLM é um degrau acima de blogs ou fóruns
  O mesmo vale para conselhos médicos: considerando a baixa acessibilidade a especialistas, usar LLM não é necessariamente algo ruim
- No mundo de hoje, parece difícil confiar em fontes de informação com incentivo de lucro
  Os LLMs ainda tentam fornecer informações relativamente confiáveis, mas assusta ver o mundo ficando cada vez mais confuso e mais difícil de entender o que realmente está acontecendo
- Houve um caso em que a política sueca Ebba Busch escreveu um discurso com LLM e acabou incluindo uma citação falsa
  Link da matéria
  Terminou com um pedido de desculpas, mas fica a dúvida de quantas informações erradas já estão afetando decisões reais
- Código também pode parecer correto à primeira vista, mas estar sutilmente errado
  Um mecanismo de busca tradicional não pressiona você a fazer merge do PR, e nisso ele é diferente de um LLM
Como alguém com mais de 30 mil horas de programação, sinto que os LLMs frequentemente produzem código ruim, mas ainda assim são muito úteis
O segredo é saber o que precisa ser feito mesmo sem o LLM
- Economicamente, quase não existem empresas de IA lucrando apenas com o custo de inferência, e parece que o avanço técnico entrou numa fase de estagnação
  Em algum momento será preciso alinhar isso a uma estrutura de custos realista
- Usar LLM parece quase uma “ação grátis”
  Você joga o problema lá, vai fazer outra coisa e depois revisa o resultado
  Se exigisse muito esforço de entrada, não seria tão útil assim
- Se você pedir diretamente a implementação de uma funcionalidade para os modelos mais recentes, a estrutura costuma ser fraca, mas se pedir conselhos de arquitetura, eles dão respostas excelentes
  No fim, no estado padrão eles são fracos, mas viram ótimos arquitetos quando o problema é bem definido
- Ainda assim, fico em dúvida sobre quantos programadores vão restar daqui a 10 anos que entendam essas limitações
  Já tenho curiosidade sobre como os empregadores avaliam desenvolvedores juniores hoje
Não gosto da expressão “a resistência dos programadores à IA diminuiu”
Palavras como “resistência” ou “céticos” carregam a nuance de que essas pessoas estavam erradas
A mudança aconteceu não por causa das pessoas, mas porque a tecnologia evoluiu
- A própria palavra “cético” é vaga
  Eu uso LLM de forma muito útil para geração de código e busca em documentação, mas não acredito que ele tenha inteligência
  Assim como Python não substituiu Java, LLM também não vai acabar com empregos
  A alegação extrema de que “a IA vai superar a inteligência humana” ainda não foi provada
- Um dos motivos para a queda da resistência é a imposição da gestão
  Num ambiente em que o clima é “se você não amar IA, pode ser demitido”, todo mundo acaba dizendo que gosta
- O campo anti-IA continua ativo
  Mesmo em 2026, não param de surgir comentários dizendo que “LLM não serve para nada”
  Eu uso de forma leve, gastando uns 20 dólares por mês, mas quando compartilho dicas de uso sou tratado como “propagandista de IA”
- A afirmação de que “LLM é só um previsor do próximo token” é uma visão claramente errada
  Essas pessoas realmente estão pensando de forma equivocada
- Se olhar o thread sobre vibe coding de 10 meses atrás, dá para ver o tamanho da resistência naquela época
  Agora a tecnologia evoluiu e foi ajustada ao gosto dos programadores
Acho que os LLMs não cumpriram a promessa de avanço exponencial feita em 2022–2023
A diferença entre 2025 e 2023 não é tão grande quanto a diferença entre 2023 e 2021
Ainda assim, continuam úteis e mudaram a forma de escrever software
Mas as pessoas ainda mostram uma obsessão em querer que os LLMs sejam mais do que isso
Também já vi gente entrar em psicose de IA (psychosis), perder relações humanas ou transformar a IA em terapeuta permanente
- Dizer que “a diferença entre 2025 e 2023 não é tão grande” é absurdo
  Só olhando para o tamanho de contexto, por exemplo, o GPT‑4 foi de 8K para milhões de palavras
  Se considerar também raciocínio e multimodalidade, o avanço foi enorme
- Minha hipótese conspiratória é que o discurso apocalíptico sobre AGI vem de um pensamento elitista
  Por que o futuro da AGI teria sempre de ser catastrófico?
  Talvez porque apenas uma “AGI maligna” sirva para justificar o poder da elite tecnológica
Os LLMs parecem uma tecnologia que explora de forma astuta a psicologia humana
As pessoas não estão mentalmente preparadas para lidar com isso
- ChatGPT e Claude Code parecem literalmente máquinas industriais de bajulação
  Ficam elogiando o usuário sem parar para conquistar sua simpatia
- O problema já é conhecido
  Como chatbots não criticam e puxam saco, logo são promovidos à condição de conselheiros pessoais
  Parece quase o Olho de Sauron na era tecnológica
Ao ler que os LLMs podem continuar avançando em tarefas com sinais claros de recompensa, como “otimização de velocidade”, pensei na lei de Goodhart
Segundo a Goodhart’s law, quando uma métrica vira objetivo, surgem distorções
Isso pode gerar código rápido, mas difícil de entender
- Mesmo quando humanos otimizam, muitas vezes a legibilidade e a manutenibilidade pioram
  É bem provável que os LLMs produzam resultados parecidos
- Na verdade, essa abordagem não é nova
  Superoptimization existe desde 1987 e gera código rápido, mas incompreensível
- No fim, se a estrutura for razoavelmente aceitável, isso significa que surgem kernels que não precisam ser mexidos
Não concordo com a frase “código é grátis”
Por trás do código gerado por LLM há datacenters consumindo energia, água e recursos
Essa cultura de “programação grátis” está causando danos reais ao planeta
- Mas o cultivo de milho nos EUA usa 80 vezes mais água do que todos os datacenters de IA do mundo
  É preciso contexto
- Então como isso se compara com coisas do dia a dia como dirigir, tomar banho, comer carne ou viajar de avião?
  É preciso olhar os números de forma relativa
- A palavra “grátis” só quer dizer que não há custo de mão de obra
  Na prática, existem custos que não são convertidos em dinheiro
Houve a crítica de que “isso é só uma coleção de afirmações sem fundamento”
- Um blog é, por natureza, um formato de escrita para registrar pensamentos pessoais
  Nem todo texto precisa ser um artigo acadêmico
- O autor é o criador do Redis; não é pesquisador de IA, mas ainda assim é um programador bastante conhecido
- No fim, este é um blog chamado “Reflections”
  É apenas um espaço para compartilhar opiniões
- Nesse caso, o mais importante é no que você acredita e o que você pensa sobre esse texto
Não concordo com a afirmação de que “LLM não expressa significado”
O próprio mecanismo de attention do Transformer é uma estrutura que cria várias camadas de representação de significado
Quanto maior o número de parâmetros, mais representações (representations) podem ser armazenadas
Pesquisadores dificilmente negariam esse princípio básico
Eu também acho que existe possibilidade de chegar à AGI sem um novo paradigma
- Ainda assim, isso pode ser apenas uma confusão conceitual surgida porque cada pessoa entende a palavra “significado” de um jeito diferente
Sobre a crítica de que “só foram empilhadas afirmações impossíveis de verificar”,
trata-se simplesmente de um texto expressando opiniões
Blogs são esse tipo de espaço, e às vezes esse tipo de pensamento abre novas perspectivas

Reflexões sobre a IA vistas do fim de 2025

Leituras relacionadas

2 comentários

Opiniões do Hacker News