- A afirmação de que os LLMs não passam de papagaios estocásticos praticamente desapareceu em 2025, e a maioria passou a reconhecer que existem representações internas sobre o significado do prompt e a direção da resposta
- Chain of Thought (CoT) se tornou uma técnica central para melhorar a qualidade de saída dos LLMs, combinando amostragem nas representações do modelo com aprendizado sequencial de tokens via aprendizado por reforço
- Aprendizado por reforço com recompensas verificáveis abriu possibilidades de escalabilidade além do limite de quantidade de tokens, e deve ser a próxima direção central de avanço da IA
- A resistência ao suporte à programação baseado em LLM caiu bastante, e o uso passou a se dividir entre colaboração por interface web e agentes de codificação independentes
- Pesquisas em alternativas ao Transformer e a possibilidade de AGI avançam em paralelo, com o surgimento da visão de que diferentes arquiteturas podem atingir inteligência geral de forma independente
- Durante muito tempo houve a alegação de que os LLMs eram máquinas probabilísticas (stochastic parrots) com duas características, incapazes de entender significado
- 1. Não possuíam absolutamente nenhuma informação sobre o significado do prompt
- 2. Também não possuíam absolutamente nenhuma informação sobre o que iriam dizer
- Com o acúmulo contínuo de resultados funcionais e indícios científicos, essa visão foi perdendo poder de convencimento aos poucos, e em 2025 a alegação praticamente desapareceu
- Chain of Thought (CoT) se firmou como uma técnica central para melhorar o desempenho atual dos LLMs
- O efeito do CoT vem de trazer informações e conceitos relevantes para o contexto e permitir amostragem no espaço de representação interna do modelo, isto é, exploração interna
- Quando combinado com aprendizado por reforço, o modelo aprende um processo de convergência para respostas úteis, alterando seu estado à medida que posiciona os tokens um a um
- A visão anterior de que o limite de escalabilidade era determinado pela quantidade de tokens não é mais válida
- A introdução do aprendizado por reforço baseado em recompensas verificáveis (RLVR) ampliou o alcance da escalabilidade
- Em tarefas com sinais de recompensa claros, como melhorar a velocidade de programas, existe em teoria a possibilidade de melhoria contínua por longos períodos
- O avanço do aprendizado por reforço aplicado a LLMs será a tecnologia central da próxima geração de IA
- A resistência dos desenvolvedores à programação assistida por IA diminuiu visivelmente
- Mesmo quando os LLMs erram, sua capacidade de fornecer código útil e pistas melhorou muito
- Com a relação custo-benefício ficando clara, até desenvolvedores céticos passaram a usar essas ferramentas
- Convivem tanto o uso do LLM como um colega via interface web quanto o uso como agente de codificação independente
- Entre alguns cientistas de IA renomados, se espalhou a percepção de que outro avanço pode surgir mesmo após o Transformer
- Surgiram equipes e empresas explorando alternativas ao Transformer, representação simbólica explícita (symbolic representation) e modelos de mundo (world model)
- Considera-se que os LLMs são máquinas diferenciáveis treinadas em um espaço capaz de aproximar etapas discretas de raciocínio
- Há quem considere que seja possível alcançar AGI por meio dos LLMs mesmo sem um paradigma fundamentalmente novo
- Pode ser possível chegar independentemente à inteligência artificial geral (AGI) por meio de diferentes arquiteturas
- Também surgiu a alegação de que o Chain of Thought mudou a natureza dos LLMs
- Observa-se que pessoas que antes avaliavam os LLMs como limitados mudaram de posição depois do CoT
- Elas dizem que os LLMs ficaram completamente diferentes por causa do CoT, mas isso é falso
- Continua sendo a mesma arquitetura com o objetivo do próximo token, e o CoT continua exatamente o mesmo processo de geração token por token
- No passado, o teste ARC usado para verificar os limites dos LLMs agora se transformou em um indicador para demonstrar seu desempenho
- Diferentemente do início, o teste ARC já não parece mais uma tarefa impossível de superar
- Modelos pequenos otimizados para tarefas específicas alcançaram resultados significativos no ARC-AGI-1
- Com uma arquitetura da qual muitos achavam que não sairia resultado, foram alcançados resultados impressionantes no ARC-AGI-2 usando grandes LLMs e CoT extensivo
- Nos próximos 20 anos, o desafio mais fundamental que a IA enfrentará será evitar a extinção da humanidade
2 comentários
Vale a pena ler junto com a review anual de LLMs de 2025 do Andrej Karpathy.
Opiniões do Hacker News
Mesmo com os LLMs tendo se tornado muito úteis para engenheiros de software, assusta o quanto a sociedade em geral confia nas respostas deles
Desenvolvedores podem executar o código e verificar sua utilidade imediatamente, mas pessoas comuns muitas vezes acreditam em alucinações (hallucinations) como se fossem fatos em áreas difíceis de validar, como medicina ou aconselhamento de vida
Ao ver citações falsas ou notícias inventadas influenciarem decisões reais, parece que todos estão ignorando a questão da responsabilização (accountability)
Na prática, ninguém pode perguntar a um médico dez vezes por dia, e um LLM entrega respostas em nível de 80–90% na hora
É melhor do que buscar no Google e, acima de tudo, o LLM não tenta enganar nem agir em benefício próprio
Não é perfeito, mas é uma alternativa boa o bastante
Ainda assim, a maioria das pessoas quase nunca tem chance de conversar com um especialista de verdade, e muitas vezes o LLM é um degrau acima de blogs ou fóruns
O mesmo vale para conselhos médicos: considerando a baixa acessibilidade a especialistas, usar LLM não é necessariamente algo ruim
Os LLMs ainda tentam fornecer informações relativamente confiáveis, mas assusta ver o mundo ficando cada vez mais confuso e mais difícil de entender o que realmente está acontecendo
Link da matéria
Terminou com um pedido de desculpas, mas fica a dúvida de quantas informações erradas já estão afetando decisões reais
Um mecanismo de busca tradicional não pressiona você a fazer merge do PR, e nisso ele é diferente de um LLM
Como alguém com mais de 30 mil horas de programação, sinto que os LLMs frequentemente produzem código ruim, mas ainda assim são muito úteis
O segredo é saber o que precisa ser feito mesmo sem o LLM
Em algum momento será preciso alinhar isso a uma estrutura de custos realista
Você joga o problema lá, vai fazer outra coisa e depois revisa o resultado
Se exigisse muito esforço de entrada, não seria tão útil assim
No fim, no estado padrão eles são fracos, mas viram ótimos arquitetos quando o problema é bem definido
Já tenho curiosidade sobre como os empregadores avaliam desenvolvedores juniores hoje
Não gosto da expressão “a resistência dos programadores à IA diminuiu”
Palavras como “resistência” ou “céticos” carregam a nuance de que essas pessoas estavam erradas
A mudança aconteceu não por causa das pessoas, mas porque a tecnologia evoluiu
Eu uso LLM de forma muito útil para geração de código e busca em documentação, mas não acredito que ele tenha inteligência
Assim como Python não substituiu Java, LLM também não vai acabar com empregos
A alegação extrema de que “a IA vai superar a inteligência humana” ainda não foi provada
Num ambiente em que o clima é “se você não amar IA, pode ser demitido”, todo mundo acaba dizendo que gosta
Mesmo em 2026, não param de surgir comentários dizendo que “LLM não serve para nada”
Eu uso de forma leve, gastando uns 20 dólares por mês, mas quando compartilho dicas de uso sou tratado como “propagandista de IA”
Essas pessoas realmente estão pensando de forma equivocada
Agora a tecnologia evoluiu e foi ajustada ao gosto dos programadores
Acho que os LLMs não cumpriram a promessa de avanço exponencial feita em 2022–2023
A diferença entre 2025 e 2023 não é tão grande quanto a diferença entre 2023 e 2021
Ainda assim, continuam úteis e mudaram a forma de escrever software
Mas as pessoas ainda mostram uma obsessão em querer que os LLMs sejam mais do que isso
Também já vi gente entrar em psicose de IA (psychosis), perder relações humanas ou transformar a IA em terapeuta permanente
Só olhando para o tamanho de contexto, por exemplo, o GPT‑4 foi de 8K para milhões de palavras
Se considerar também raciocínio e multimodalidade, o avanço foi enorme
Por que o futuro da AGI teria sempre de ser catastrófico?
Talvez porque apenas uma “AGI maligna” sirva para justificar o poder da elite tecnológica
Os LLMs parecem uma tecnologia que explora de forma astuta a psicologia humana
As pessoas não estão mentalmente preparadas para lidar com isso
Ficam elogiando o usuário sem parar para conquistar sua simpatia
Como chatbots não criticam e puxam saco, logo são promovidos à condição de conselheiros pessoais
Parece quase o Olho de Sauron na era tecnológica
Ao ler que os LLMs podem continuar avançando em tarefas com sinais claros de recompensa, como “otimização de velocidade”, pensei na lei de Goodhart
Segundo a Goodhart’s law, quando uma métrica vira objetivo, surgem distorções
Isso pode gerar código rápido, mas difícil de entender
É bem provável que os LLMs produzam resultados parecidos
Superoptimization existe desde 1987 e gera código rápido, mas incompreensível
Não concordo com a frase “código é grátis”
Por trás do código gerado por LLM há datacenters consumindo energia, água e recursos
Essa cultura de “programação grátis” está causando danos reais ao planeta
É preciso contexto
É preciso olhar os números de forma relativa
Na prática, existem custos que não são convertidos em dinheiro
Houve a crítica de que “isso é só uma coleção de afirmações sem fundamento”
Nem todo texto precisa ser um artigo acadêmico
É apenas um espaço para compartilhar opiniões
Não concordo com a afirmação de que “LLM não expressa significado”
O próprio mecanismo de attention do Transformer é uma estrutura que cria várias camadas de representação de significado
Quanto maior o número de parâmetros, mais representações (representations) podem ser armazenadas
Pesquisadores dificilmente negariam esse princípio básico
Eu também acho que existe possibilidade de chegar à AGI sem um novo paradigma
Sobre a crítica de que “só foram empilhadas afirmações impossíveis de verificar”,
trata-se simplesmente de um texto expressando opiniões
Blogs são esse tipo de espaço, e às vezes esse tipo de pensamento abre novas perspectivas