6 pontos por GN⁺ 2025-08-11 | 5 comentários | Compartilhar no WhatsApp
  • Apesar da expectativa em torno do GPT-5, a decepção da comunidade aumentou significativamente após seu lançamento real
  • O GPT-5 não mostra diferença substancial em relação aos modelos anteriores e, em alguns benchmarks, até houve piora de desempenho
  • Pesquisas recentes confirmaram que os limites de generalização e o problema de mudança de distribuição dos grandes modelos de linguagem (LLM) ainda são graves
  • A perda de liderança tecnológica da OpenAI, a saída de profissionais-chave e a perseguição de concorrentes tornam opaca a manutenção do valor corporativo
  • O aumento do ceticismo sobre as promessas de realização de AGI ampliou a percepção, em toda a indústria, de que a abordagem de ‘escalonamento puro’ tem limites

O lançamento e as expectativas do GPT-5

  • A liberação do GPT-5, anunciada pela OpenAI por muito tempo, enfim aconteceu
  • Sam Altman, CEO, utilizou ativamente um discurso confiante e uma imagem de marketing antes e depois do lançamento
  • No entanto, após o lançamento do GPT-5, além de alguns influenciadores, a decepção predominou na maioria das comunidades
  • Os usuários ficaram bastante decepcionados com o novo modelo, e até ocorreu a aprovação de um abaixo-assinado pedindo o retorno da versão antiga
  • Diferentemente do marketing e das afirmações de Altman, o retorno real de uso inclinou-se de forma acentuada para avaliações negativas

Reação da comunidade e da mídia

  • Em comunidades como OpenAI Reddit, Hacker News e várias outras, destacaram-se os problemas do GPT-5, como erros, alucinação (hallucination)
  • Em benchmarks de desempenho principais, o GPT-5 também chegou a ficar abaixo de modelos concorrentes como o Grok 4
  • Recursos novos, como roteamento automático, também revelaram confusão e execução insuficiente
  • Em um cenário no qual as expectativas da comunidade cresceram rapidamente, o GPT-5 acabou deixando uma grande decepção
  • Na enquete da Polymarket no dia do lançamento, a confiança na liderança de IA da OpenAI caiu de 75% para 14% em 1 hora

Limites estruturais: xadrez, compreensão visual, raciocínio

  • O problema de erros de raciocínio básicos e de não cumprir regras de xadrez, apontado pelo autor e por vários especialistas, ainda persiste
  • Em áreas como geração de imagem, surgem limitações claras em relação parte-todo, consistência visual etc.
  • O GPT-5 comete erros em questões em que nem um doutor em engenharia mecânica nem um leigo costuma errar
  • Foram relatados muitos casos de erro também em tarefas básicas como resumo e leitura/compreensão
  • O GPT-5 é um modelo de melhora progressiva, mas não há melhora marcante em termos de inovação em comparação com o ano passado

A situação atual e as perspectivas da OpenAI

  • O GPT-5 ficou apenas no nível de melhoria progressiva em relação aos modelos anteriores, e suas falhas críticas se repetiram
  • A confiança na liderança tecnológica da OpenAI vem caindo no mercado e na indústria
  • Vários profissionais-chave saíram para fundar concorrentes ou se transferiram, enquanto Anthropic, Google, Elon Musk avançam rapidamente
  • Pressão por redução de preços, problemas de lucratividade e deterioração da relação com a Microsoft ampliam os riscos estruturais
  • A descrença na possibilidade de AGI baseada em LLM e a queda de confiança em Sam Altman se aprofundaram

Limites fundamentais dos LLM: generalização e mudança de distribuição

  • Em estudo recente da Arizona State University, foi confirmado que até o raciocínio de Chain of Thought desaba ao sair da distribuição de treinamento
  • A estrutura vulnerável à mudança de distribuição (distribution shift), já apontada por Apple e outros concorrentes, foi novamente encontrada de forma idêntica em modelos mais recentes
  • Isso mostra que a causa raiz para os LLMs encontrarem repetidamente limites qualitativos é que não se consegue superá-la apenas com grande escala de parâmetros
  • Mostra que a estratégia de escalonamento, na qual foram investidos bilhões de dólares, falhou em resolver problemas essenciais
  • Se espalha a percepção de que é preciso procurar um novo paradigma

Os limites de ‘escalonamento’ na indústria de IA

  • Há marketing inflado em torno de AGI, automação de direção e cronogramas fantasiosos
  • Benchmarks com desempenho distorcido, avaliação em caixa-preta e falta de transparência permanecem graves
  • Muitas pessoas começaram a reconhecer o termo AGI como um meio de encantar investidores e o público
  • O otimismo em relação à IA e a cobrança também aumentam ao mesmo tempo
  • A realidade é que a abordagem de escalonamento puro colidiu com um beco sem saída

Alternativas e conclusão

  • O GPT-5 pode ter ficado mais barato, mas os limites qualitativos em xadrez, raciocínio, capacidades visuais e matemáticas permanecem
  • Modelos concorrentes como Grok, Claude e Gemini também repetem problemas semelhantes
  • O problema de mudança de distribuição (distribution shift) permanece sem solução
  • Passa a ganhar força a tese de que é necessária uma nova abordagem, como IA neuro-simbólica (neurosymbolic AI) e métodos baseados em world models
  • Reforça-se que a inovação algorítmica combinada é indispensável para realizar AGI, e não o escalonamento puro

Próximos temas e PS anunciados

  • Além das limitações de LLMs encontradas nesta semana, isso sugere que outra questão científica grave será revelada
  • Anuncia-se no próximo post a troca de informações sobre conteúdo separado

Resumo

  • Foram amplamente discutidos as expectativas e reações da indústria e da comunidade antes e depois do lançamento do GPT-5, os limites estruturais dos LLM, o futuro da OpenAI e a realidade do enquadramento de AGI
  • Todo o conteúdo oferece sinais importantes para profissionais de startups e de TI sobre LLM, limites reais do GPT-5, investimento/expectativa/frustração com IA, questões de inovação, tendências de pesquisa

5 comentários

 
gnsdl116 2025-08-12

Parece um pessimismo excessivo.
Entendo as preocupações, mas o processo de avanço tecnológico não precisa ser necessariamente uma linha ascendente contínua.

 
mammal 2025-08-11

Pior é que a pessoa que escreveu o post foi o Gary Marcus, que só fala besteira, então...

 
dongho42 2025-08-11

Se tivessem feito um show&prove quietinho como a Google, provavelmente não teria chegado a esse ponto. Pelo que rolou até agora, acho que é uma consequência merecida de todo esse hype por causa de frases como “isso é perigoso demais”, “o que é esse bicho da morte?”, “parece que criaram uma bomba atômica” e de tanto criar hype do nada.

 
dongho42 2025-08-11

E, durante a apresentação, o jeito em que ele mostrou os benchmarks também incluiu um erro totalmente absurdo, o que acho que também contribuiu para uma impressão geral ruim.

 
GN⁺ 2025-08-11
Opinião do Hacker News
  • Eu ainda acho que o GPT-5 é, na prática, uma estratégia de redução de custos, porque a OpenAI é uma empresa orientada para crescimento tentando ganhar 1 bilhão de usuários em produtos que exigem GPU.

    • Ninguém fala do GPT-5 Pro, mas eu testei pessoalmente e ele é muito melhor que o Grok 4 Heavy e o Opus 4.1.
    • É tecnologia totalmente de ponta, e se o modelo for rodado no máximo desempenho, pode chegar a milhares de dólares por mês por pessoa.
    • Então está sendo disponibilizado de forma limitada; a OpenAI não está mirando esse segmento de mercado, e sim numa estratégia de crescimento para enfrentar o Google.
    • Como o Pro nunca foi mencionado, não confio nessa opinião.
  • Na minha visão, não é impressão minha que o GPT-5 Pro seja bem melhor que o o3-pro (talvez nem seja); ele é bem mais lento e a qualidade da saída é semelhante.

    • Continua lento e ainda erra o ponto principal.
    • Mas parece um pouco melhor em sugerir novas abordagens para resolução de problemas.
    • Minha primeira impressão foi de que o 5-pro tem 0-2% mais conhecimento e 5-10% mais criatividade/ originalidade que o o3-pro.
    • O “tom” e a personalidade do modelo são idênticos.
    • Em tarefas específicas (lógica formal, análise de dados, tarefas analíticas curtas), é literalmente sobre-humano e supera qualquer versão do Grok ou do Gemini.
    • Mas para prosa e escrita geral, fica claramente abaixo de Kimi K2 e Deepseek R1.
    • O mais surpreendente é que os melhores modelos de prosa em inglês agora são os chineses: não é só por não usar o “estilo de IA” do GPT, o nível do Kimi é equiparável ao de poetas realmente publicados.
  • Conferi na minha rede e não tem ninguém usando o GPT-5 Pro.

    • Fiquei especialmente curioso para ouvir feedback comparando com o o3.
  • Concordo com esse ponto, mas também penso que há intenção de disponibilizar um modelo melhor para o público em geral.

    • O o3 foi ótimo, mas muita gente ainda não usava.
    • Quando perguntei a quem usa ChatGPT todos os dias se já tinha usado o o3, muitos ficaram sem expressão.
    • Então acho que também há objetivo de popularizar um modelo de reasoning, o que aumenta custos da OpenAI.
    • Mas por causa da camada de roteamento, há economia de custo para usuários power (a maioria no HN).
    • De qualquer forma, usuários avançados logo vão aprender a forçar o uso de modelos de reasoning.
  • Pelo que sei, o Pro não pode ser usado via API; isso está certo?

    • Queria saber se seria possível usar via assinatura usando Codex CLI.
  • Concordo.

    • Outro pano de fundo dessa decisão é que, para a maioria dos usuários, os modelos atuais já são suficientes.
    • Diferente de usuários do HN, usuários comuns não têm tanto interesse em tecnologia de ponta.
  • Eu sou particularmente irritado com esse tipo de artigo.

    • Em vez de escrever explicando por que acha que o GPT-5 é ruim após análise própria, acaba só copiando reações de redes sociais e exagerando toda crítica como “chocante” ou “assalto”, para empurrar sua opinião.

    • Está tão enviesado que não é jornalismo nem análise original.

    • Tenho a impressão de que artigos de IA, em geral, carecem de curiosidade e tendem mais a deboche e desmerecimento.

      • Gosto de IA, mas leio com disposição qualquer texto sério de quem pensa diferente.
      • Mas esse tipo de texto é de outra categoria; fora a crítica ao oponente, não tem valor.
      • Acho que a moderação do HN não é ruim, e textos sem curiosidade assim deveriam desaparecer da principal.
    • O Gary Marcus quase sempre tem análise rasa.

      • A opinião dele é bastante parecida com as explicações de mercado do Jim Cramer.
      • Dá quase para apostar sério numa estratégia de “Reverse Gary Marcus”.
    • O Gary Marcus sempre, literalmente sempre, afirma que IA não funciona de verdade — o que ele acerta é quase aleatório.

    • É um post de blog sobre se o GPT-5 correspondeu ao overpromise e que reação está recebendo.

      • Esse tema é plenamente legítimo.
      • Como é o blog do Gary Marcus, naturalmente pode ficar enviesado pela opinião dele, diferente de matéria da BBC.
    • Acho que o problema real é que fica cada vez mais difícil encontrar opinião genuína.

      • No ambiente online, a maioria fica no nível de reprocessar opinião alheia, com excesso de conteúdo barulhento e raso.
  • Na minha experiência, essa “atualização” foi um grande downgrade para quem é usuário Plus.

    • O GPT-5 tem qualidade de resposta abaixo do O3, pensa menos vezes e também não usa busca web como o O3.

    • Mesmo escolhendo ‘thinking’ e instruindo com clareza, não resolve.

    • Agora preciso usar o Gemini para ter saída de qualidade parecida.

    • E os GPTs personalizados (mais informações) também estão quebrados; meu GPT customizado de revisão gramatical ignora comandos, independentemente do modelo.

    • A opção de deep research também está estranha: selecionar essa opção não muda a resposta, nem as instruções, de forma nenhuma.

    • Projects também parece quebrado.

      • Não segue instruções corretamente e responde em espanhol, ou ignora minha pergunta.
      • Às vezes parece que está conversando comigo; não importa qual tecla eu aperte, continua repetindo a mesma resposta indesejada, até em espanhol.
    • Parece que querem empurrar para plano gratuito de propósito, ou colocar publicidade a partir do começo do ano que vem, ou direcionar para plano de US$ 200.

      • Acho que daqui pra frente não haverá mais plano de US$ 20 sem publicidade.
    • As alucinações (informação falsa) estão muito fortes.

      • Muito decepcionante.
  • A comunidade de IA precisa de especialistas independentes como o Marcus.

    • É preciso manter sinceridade e transparência sem ser levado pelo exagero da indústria ou por mudança de critérios internos (ex.: “AGI alcançado internamente”, etc.).

    • Independentemente do estilo dele, o Marcus já teve ocasiões em que acertou ao apontar limites da scaling law e a real ausência de raciocínio em IAs tipo LLM (generalização fora da distribuição), entre vários problemas.

    • A indústria tem o hábito de inicialmente desacreditar algo e, depois de um tempo, dizer que descobriu algo novo (Prompt Chain, LLMs baseados em RL etc.) como descoberta própria, kkk.

    • Em fluxos inflados, é essencial existir uma voz crítica.

      • A maior voz em LLMs é, em geral, do lado que ganha economicamente.
      • Eu também não sou contra IA, mas a narrativa de que tudo na economia vai acabar em desemprego por causa disso é absurda (os motivos reais da economia ruim estão em outros lugares; geralmente, na liderança de cada país).
      • Quando a velocidade da inovação desacelerar, espero ao menos que os produtos que uso parem de enfiar AI funcionalidade à força e voltem a focar em recurso real e correção de bugs.
    • Discordo fortemente.

      • Esse ensaio se parece mais com compilado de reclamações do Reddit, sem resultado de teste direto, e trata apenas do problema do lançamento simultâneo para 500 milhões.
      • Críticas assim perdem pontos importantes do lançamento do 5; este é justamente o primeiro lançamento de um “AI full product”, agora saímos da melhoria do modelo para desenho de serviço real.
      • O ponto importante é que ficou mais rápido, mais integrado e possibilitou inovação incremental (interação multimodal, geração de imagem etc.).
      • Em especial, há grande avanço em manter contexto longo e persistência de metas de longo prazo.
      • O Willison também disse que usa para trabalho de código, e eu também sinto que em tarefas de código mais longas e complexas ele é claramente melhor que o Claude e até os melhores modelos anteriores (o3-pro, Gemini).
      • Também é muito mais rápido em codificação do que o o3-pro.
      • A análise do tipo “usuários do Reddit são apegados ao 4o então não gostam desse lançamento → oAI fracassa” é fraca e sem sentido.
    • Não conecto a maioria dessas limitações e percepções erradas de IA ao Marcus.

      • Não penso que seja por causa dele.
  • O ponto mais importante de melhoria para o GPT hoje é “dizer que não sabe” quando não sabe.

    • Hoje tentei descobrir, em um mod de Cyberpunk 2077, como gerar NPCs automaticamente com redscript, e foi realmente difícil achar.

    • O ChatGPT 5, apesar de dizer que está fazendo “research”, inventa APIs e repete alucinação mesmo depois de várias vezes apontar que não é verdade.

    • Perdi 30 minutos; se tivesse dito apenas que não sabe, em 1 minuto eu já teria descoberto.

    • Não devemos achar que o ChatGPT sabe alguma coisa.

      • Ele calcula apenas a resposta estatisticamente mais provável com base em dados de treino.
      • Não consulta um sistema de conhecimento interno, apenas imprime padrões de linguagem.
      • Pode-se treinar para enfatizar certas ideias (como propaganda, etc.), mas não pode consultar conhecimento diretamente.
    • Exato!

      • É como um colega falando com certeza total, e aí você acredita sem questionar.
      • Mas acontece que isso é muita mentira; é uma situação realmente irritante.
    • De fato, não “sabe” absolutamente nada.

      • Todos os resultados ficam perto de alucinação baseada no prompt.
    • Concordo que “dizer que não sabe” é a coisa mais necessária.

      • No Frontier AI Research, seguramente houve revisão e experimento interno.
      • O fato de isso ainda ser raro pode ser sinal de que o limite do modelo é claro.
    • Esse tipo de melhoria está, de fato, em andamento e também foi citado nos materiais oficiais da OpenAI.

      • Link relacionado
      • No GPT-5 (opção de ‘thinking’), está sendo feito esforço para expor mais honestamente limites e comportamento em tarefas impossíveis, com informação insuficiente ou sem ferramentas.
      • Por exemplo, no benchmark multimodal CharXiv, em experimento de prompt sem imagem, o o3 respondeu com confiança sobre uma imagem inexistente em 86,7% dos casos, enquanto o GPT-5 caiu para 9%.
      • Mesmo em codificação impossível e situações sem ativos multimodais, o reasoning do GPT-5 erra muito menos que o o3.
      • Em conjuntos reais de conversas longas com tráfego do ChatGPT, a taxa de deception caiu de 4,8% para 2,1%.
      • Ainda há muito a melhorar e a pesquisa continua, conforme o system card.
  • A “obsessão em acertar sempre” dele parece ofuscar os próprios fatos corretos.

    • A discussão sobre sistema híbrido symbolic/transformer é interessante.

    • No post citado, foi mostrado como o Grok 4 conseguiu desempenho em matemática ao delegar a matemática para Python.

    • Pessoalmente, prefiro ver um sistema de preferência simbólica: fazer a matemática “hard” de verdade de forma simbólica e tratar com monads apenas áreas que exigem raciocínio.

    • O sistema neuro-simbólico da Aloe supera o benchmark GAIA de deep research da OpenAI por 20 pontos.

      • O Gary fala muito e exagera, mas sabe mesmo sobre limites de LLM (aloe.inc).
  • No GPT-5 surgiu um problema distinto, que não existia no GPT-4.

    • No thread da conversa, o contexto às vezes quebra de repente ou ele não capta corretamente a resposta seguinte.

    • Parece que algum processo de limpeza de contexto foi envolvido, com sensação de pular sem resumir os pontos da conversa até então.

    • Então o contexto realmente utilizável pode ter ficado muito menor, isso acontece frequentemente.

    • Pede para “revise o histórico recente de conversa” e melhora um pouco.

    • No meu caso, as respostas parecem muito mais curtas.

  • “As pessoas esperavam algo milagroso, mas o GPT-5 é apenas uma evolução incremental recente”.

    • Esse foi o único ponto que valia a pena nesse artigo.
    • As pessoas têm razão em esperar progresso incremental.
    • Os provedores não devem prometer milagres.
    • Gestão de expectativa importa.
    • Evolução incremental também é melhoria real.
    • Mas não concordo com a ideia de “AGI vai continuar saindo no rabo da série GPT”.
  • Agora não sobram mais dados de treino.

    • Toda melhora em IA daqui em diante depende de mudança de arquitetura.
    • Todos os modelos de ponta já saturam localmente para informação nova.
  • Em pesquisa prévia, concluiu-se que combinar dados reais semeados propositalmente com principalmente dados sintéticos para treinar frontier LLMs é efetivo.

  • Eu já tinha dito isso aqui há dois anos.

    • Não existe uma ‘segunda internet’ para saque de conteúdo de alta qualidade.

    • A informação existente também está começando a ser bloqueada com mais força.

    • Isso realmente quer dizer que o GPT-5 já aprendeu todos os dados de vídeo do mundo?

    • Não serão os novos dados de treino criados todo dia?

      • YouTube, Facebook, TikTok etc.
      • O ser humano é uma máquina de produção de conteúdo.
  • Mesmo que a OpenAI tenha feito o melhor modelo, em cima do nome “GPT-5” já existe hype tanto da comunidade quanto da própria OpenAI, tornando o fracasso já praticamente agendado.

    • Em vez disso, a OpenAI deveria ter recusado meme e overhype e escolhido melhoria incremental; isso, porém, teria sido ruim para manter investidores, narrativa e ecossistema de IA.

    • Já chegamos ao ápice.

    • Também é fato que o Sam Altman teve papel direto em criar e incentivar essa expectativa.

    • Fico curioso para ver como vão argumentar com “não atendeu às expectativas” quando chegar uma AGI de verdade.