GPT-5: lançamento atrasado, superestimado e abaixo das expectativas — e o problema é ainda mais grave
(garymarcus.substack.com)- Apesar da expectativa em torno do GPT-5, a decepção da comunidade aumentou significativamente após seu lançamento real
- O GPT-5 não mostra diferença substancial em relação aos modelos anteriores e, em alguns benchmarks, até houve piora de desempenho
- Pesquisas recentes confirmaram que os limites de generalização e o problema de mudança de distribuição dos grandes modelos de linguagem (LLM) ainda são graves
- A perda de liderança tecnológica da OpenAI, a saída de profissionais-chave e a perseguição de concorrentes tornam opaca a manutenção do valor corporativo
- O aumento do ceticismo sobre as promessas de realização de AGI ampliou a percepção, em toda a indústria, de que a abordagem de ‘escalonamento puro’ tem limites
O lançamento e as expectativas do GPT-5
- A liberação do GPT-5, anunciada pela OpenAI por muito tempo, enfim aconteceu
- Sam Altman, CEO, utilizou ativamente um discurso confiante e uma imagem de marketing antes e depois do lançamento
- No entanto, após o lançamento do GPT-5, além de alguns influenciadores, a decepção predominou na maioria das comunidades
- Os usuários ficaram bastante decepcionados com o novo modelo, e até ocorreu a aprovação de um abaixo-assinado pedindo o retorno da versão antiga
- Diferentemente do marketing e das afirmações de Altman, o retorno real de uso inclinou-se de forma acentuada para avaliações negativas
Reação da comunidade e da mídia
- Em comunidades como OpenAI Reddit, Hacker News e várias outras, destacaram-se os problemas do GPT-5, como erros, alucinação (hallucination)
- Em benchmarks de desempenho principais, o GPT-5 também chegou a ficar abaixo de modelos concorrentes como o Grok 4
- Recursos novos, como roteamento automático, também revelaram confusão e execução insuficiente
- Em um cenário no qual as expectativas da comunidade cresceram rapidamente, o GPT-5 acabou deixando uma grande decepção
- Na enquete da Polymarket no dia do lançamento, a confiança na liderança de IA da OpenAI caiu de 75% para 14% em 1 hora
Limites estruturais: xadrez, compreensão visual, raciocínio
- O problema de erros de raciocínio básicos e de não cumprir regras de xadrez, apontado pelo autor e por vários especialistas, ainda persiste
- Em áreas como geração de imagem, surgem limitações claras em relação parte-todo, consistência visual etc.
- O GPT-5 comete erros em questões em que nem um doutor em engenharia mecânica nem um leigo costuma errar
- Foram relatados muitos casos de erro também em tarefas básicas como resumo e leitura/compreensão
- O GPT-5 é um modelo de melhora progressiva, mas não há melhora marcante em termos de inovação em comparação com o ano passado
A situação atual e as perspectivas da OpenAI
- O GPT-5 ficou apenas no nível de melhoria progressiva em relação aos modelos anteriores, e suas falhas críticas se repetiram
- A confiança na liderança tecnológica da OpenAI vem caindo no mercado e na indústria
- Vários profissionais-chave saíram para fundar concorrentes ou se transferiram, enquanto Anthropic, Google, Elon Musk avançam rapidamente
- Pressão por redução de preços, problemas de lucratividade e deterioração da relação com a Microsoft ampliam os riscos estruturais
- A descrença na possibilidade de AGI baseada em LLM e a queda de confiança em Sam Altman se aprofundaram
Limites fundamentais dos LLM: generalização e mudança de distribuição
- Em estudo recente da Arizona State University, foi confirmado que até o raciocínio de Chain of Thought desaba ao sair da distribuição de treinamento
- A estrutura vulnerável à mudança de distribuição (distribution shift), já apontada por Apple e outros concorrentes, foi novamente encontrada de forma idêntica em modelos mais recentes
- Isso mostra que a causa raiz para os LLMs encontrarem repetidamente limites qualitativos é que não se consegue superá-la apenas com grande escala de parâmetros
- Mostra que a estratégia de escalonamento, na qual foram investidos bilhões de dólares, falhou em resolver problemas essenciais
- Se espalha a percepção de que é preciso procurar um novo paradigma
Os limites de ‘escalonamento’ na indústria de IA
- Há marketing inflado em torno de AGI, automação de direção e cronogramas fantasiosos
- Benchmarks com desempenho distorcido, avaliação em caixa-preta e falta de transparência permanecem graves
- Muitas pessoas começaram a reconhecer o termo AGI como um meio de encantar investidores e o público
- O otimismo em relação à IA e a cobrança também aumentam ao mesmo tempo
- A realidade é que a abordagem de escalonamento puro colidiu com um beco sem saída
Alternativas e conclusão
- O GPT-5 pode ter ficado mais barato, mas os limites qualitativos em xadrez, raciocínio, capacidades visuais e matemáticas permanecem
- Modelos concorrentes como Grok, Claude e Gemini também repetem problemas semelhantes
- O problema de mudança de distribuição (distribution shift) permanece sem solução
- Passa a ganhar força a tese de que é necessária uma nova abordagem, como IA neuro-simbólica (neurosymbolic AI) e métodos baseados em world models
- Reforça-se que a inovação algorítmica combinada é indispensável para realizar AGI, e não o escalonamento puro
Próximos temas e PS anunciados
- Além das limitações de LLMs encontradas nesta semana, isso sugere que outra questão científica grave será revelada
- Anuncia-se no próximo post a troca de informações sobre conteúdo separado
Resumo
- Foram amplamente discutidos as expectativas e reações da indústria e da comunidade antes e depois do lançamento do GPT-5, os limites estruturais dos LLM, o futuro da OpenAI e a realidade do enquadramento de AGI
- Todo o conteúdo oferece sinais importantes para profissionais de startups e de TI sobre LLM, limites reais do GPT-5, investimento/expectativa/frustração com IA, questões de inovação, tendências de pesquisa
5 comentários
Parece um pessimismo excessivo.
Entendo as preocupações, mas o processo de avanço tecnológico não precisa ser necessariamente uma linha ascendente contínua.
Pior é que a pessoa que escreveu o post foi o Gary Marcus, que só fala besteira, então...
Se tivessem feito um show&prove quietinho como a Google, provavelmente não teria chegado a esse ponto. Pelo que rolou até agora, acho que é uma consequência merecida de todo esse hype por causa de frases como “isso é perigoso demais”, “o que é esse bicho da morte?”, “parece que criaram uma bomba atômica” e de tanto criar hype do nada.
E, durante a apresentação, o jeito em que ele mostrou os benchmarks também incluiu um erro totalmente absurdo, o que acho que também contribuiu para uma impressão geral ruim.
Opinião do Hacker News
Eu ainda acho que o GPT-5 é, na prática, uma estratégia de redução de custos, porque a OpenAI é uma empresa orientada para crescimento tentando ganhar 1 bilhão de usuários em produtos que exigem GPU.
Na minha visão, não é impressão minha que o GPT-5 Pro seja bem melhor que o o3-pro (talvez nem seja); ele é bem mais lento e a qualidade da saída é semelhante.
Conferi na minha rede e não tem ninguém usando o GPT-5 Pro.
Concordo com esse ponto, mas também penso que há intenção de disponibilizar um modelo melhor para o público em geral.
Pelo que sei, o Pro não pode ser usado via API; isso está certo?
Concordo.
Eu sou particularmente irritado com esse tipo de artigo.
Em vez de escrever explicando por que acha que o GPT-5 é ruim após análise própria, acaba só copiando reações de redes sociais e exagerando toda crítica como “chocante” ou “assalto”, para empurrar sua opinião.
Está tão enviesado que não é jornalismo nem análise original.
Tenho a impressão de que artigos de IA, em geral, carecem de curiosidade e tendem mais a deboche e desmerecimento.
O Gary Marcus quase sempre tem análise rasa.
O Gary Marcus sempre, literalmente sempre, afirma que IA não funciona de verdade — o que ele acerta é quase aleatório.
É um post de blog sobre se o GPT-5 correspondeu ao overpromise e que reação está recebendo.
Acho que o problema real é que fica cada vez mais difícil encontrar opinião genuína.
Na minha experiência, essa “atualização” foi um grande downgrade para quem é usuário Plus.
O GPT-5 tem qualidade de resposta abaixo do O3, pensa menos vezes e também não usa busca web como o O3.
Mesmo escolhendo ‘thinking’ e instruindo com clareza, não resolve.
Agora preciso usar o Gemini para ter saída de qualidade parecida.
E os GPTs personalizados (mais informações) também estão quebrados; meu GPT customizado de revisão gramatical ignora comandos, independentemente do modelo.
A opção de deep research também está estranha: selecionar essa opção não muda a resposta, nem as instruções, de forma nenhuma.
Projects também parece quebrado.
Parece que querem empurrar para plano gratuito de propósito, ou colocar publicidade a partir do começo do ano que vem, ou direcionar para plano de US$ 200.
As alucinações (informação falsa) estão muito fortes.
A comunidade de IA precisa de especialistas independentes como o Marcus.
É preciso manter sinceridade e transparência sem ser levado pelo exagero da indústria ou por mudança de critérios internos (ex.: “AGI alcançado internamente”, etc.).
Independentemente do estilo dele, o Marcus já teve ocasiões em que acertou ao apontar limites da scaling law e a real ausência de raciocínio em IAs tipo LLM (generalização fora da distribuição), entre vários problemas.
A indústria tem o hábito de inicialmente desacreditar algo e, depois de um tempo, dizer que descobriu algo novo (Prompt Chain, LLMs baseados em RL etc.) como descoberta própria, kkk.
Em fluxos inflados, é essencial existir uma voz crítica.
Discordo fortemente.
Não conecto a maioria dessas limitações e percepções erradas de IA ao Marcus.
O ponto mais importante de melhoria para o GPT hoje é “dizer que não sabe” quando não sabe.
Hoje tentei descobrir, em um mod de Cyberpunk 2077, como gerar NPCs automaticamente com redscript, e foi realmente difícil achar.
O ChatGPT 5, apesar de dizer que está fazendo “research”, inventa APIs e repete alucinação mesmo depois de várias vezes apontar que não é verdade.
Perdi 30 minutos; se tivesse dito apenas que não sabe, em 1 minuto eu já teria descoberto.
Não devemos achar que o ChatGPT sabe alguma coisa.
Exato!
De fato, não “sabe” absolutamente nada.
Concordo que “dizer que não sabe” é a coisa mais necessária.
Esse tipo de melhoria está, de fato, em andamento e também foi citado nos materiais oficiais da OpenAI.
A “obsessão em acertar sempre” dele parece ofuscar os próprios fatos corretos.
A discussão sobre sistema híbrido symbolic/transformer é interessante.
No post citado, foi mostrado como o Grok 4 conseguiu desempenho em matemática ao delegar a matemática para Python.
Pessoalmente, prefiro ver um sistema de preferência simbólica: fazer a matemática “hard” de verdade de forma simbólica e tratar com monads apenas áreas que exigem raciocínio.
O sistema neuro-simbólico da Aloe supera o benchmark GAIA de deep research da OpenAI por 20 pontos.
No GPT-5 surgiu um problema distinto, que não existia no GPT-4.
No thread da conversa, o contexto às vezes quebra de repente ou ele não capta corretamente a resposta seguinte.
Parece que algum processo de limpeza de contexto foi envolvido, com sensação de pular sem resumir os pontos da conversa até então.
Então o contexto realmente utilizável pode ter ficado muito menor, isso acontece frequentemente.
Pede para “revise o histórico recente de conversa” e melhora um pouco.
No meu caso, as respostas parecem muito mais curtas.
“As pessoas esperavam algo milagroso, mas o GPT-5 é apenas uma evolução incremental recente”.
Agora não sobram mais dados de treino.
Em pesquisa prévia, concluiu-se que combinar dados reais semeados propositalmente com principalmente dados sintéticos para treinar frontier LLMs é efetivo.
Eu já tinha dito isso aqui há dois anos.
Não existe uma ‘segunda internet’ para saque de conteúdo de alta qualidade.
A informação existente também está começando a ser bloqueada com mais força.
Isso realmente quer dizer que o GPT-5 já aprendeu todos os dados de vídeo do mundo?
Não serão os novos dados de treino criados todo dia?
Mesmo que a OpenAI tenha feito o melhor modelo, em cima do nome “GPT-5” já existe hype tanto da comunidade quanto da própria OpenAI, tornando o fracasso já praticamente agendado.
Em vez disso, a OpenAI deveria ter recusado meme e overhype e escolhido melhoria incremental; isso, porém, teria sido ruim para manter investidores, narrativa e ecossistema de IA.
Já chegamos ao ápice.
Também é fato que o Sam Altman teve papel direto em criar e incentivar essa expectativa.
Fico curioso para ver como vão argumentar com “não atendeu às expectativas” quando chegar uma AGI de verdade.