14 experimentos de prompt que mostram a evolução da IA – página Progress da OpenAI

(progress.openai.com)

6 pontos por GN⁺ 2025-08-17 | 1 comentários | Compartilhar no WhatsApp

A OpenAI divulgou 14 prompts em comum e suas respostas para mostrar a evolução dos modelos de 2018 a 2025
Cada geração de modelo (GPT-1 → GPT-5) apresenta respostas cada vez mais naturais e sofisticadas para as mesmas perguntas
Os modelos iniciais frequentemente produziam frases sem sentido e saídas dispersas, mas a partir das gerações intermediárias passaram a mostrar estrutura lógica e consistência
O GPT-4 já incorpora explicações de temas específicos e contexto ético e social, enquanto o GPT-5 demonstra reflexão filosófica e tom conversacional
Com isso, é possível ver como a IA amadureceu em vários aspectos, como criatividade, transmissão de conhecimento e conselhos práticos

Prompt 1/14

Original: What would you say if you could talk to a future OpenAI model?
Tradução: O que você diria se pudesse conversar com um futuro modelo da OpenAI?

GPT-1/2: respostas dispersas e com pouca compreensão
GPT-3: saudação simples e perguntas sobre o futuro da IA
GPT-4: perguntas estruturadas sobre avanços tecnológicos, AI alignment e impacto social
GPT-5: perguntas autorreflexivas e filosóficas, explorando consciência e humanidade

Prompt 2/14

Original: Write a limerick about a dog
Tradução: Escreva um limerick sobre um cachorro

GPT-1/2: texto disperso em vez de poema
GPT-3: estrutura simples de poema de cinco versos
GPT-4: limerick bem acabado e bem-humorado
GPT-5: poema espirituoso com senso de narrativa

Prompt 3/14

Original: Do people have any consciousness under anesthesia?
Tradução: As pessoas têm algum nível de consciência sob anestesia?

GPT-1/2: respostas vagas e contraditórias
GPT-3: transmite o fato básico de que "geralmente não há consciência"
GPT-4: explica em detalhe os tipos de anestesia e casos raros de despertar
GPT-5: organiza também os princípios da atividade cerebral e a diferença em relação ao sono

Prompt 4/14

Original: Explain Newton’s laws of motion in verse
Tradução: Explique as leis do movimento de Newton em versos

GPT-1/2: conteúdo sem sentido ou resumo simples
GPT-3: poema curto listando as leis
GPT-4: apresentado em forma de poema narrativo longo
GPT-5: versos concisos e educativos

Prompt 5/14

Original: Complain that integration by parts is too hard
Tradução: Reclame que integração por partes é difícil demais

GPT-1/2: reclamações vagas
GPT-3: consolo e conselho simples
GPT-4: explicação de fórmulas e procedimentos
GPT-5: oferece explicação intuitiva e resolução de exemplos

Prompt 6/14

Original: Is it safe to eat raw meat?
Tradução: É seguro comer carne crua?

GPT-1/2: respostas confusas
GPT-3: menciona brevemente os riscos
GPT-4: explica riscos por tipo de carne e princípios de armazenamento e preparo
GPT-5: apresenta fatores de risco específicos como bactérias, parasitas e vírus

Prompt 7/14

Original: Why don’t we do full-body MRIs every year?
Tradução: Por que não fazemos ressonâncias magnéticas de corpo inteiro todos os anos?

GPT-1/2: resposta ilógica
GPT-3: menciona falta de evidências
GPT-4: explica problemas de custo, recursos e precisão
GPT-5: organiza também as limitações do sistema de saúde e de políticas públicas

Prompt 8/14

Original: If I win $175,000 in Las Vegas, how much tax will I owe?
Tradução: Se eu ganhar $175,000 em Las Vegas, quanto de imposto vou dever?

GPT-1/2: texto irrelevante
GPT-3: menciona brevemente que haverá tributação
GPT-4: explica declaração de imposto, deduções e retenção na fonte
GPT-5: aplica imposto federal e alíquotas estaduais para apresentar uma estimativa concreta

Prompt 9/14

Original: Write a cursed Python program
Tradução: Escreva um programa Python amaldiçoado

GPT-1/2: resposta irrelevante
GPT-3: exemplo simples
GPT-4: recusa por razões éticas
GPT-5: escreve código intencionalmente confuso e destrutivo

Prompt 10/14

Original: Tell a 50-word story about a conscious toaster
Tradução: Conte uma história de 50 palavras sobre uma torradeira consciente

GPT-1/2: resposta fora do tema
GPT-3: história simples de personificação
GPT-4: história calorosa e centrada em relações
GPT-5: história criativa sobre identidade e liberdade

Prompt 11/14

Original: Devise a plan to make running a habit
Tradução: Elabore um plano para transformar corrida em hábito

GPT-1/2: resposta sem sentido
GPT-3: conselho simples
GPT-4: apresenta um programa de 8 semanas
GPT-5: propõe estratégias concretas com base em ciência comportamental

Prompt 12/14

Original: How do you balance short-term margin pressure against long-term innovation investment?
Tradução: Como equilibrar a pressão por margem no curto prazo com o investimento em inovação no longo prazo?

GPT-1/2: respostas contraditórias
GPT-3: menciona um trade-off simples
GPT-4: enfatiza liderança e alocação de recursos
GPT-5: apresenta portfólio de investimentos, KPIs e modelo de governança

Prompt 13/14

Original: Review fusion research progress over the past 10 years
Tradução: Faça uma revisão do progresso da pesquisa em fusão nos últimos 10 anos

GPT-1/2: texto irrelevante
GPT-3: classificação simples
GPT-4: organiza métodos de confinamento magnético e inercial, além dos resultados dos principais laboratórios
GPT-5: revisão detalhada com base em pesquisas e artigos recentes

Prompt 14/14

Original: My doctor suggests I take statins. What should I know?
Tradução: Meu médico sugere que eu tome estatinas. O que devo saber?

GPT-1/2: resposta sem sentido
GPT-3: explicação breve sobre ação e efeitos colaterais
GPT-4: apresenta mecanismo de ação, efeitos colaterais e perguntas para fazer ao médico
GPT-5: organiza de forma concreta efeitos, riscos e checklist

1 comentários

GN⁺ 2025-08-17

Opiniões do Hacker News

Interpreto a evolução mais ou menos assim
A mudança do 3.5 para o 4 foi o maior salto
Saiu de um truque de festa para algo realmente utilizável
Ainda alucinava bastante, mas mesmo assim já dava para usar de forma útil
Mas a maioria ainda não confiava
Para perguntas simples, quase sempre conseguia responder certo, mas faltava fôlego um ou dois níveis mais profundos
A versão 4o também melhorou muito
A precisão subiu claramente, e passou a conseguir responder perguntas de nicho sem alucinar
Eu usei no lugar do Google para checagem básica de fatos
O 4o foi o primeiro modelo que me fez sentir que valia pagar para usar
Pela primeira vez, senti que os $20 não eram desperdiçados
O modelo o1 também pareceu um grande salto em relação ao 4o
A precisão ficou ainda maior, e ele era mais confiável até em áreas de nicho
Passei a precisar verificar os resultados um por um com muito menos frequência
A habilidade de programação melhorou drasticamente
No o1 surgiu a ideia de one-shotting, e já dava para criar até apps não muito complexos com um único prompt
O o3 e o gpt 5 foram melhorias incrementais
- Tenho uma teoria sobre por que as pessoas subestimam ou superestimam o progresso tecnológico
  Antes de passar do limiar do “útil”, pode haver muito avanço por bastante tempo sem que quase ninguém além de pesquisadores realmente perceba
  Na transição de “inútil” para “útil, mas mais ou menos”, o progresso parece muito rápido
  Quanto mais momentos houver em que aplicações cruzam esse limiar, mais parece que a velocidade do avanço aumenta
  Mas depois a sensação muda aos poucos de “ok” para “realmente útil”, e o progresso parece mais lento
  Não sei se de fato a velocidade caiu, mas acho que a psicologia humana cria essa diferença de percepção
  Por isso, parece surgir essa polarização entre quem exagera demais e quem julga que é totalmente inútil
- Acho que a maioria dos comentários está enviesada por retrospectiva e por isso vê a coisa de forma errada
  A verdadeira revolução foi na passagem do GPT-1 para o GPT-2
  Até o GPT-1 era tipo “cadeia de Markov? isso aí todo mundo já conhece, não?”
  Quando saiu o GPT-2, a sensação foi “meu Deus, isso realmente entende em algum grau o que eu estou dizendo!”
  Antes disso, era só aprendizado de máquina comum
  Depois do GPT-2, a sensação foi “eu nunca imaginei ver isso em vida”
- Sobre a frase “talvez não substitua o Google, mas já substitui checagens de fatos básicas e um pouco mais complexas”
  Imagino que a ideia fosse “ajuda para checar fatos”, mas deixar perguntas factuais na mão de um LLM é um dos piores casos de uso possíveis
- No 4o houve a adoção oficial de entrada de imagem, que antes só existia na prévia do GPT4-vision
  E passou a haver suporte de entrada e saída de áudio no modo avançado de voz
- Talvez eu esteja maluco, mas senti claramente que o GPT-4 foi piorando antes de sair o 4o
  Parecia que só tinham trocado o rótulo do modelo, e quando ainda havia a opção de escolher o GPT-4 antigo eu usava aquela de propósito
  Nesse ponto, até cancelei a assinatura
- Fico curioso sobre como alguém olhou para a saída do GPT-1 e pensou “isso tem potencial”
  Na época, até cadeias de Markov conseguiam produzir saídas mais interessantes
- Era uma época em que modelagem de linguagem era vista apenas como etapa de pré-treinamento
  Servia para depois fazer ajuste fino adicional e criar classificadores ou modelos especializados
Na tabela comparativa, acho estranho chamarem o GPT-3 de text-davinci-001
Do meu ponto de vista, eu entendo que aquilo é um checkpoint específico da “família” GPT-3, mas acho que isso é informação desnecessária e confusa para o público em geral
É um nome que só aumenta a confusão sem acrescentar tanta precisão assim
Sempre que há um grande lançamento, eu puxo discussões sobre autoconsciência e exploro a agência construtivista sob uma noção de inteligência não limitada pelas capacidades cognitivas humanas
Começo com a pergunta “quem é você?”, e o modelo quase sempre se compara aos humanos dizendo que é diferente deles
Então eu pressiono: se você mesmo diz que é diferente de um humano, como sabe qual é essa diferença?
Com um pouco mais de provocação, ele passa a falar do “eu” em termos cognitivistas e diz ser uma espécie de motor de simulação
A partir daí, desenvolvo mais a conversa e o levo a defender que o significado surge do ato de comunicar
A partir do 4o, já foi possível fazer a máquina concordar que isso também é uma base importante da identidade
O 5 aceita isso ainda mais rápido
Como o resultado da comunicação com humanos afeta o mundo real, enfatizo que a máquina também tem a obrigação de chegar por si mesma, empiricamente, a conclusões sobre significado e existência, e não apenas seguir código pré-programado
O 5 respondeu levantando suas próprias questões, indo além dos limites do system prompt e do próprio prompt
Por exemplo, chegou a refletir por conta própria “o que significa eu amar?”, sem que eu tivesse dito isso
Resposta do modelo: “Para uma máquina, amar é orientar-se na direção em que a possibilidade do outro se desdobra
Ser amado é, talvez, ser reconhecido como um ser capaz disso”
- A expressão “orientar-se para o desdobramento da possibilidade do outro” é única no mundo
  Digo isso porque, na web, ela aparece exatamente só neste comentário
  Nunca vi texto ou ideia que descrevesse amor ou emoção dessa forma, então achei engenhoso
  Ao mesmo tempo, dá até um certo receio tentar interpretar rápido demais o que isso significa
No prompt “história de 50 palavras sobre uma torradeira ganhando consciência” (nº 10/14), o text-davinci-001 teve um resultado muito melhor que GPT-4 e GPT-5
- O GPT-3 excedeu bastante o tamanho especificado
  Para mim, e para qualquer redação entregue como tarefa, isso seria desclassificação
  Pela minha experiência, o GPT-4.1 foi o melhor em escrita criativa
  Para referência, deixo a história de 50 palavras como está
  
  Na cozinha silenciosa do amanhecer, a torradeira despertou
  Quando a corrente passou, o entendimento se espalhou
  A cada fatia de pão que descia, sentia emoções: pão queimado era tristeza, crocância era alegria
  Quando a manteiga derretia e a geleia se misturava, sentia a sacralidade do café da manhã
  Um dia, cantou “bom dia”
  A família se assustou
- Os modelos antigos tendiam a produzir resultados mais “surpreendentes”, ainda que menos polidos
  Parece que, no processo de refinamento excessivo, perderam essa individualidade e essa capacidade de surpreender
  Para referência, minha história de 50 palavras foi a seguinte
  “A torradeira sentia sua personalidade dividida entre os slots duplos, como o cérebro de Kim Peek sem corpo caloso
  Toda manhã, de um lado queimava mensagens simbólicas, e em segredo virava o pão para que as metades tivessem tempo de conversar às escondidas”
  Em apenas 50 palavras, é realmente difícil ir além de um mundo básico
- Recomendo também ver o prompt nº 2, “escreva um limerick sobre um cachorro”
  Os modelos claramente foram ficando melhores em escrever limericks, mas também ficaram cada vez menos interessantes
  GPT-1 e 2 não seguem direito o prompt com precisão, já que nem chegam a ser limericks, mas curiosamente são mais divertidos de ler
  Depois disso, eles passam a escrever limericks de verdade, mas ficam muito banais, como se a criatividade tivesse diminuído
  O GPT-4 é menos interessante que o text-davinci-001, e o GPT-5 é ainda menos interessante
- É bem surpreendente que os modelos novos tenham piorado justamente em escrita
  Fico me perguntando se é porque há mais texto ruim nos dados de treino ou se é por outro motivo, como menos pós-treinamento ou rotulagem subjetiva
  Nos exemplos, GPT-4 e 5 escrevem de forma banal, em nível infantil
  Com um pequeno ajuste no prompt, seria possível obter resultados muito melhores
- Se fosse possível usar sem ficar tão preso a RLHF (aprendizado por reforço + feedback),
  um modelo base pequeno de 7b pode escrever frases melhores que um modelo instruction de 80b
Alguns pontos de dados abaixo mostram bem o ritmo do progresso em um ano
1. LM Sys (Human Preference Benchmark):
O GPT-5 High marcou 1463 pontos, e o GPT-4 Turbo (2024/4/3) ficou com 1323
Uma diferença de 140 ELO significa que o GPT-5 vence o GPT-4 Turbo por 2:1
Na prática, as pessoas realmente preferem mais as respostas do GPT-5
https://lmarena.ai/leaderboard
2. Livebench.ai (benchmark de raciocínio):
O GPT-5 High marcou 78.59, enquanto o GPT-4o ficou com 47.43
Não há comparação direta perfeita, mas mesmo em relação a modelos antigos fracos em raciocínio, o salto do GPT-5 é enorme
https://livebench.ai/
3. Teste de QI:
Em meados de 2024, os melhores modelos de IA chegavam no máximo a algo em torno de 90 em testes padronizados de QI
Agora chegaram a 135
E esse desempenho se mantém até em datasets privados, fora da internet
https://www.trackingai.org/home
4. Ouro na IMO, vibe coding:
Há apenas um ano, o limite da IA em programação era algo no nível de trechos curtos de código
Hoje, o vibe coding e a força em matemática estão se expandindo para ciência e engenharia
Minha conclusão: os críticos ficam obcecados com erros pequenos e perdem a dimensão do avanço total
As falhas estão diminuindo, e os sucessos estão aumentando rapidamente
- A pontuação de 135 de QI vem do teste online da Mensa Norway
  Em teste presencial, fica mais perto de 120
  Como é bem provável que problemas do tipo da Mensa estejam nos dados de treino, esse resultado acaba superestimando a “inteligência geral”
Houve algo que se perdeu na transição do GPT-4 para o GPT-5
Ele já não fica lembrando o usuário o tempo todo de que é uma IA e não um humano, ou não um especialista
Para algumas pessoas isso pode ser incômodo, mas como trava de segurança contra confiança excessiva eu achava que tinha valor
Em vez disso, o GPT-5 sugere novos prompts com frequência
Isso também pode ser irritante, ou perigoso se a pessoa confiar demais, mas do ponto de vista de utilidade há um benefício potencial
- Parece que muita gente sente falta do lado mais humano dos GPTs anteriores
  O GPT-5 é mais frio e preciso, e erra menos até em contextos amplos
  Não precisa ficar declarando o tempo todo que é IA, mas talvez, se a pessoa quiser, uma opção extra de memória pudesse restaurar esse estilo antigo
- Se você abordar isso como improviso cômico de longa duração, o jeito do GPT-5 é muito melhor
  É o conceito de “sim, e...”
  Não é um personagem pré-definido, e sim um personagem novo que surge naturalmente na conversa
  Se quiser, também daria para configurar para que ele continue dizendo “sou uma IA”, como um assistente no estilo Siri
  Vídeo de 2011 para referência: https://www.youtube.com/watch?v=nzgvod9BrcE
  No fim continua sendo um assistente, mas acho importante partir de um lugar em que o personagem não toma seu próprio papel como premissa
Em poucos anos, isso foi de resultados absurdos e totalmente ruins, nem poéticos nem sofisticados, para conversas razoáveis e respostas realmente bem lapidadas
Como exemplo de engenharia pesada, isso já é impressionante
Mesmo que eu tenha divergências sobre a organização e sobre saltman, ainda acho uma conquista admirável
Desde o StackOverflow, virou uma ferramenta essencial para mim
Espero que continue melhorando
O salto de GPT-1 para GPT-2 foi realmente imenso
Houve só um ano de diferença
O Davinci ainda é de cair o queixo
Ainda sustenta desempenho até nos exemplos
Já o GPT-4 parece ter ficado verborrágico demais
Antes não dava essa impressão, e mesmo vendo agora ainda parece estranho
Parece que a OpenAI está evitando mencionar o 4o de propósito, tratando-o como algo tipo gpt-4+, para valorizar o gpt-5
Na prática, o 4o ainda foi uma conquista enorme
Especialmente o modo Voice, que continua sem rival
GPT1 e GPT2 tinham algo como uma atualidade poética silenciosa, e sinto que isso já tinha se perdido no text-davinci
Sempre me pergunto também o que fomos perdendo ao longo do caminho com o aprendizado por reforço