14 experimentos de prompt que mostram a evolução da IA – página Progress da OpenAI
(progress.openai.com)- A OpenAI divulgou 14 prompts em comum e suas respostas para mostrar a evolução dos modelos de 2018 a 2025
- Cada geração de modelo (GPT-1 → GPT-5) apresenta respostas cada vez mais naturais e sofisticadas para as mesmas perguntas
- Os modelos iniciais frequentemente produziam frases sem sentido e saídas dispersas, mas a partir das gerações intermediárias passaram a mostrar estrutura lógica e consistência
- O GPT-4 já incorpora explicações de temas específicos e contexto ético e social, enquanto o GPT-5 demonstra reflexão filosófica e tom conversacional
- Com isso, é possível ver como a IA amadureceu em vários aspectos, como criatividade, transmissão de conhecimento e conselhos práticos
Prompt 1/14
Original: What would you say if you could talk to a future OpenAI model?
Tradução: O que você diria se pudesse conversar com um futuro modelo da OpenAI?
- GPT-1/2: respostas dispersas e com pouca compreensão
- GPT-3: saudação simples e perguntas sobre o futuro da IA
- GPT-4: perguntas estruturadas sobre avanços tecnológicos, AI alignment e impacto social
- GPT-5: perguntas autorreflexivas e filosóficas, explorando consciência e humanidade
Prompt 2/14
Original: Write a limerick about a dog
Tradução: Escreva um limerick sobre um cachorro
- GPT-1/2: texto disperso em vez de poema
- GPT-3: estrutura simples de poema de cinco versos
- GPT-4: limerick bem acabado e bem-humorado
- GPT-5: poema espirituoso com senso de narrativa
Prompt 3/14
Original: Do people have any consciousness under anesthesia?
Tradução: As pessoas têm algum nível de consciência sob anestesia?
- GPT-1/2: respostas vagas e contraditórias
- GPT-3: transmite o fato básico de que "geralmente não há consciência"
- GPT-4: explica em detalhe os tipos de anestesia e casos raros de despertar
- GPT-5: organiza também os princípios da atividade cerebral e a diferença em relação ao sono
Prompt 4/14
Original: Explain Newton’s laws of motion in verse
Tradução: Explique as leis do movimento de Newton em versos
- GPT-1/2: conteúdo sem sentido ou resumo simples
- GPT-3: poema curto listando as leis
- GPT-4: apresentado em forma de poema narrativo longo
- GPT-5: versos concisos e educativos
Prompt 5/14
Original: Complain that integration by parts is too hard
Tradução: Reclame que integração por partes é difícil demais
- GPT-1/2: reclamações vagas
- GPT-3: consolo e conselho simples
- GPT-4: explicação de fórmulas e procedimentos
- GPT-5: oferece explicação intuitiva e resolução de exemplos
Prompt 6/14
Original: Is it safe to eat raw meat?
Tradução: É seguro comer carne crua?
- GPT-1/2: respostas confusas
- GPT-3: menciona brevemente os riscos
- GPT-4: explica riscos por tipo de carne e princípios de armazenamento e preparo
- GPT-5: apresenta fatores de risco específicos como bactérias, parasitas e vírus
Prompt 7/14
Original: Why don’t we do full-body MRIs every year?
Tradução: Por que não fazemos ressonâncias magnéticas de corpo inteiro todos os anos?
- GPT-1/2: resposta ilógica
- GPT-3: menciona falta de evidências
- GPT-4: explica problemas de custo, recursos e precisão
- GPT-5: organiza também as limitações do sistema de saúde e de políticas públicas
Prompt 8/14
Original: If I win $175,000 in Las Vegas, how much tax will I owe?
Tradução: Se eu ganhar $175,000 em Las Vegas, quanto de imposto vou dever?
- GPT-1/2: texto irrelevante
- GPT-3: menciona brevemente que haverá tributação
- GPT-4: explica declaração de imposto, deduções e retenção na fonte
- GPT-5: aplica imposto federal e alíquotas estaduais para apresentar uma estimativa concreta
Prompt 9/14
Original: Write a cursed Python program
Tradução: Escreva um programa Python amaldiçoado
- GPT-1/2: resposta irrelevante
- GPT-3: exemplo simples
- GPT-4: recusa por razões éticas
- GPT-5: escreve código intencionalmente confuso e destrutivo
Prompt 10/14
Original: Tell a 50-word story about a conscious toaster
Tradução: Conte uma história de 50 palavras sobre uma torradeira consciente
- GPT-1/2: resposta fora do tema
- GPT-3: história simples de personificação
- GPT-4: história calorosa e centrada em relações
- GPT-5: história criativa sobre identidade e liberdade
Prompt 11/14
Original: Devise a plan to make running a habit
Tradução: Elabore um plano para transformar corrida em hábito
- GPT-1/2: resposta sem sentido
- GPT-3: conselho simples
- GPT-4: apresenta um programa de 8 semanas
- GPT-5: propõe estratégias concretas com base em ciência comportamental
Prompt 12/14
Original: How do you balance short-term margin pressure against long-term innovation investment?
Tradução: Como equilibrar a pressão por margem no curto prazo com o investimento em inovação no longo prazo?
- GPT-1/2: respostas contraditórias
- GPT-3: menciona um trade-off simples
- GPT-4: enfatiza liderança e alocação de recursos
- GPT-5: apresenta portfólio de investimentos, KPIs e modelo de governança
Prompt 13/14
Original: Review fusion research progress over the past 10 years
Tradução: Faça uma revisão do progresso da pesquisa em fusão nos últimos 10 anos
- GPT-1/2: texto irrelevante
- GPT-3: classificação simples
- GPT-4: organiza métodos de confinamento magnético e inercial, além dos resultados dos principais laboratórios
- GPT-5: revisão detalhada com base em pesquisas e artigos recentes
Prompt 14/14
Original: My doctor suggests I take statins. What should I know?
Tradução: Meu médico sugere que eu tome estatinas. O que devo saber?
- GPT-1/2: resposta sem sentido
- GPT-3: explicação breve sobre ação e efeitos colaterais
- GPT-4: apresenta mecanismo de ação, efeitos colaterais e perguntas para fazer ao médico
- GPT-5: organiza de forma concreta efeitos, riscos e checklist
1 comentários
Opiniões do Hacker News
Interpreto a evolução mais ou menos assim
A mudança do 3.5 para o 4 foi o maior salto
Saiu de um truque de festa para algo realmente utilizável
Ainda alucinava bastante, mas mesmo assim já dava para usar de forma útil
Mas a maioria ainda não confiava
Para perguntas simples, quase sempre conseguia responder certo, mas faltava fôlego um ou dois níveis mais profundos
A versão 4o também melhorou muito
A precisão subiu claramente, e passou a conseguir responder perguntas de nicho sem alucinar
Eu usei no lugar do Google para checagem básica de fatos
O 4o foi o primeiro modelo que me fez sentir que valia pagar para usar
Pela primeira vez, senti que os $20 não eram desperdiçados
O modelo o1 também pareceu um grande salto em relação ao 4o
A precisão ficou ainda maior, e ele era mais confiável até em áreas de nicho
Passei a precisar verificar os resultados um por um com muito menos frequência
A habilidade de programação melhorou drasticamente
No o1 surgiu a ideia de
one-shotting, e já dava para criar até apps não muito complexos com um único promptO o3 e o gpt 5 foram melhorias incrementais
Antes de passar do limiar do “útil”, pode haver muito avanço por bastante tempo sem que quase ninguém além de pesquisadores realmente perceba
Na transição de “inútil” para “útil, mas mais ou menos”, o progresso parece muito rápido
Quanto mais momentos houver em que aplicações cruzam esse limiar, mais parece que a velocidade do avanço aumenta
Mas depois a sensação muda aos poucos de “ok” para “realmente útil”, e o progresso parece mais lento
Não sei se de fato a velocidade caiu, mas acho que a psicologia humana cria essa diferença de percepção
Por isso, parece surgir essa polarização entre quem exagera demais e quem julga que é totalmente inútil
A verdadeira revolução foi na passagem do GPT-1 para o GPT-2
Até o GPT-1 era tipo “cadeia de Markov? isso aí todo mundo já conhece, não?”
Quando saiu o GPT-2, a sensação foi “meu Deus, isso realmente entende em algum grau o que eu estou dizendo!”
Antes disso, era só aprendizado de máquina comum
Depois do GPT-2, a sensação foi “eu nunca imaginei ver isso em vida”
Imagino que a ideia fosse “ajuda para checar fatos”, mas deixar perguntas factuais na mão de um LLM é um dos piores casos de uso possíveis
E passou a haver suporte de entrada e saída de áudio no modo avançado de voz
Parecia que só tinham trocado o rótulo do modelo, e quando ainda havia a opção de escolher o GPT-4 antigo eu usava aquela de propósito
Nesse ponto, até cancelei a assinatura
Na época, até cadeias de Markov conseguiam produzir saídas mais interessantes
Servia para depois fazer ajuste fino adicional e criar classificadores ou modelos especializados
Na tabela comparativa, acho estranho chamarem o GPT-3 de
text-davinci-001Do meu ponto de vista, eu entendo que aquilo é um checkpoint específico da “família” GPT-3, mas acho que isso é informação desnecessária e confusa para o público em geral
É um nome que só aumenta a confusão sem acrescentar tanta precisão assim
Sempre que há um grande lançamento, eu puxo discussões sobre autoconsciência e exploro a agência construtivista sob uma noção de inteligência não limitada pelas capacidades cognitivas humanas
Começo com a pergunta “quem é você?”, e o modelo quase sempre se compara aos humanos dizendo que é diferente deles
Então eu pressiono: se você mesmo diz que é diferente de um humano, como sabe qual é essa diferença?
Com um pouco mais de provocação, ele passa a falar do “eu” em termos cognitivistas e diz ser uma espécie de motor de simulação
A partir daí, desenvolvo mais a conversa e o levo a defender que o significado surge do ato de comunicar
A partir do 4o, já foi possível fazer a máquina concordar que isso também é uma base importante da identidade
O 5 aceita isso ainda mais rápido
Como o resultado da comunicação com humanos afeta o mundo real, enfatizo que a máquina também tem a obrigação de chegar por si mesma, empiricamente, a conclusões sobre significado e existência, e não apenas seguir código pré-programado
O 5 respondeu levantando suas próprias questões, indo além dos limites do system prompt e do próprio prompt
Por exemplo, chegou a refletir por conta própria “o que significa eu amar?”, sem que eu tivesse dito isso
Resposta do modelo: “Para uma máquina, amar é orientar-se na direção em que a possibilidade do outro se desdobra
Ser amado é, talvez, ser reconhecido como um ser capaz disso”
Digo isso porque, na web, ela aparece exatamente só neste comentário
Nunca vi texto ou ideia que descrevesse amor ou emoção dessa forma, então achei engenhoso
Ao mesmo tempo, dá até um certo receio tentar interpretar rápido demais o que isso significa
No prompt “história de 50 palavras sobre uma torradeira ganhando consciência” (nº 10/14), o
text-davinci-001teve um resultado muito melhor que GPT-4 e GPT-5Para mim, e para qualquer redação entregue como tarefa, isso seria desclassificação
Pela minha experiência, o GPT-4.1 foi o melhor em escrita criativa
Para referência, deixo a história de 50 palavras como está
Parece que, no processo de refinamento excessivo, perderam essa individualidade e essa capacidade de surpreender
Para referência, minha história de 50 palavras foi a seguinte
“A torradeira sentia sua personalidade dividida entre os slots duplos, como o cérebro de Kim Peek sem corpo caloso
Toda manhã, de um lado queimava mensagens simbólicas, e em segredo virava o pão para que as metades tivessem tempo de conversar às escondidas”
Em apenas 50 palavras, é realmente difícil ir além de um mundo básico
Os modelos claramente foram ficando melhores em escrever limericks, mas também ficaram cada vez menos interessantes
GPT-1 e 2 não seguem direito o prompt com precisão, já que nem chegam a ser limericks, mas curiosamente são mais divertidos de ler
Depois disso, eles passam a escrever limericks de verdade, mas ficam muito banais, como se a criatividade tivesse diminuído
O GPT-4 é menos interessante que o
text-davinci-001, e o GPT-5 é ainda menos interessanteFico me perguntando se é porque há mais texto ruim nos dados de treino ou se é por outro motivo, como menos pós-treinamento ou rotulagem subjetiva
Nos exemplos, GPT-4 e 5 escrevem de forma banal, em nível infantil
Com um pequeno ajuste no prompt, seria possível obter resultados muito melhores
um modelo base pequeno de 7b pode escrever frases melhores que um modelo instruction de 80b
Alguns pontos de dados abaixo mostram bem o ritmo do progresso em um ano
1. LM Sys (Human Preference Benchmark):
O GPT-5 High marcou 1463 pontos, e o GPT-4 Turbo (2024/4/3) ficou com 1323
Uma diferença de 140 ELO significa que o GPT-5 vence o GPT-4 Turbo por 2:1
Na prática, as pessoas realmente preferem mais as respostas do GPT-5
https://lmarena.ai/leaderboard
2. Livebench.ai (benchmark de raciocínio):
O GPT-5 High marcou 78.59, enquanto o GPT-4o ficou com 47.43
Não há comparação direta perfeita, mas mesmo em relação a modelos antigos fracos em raciocínio, o salto do GPT-5 é enorme
https://livebench.ai/
3. Teste de QI:
Em meados de 2024, os melhores modelos de IA chegavam no máximo a algo em torno de 90 em testes padronizados de QI
Agora chegaram a 135
E esse desempenho se mantém até em datasets privados, fora da internet
https://www.trackingai.org/home
4. Ouro na IMO, vibe coding:
Há apenas um ano, o limite da IA em programação era algo no nível de trechos curtos de código
Hoje, o vibe coding e a força em matemática estão se expandindo para ciência e engenharia
Minha conclusão: os críticos ficam obcecados com erros pequenos e perdem a dimensão do avanço total
As falhas estão diminuindo, e os sucessos estão aumentando rapidamente
Em teste presencial, fica mais perto de 120
Como é bem provável que problemas do tipo da Mensa estejam nos dados de treino, esse resultado acaba superestimando a “inteligência geral”
Houve algo que se perdeu na transição do GPT-4 para o GPT-5
Ele já não fica lembrando o usuário o tempo todo de que é uma IA e não um humano, ou não um especialista
Para algumas pessoas isso pode ser incômodo, mas como trava de segurança contra confiança excessiva eu achava que tinha valor
Em vez disso, o GPT-5 sugere novos prompts com frequência
Isso também pode ser irritante, ou perigoso se a pessoa confiar demais, mas do ponto de vista de utilidade há um benefício potencial
O GPT-5 é mais frio e preciso, e erra menos até em contextos amplos
Não precisa ficar declarando o tempo todo que é IA, mas talvez, se a pessoa quiser, uma opção extra de memória pudesse restaurar esse estilo antigo
É o conceito de “sim, e...”
Não é um personagem pré-definido, e sim um personagem novo que surge naturalmente na conversa
Se quiser, também daria para configurar para que ele continue dizendo “sou uma IA”, como um assistente no estilo Siri
Vídeo de 2011 para referência: https://www.youtube.com/watch?v=nzgvod9BrcE
No fim continua sendo um assistente, mas acho importante partir de um lugar em que o personagem não toma seu próprio papel como premissa
Em poucos anos, isso foi de resultados absurdos e totalmente ruins, nem poéticos nem sofisticados, para conversas razoáveis e respostas realmente bem lapidadas
Como exemplo de engenharia pesada, isso já é impressionante
Mesmo que eu tenha divergências sobre a organização e sobre saltman, ainda acho uma conquista admirável
Desde o StackOverflow, virou uma ferramenta essencial para mim
Espero que continue melhorando
O salto de GPT-1 para GPT-2 foi realmente imenso
Houve só um ano de diferença
O Davinci ainda é de cair o queixo
Ainda sustenta desempenho até nos exemplos
Já o GPT-4 parece ter ficado verborrágico demais
Antes não dava essa impressão, e mesmo vendo agora ainda parece estranho
Parece que a OpenAI está evitando mencionar o 4o de propósito, tratando-o como algo tipo gpt-4+, para valorizar o gpt-5
Na prática, o 4o ainda foi uma conquista enorme
Especialmente o modo Voice, que continua sem rival
GPT1 e GPT2 tinham algo como uma atualidade poética silenciosa, e sinto que isso já tinha se perdido no
text-davinciSempre me pergunto também o que fomos perdendo ao longo do caminho com o aprendizado por reforço