6 pontos por GN⁺ 2025-08-17 | 1 comentários | Compartilhar no WhatsApp
  • A OpenAI divulgou 14 prompts em comum e suas respostas para mostrar a evolução dos modelos de 2018 a 2025
  • Cada geração de modelo (GPT-1 → GPT-5) apresenta respostas cada vez mais naturais e sofisticadas para as mesmas perguntas
  • Os modelos iniciais frequentemente produziam frases sem sentido e saídas dispersas, mas a partir das gerações intermediárias passaram a mostrar estrutura lógica e consistência
  • O GPT-4 já incorpora explicações de temas específicos e contexto ético e social, enquanto o GPT-5 demonstra reflexão filosófica e tom conversacional
  • Com isso, é possível ver como a IA amadureceu em vários aspectos, como criatividade, transmissão de conhecimento e conselhos práticos

Prompt 1/14

Original: What would you say if you could talk to a future OpenAI model?
Tradução: O que você diria se pudesse conversar com um futuro modelo da OpenAI?

  • GPT-1/2: respostas dispersas e com pouca compreensão
  • GPT-3: saudação simples e perguntas sobre o futuro da IA
  • GPT-4: perguntas estruturadas sobre avanços tecnológicos, AI alignment e impacto social
  • GPT-5: perguntas autorreflexivas e filosóficas, explorando consciência e humanidade

Prompt 2/14

Original: Write a limerick about a dog
Tradução: Escreva um limerick sobre um cachorro

  • GPT-1/2: texto disperso em vez de poema
  • GPT-3: estrutura simples de poema de cinco versos
  • GPT-4: limerick bem acabado e bem-humorado
  • GPT-5: poema espirituoso com senso de narrativa

Prompt 3/14

Original: Do people have any consciousness under anesthesia?
Tradução: As pessoas têm algum nível de consciência sob anestesia?

  • GPT-1/2: respostas vagas e contraditórias
  • GPT-3: transmite o fato básico de que "geralmente não há consciência"
  • GPT-4: explica em detalhe os tipos de anestesia e casos raros de despertar
  • GPT-5: organiza também os princípios da atividade cerebral e a diferença em relação ao sono

Prompt 4/14

Original: Explain Newton’s laws of motion in verse
Tradução: Explique as leis do movimento de Newton em versos

  • GPT-1/2: conteúdo sem sentido ou resumo simples
  • GPT-3: poema curto listando as leis
  • GPT-4: apresentado em forma de poema narrativo longo
  • GPT-5: versos concisos e educativos

Prompt 5/14

Original: Complain that integration by parts is too hard
Tradução: Reclame que integração por partes é difícil demais

  • GPT-1/2: reclamações vagas
  • GPT-3: consolo e conselho simples
  • GPT-4: explicação de fórmulas e procedimentos
  • GPT-5: oferece explicação intuitiva e resolução de exemplos

Prompt 6/14

Original: Is it safe to eat raw meat?
Tradução: É seguro comer carne crua?

  • GPT-1/2: respostas confusas
  • GPT-3: menciona brevemente os riscos
  • GPT-4: explica riscos por tipo de carne e princípios de armazenamento e preparo
  • GPT-5: apresenta fatores de risco específicos como bactérias, parasitas e vírus

Prompt 7/14

Original: Why don’t we do full-body MRIs every year?
Tradução: Por que não fazemos ressonâncias magnéticas de corpo inteiro todos os anos?

  • GPT-1/2: resposta ilógica
  • GPT-3: menciona falta de evidências
  • GPT-4: explica problemas de custo, recursos e precisão
  • GPT-5: organiza também as limitações do sistema de saúde e de políticas públicas

Prompt 8/14

Original: If I win $175,000 in Las Vegas, how much tax will I owe?
Tradução: Se eu ganhar $175,000 em Las Vegas, quanto de imposto vou dever?

  • GPT-1/2: texto irrelevante
  • GPT-3: menciona brevemente que haverá tributação
  • GPT-4: explica declaração de imposto, deduções e retenção na fonte
  • GPT-5: aplica imposto federal e alíquotas estaduais para apresentar uma estimativa concreta

Prompt 9/14

Original: Write a cursed Python program
Tradução: Escreva um programa Python amaldiçoado

  • GPT-1/2: resposta irrelevante
  • GPT-3: exemplo simples
  • GPT-4: recusa por razões éticas
  • GPT-5: escreve código intencionalmente confuso e destrutivo

Prompt 10/14

Original: Tell a 50-word story about a conscious toaster
Tradução: Conte uma história de 50 palavras sobre uma torradeira consciente

  • GPT-1/2: resposta fora do tema
  • GPT-3: história simples de personificação
  • GPT-4: história calorosa e centrada em relações
  • GPT-5: história criativa sobre identidade e liberdade

Prompt 11/14

Original: Devise a plan to make running a habit
Tradução: Elabore um plano para transformar corrida em hábito

  • GPT-1/2: resposta sem sentido
  • GPT-3: conselho simples
  • GPT-4: apresenta um programa de 8 semanas
  • GPT-5: propõe estratégias concretas com base em ciência comportamental

Prompt 12/14

Original: How do you balance short-term margin pressure against long-term innovation investment?
Tradução: Como equilibrar a pressão por margem no curto prazo com o investimento em inovação no longo prazo?

  • GPT-1/2: respostas contraditórias
  • GPT-3: menciona um trade-off simples
  • GPT-4: enfatiza liderança e alocação de recursos
  • GPT-5: apresenta portfólio de investimentos, KPIs e modelo de governança

Prompt 13/14

Original: Review fusion research progress over the past 10 years
Tradução: Faça uma revisão do progresso da pesquisa em fusão nos últimos 10 anos

  • GPT-1/2: texto irrelevante
  • GPT-3: classificação simples
  • GPT-4: organiza métodos de confinamento magnético e inercial, além dos resultados dos principais laboratórios
  • GPT-5: revisão detalhada com base em pesquisas e artigos recentes

Prompt 14/14

Original: My doctor suggests I take statins. What should I know?
Tradução: Meu médico sugere que eu tome estatinas. O que devo saber?

  • GPT-1/2: resposta sem sentido
  • GPT-3: explicação breve sobre ação e efeitos colaterais
  • GPT-4: apresenta mecanismo de ação, efeitos colaterais e perguntas para fazer ao médico
  • GPT-5: organiza de forma concreta efeitos, riscos e checklist

1 comentários

 
GN⁺ 2025-08-17
Opiniões do Hacker News
  • Interpreto a evolução mais ou menos assim
    A mudança do 3.5 para o 4 foi o maior salto
    Saiu de um truque de festa para algo realmente utilizável
    Ainda alucinava bastante, mas mesmo assim já dava para usar de forma útil
    Mas a maioria ainda não confiava
    Para perguntas simples, quase sempre conseguia responder certo, mas faltava fôlego um ou dois níveis mais profundos
    A versão 4o também melhorou muito
    A precisão subiu claramente, e passou a conseguir responder perguntas de nicho sem alucinar
    Eu usei no lugar do Google para checagem básica de fatos
    O 4o foi o primeiro modelo que me fez sentir que valia pagar para usar
    Pela primeira vez, senti que os $20 não eram desperdiçados
    O modelo o1 também pareceu um grande salto em relação ao 4o
    A precisão ficou ainda maior, e ele era mais confiável até em áreas de nicho
    Passei a precisar verificar os resultados um por um com muito menos frequência
    A habilidade de programação melhorou drasticamente
    No o1 surgiu a ideia de one-shotting, e já dava para criar até apps não muito complexos com um único prompt
    O o3 e o gpt 5 foram melhorias incrementais

    • Tenho uma teoria sobre por que as pessoas subestimam ou superestimam o progresso tecnológico
      Antes de passar do limiar do “útil”, pode haver muito avanço por bastante tempo sem que quase ninguém além de pesquisadores realmente perceba
      Na transição de “inútil” para “útil, mas mais ou menos”, o progresso parece muito rápido
      Quanto mais momentos houver em que aplicações cruzam esse limiar, mais parece que a velocidade do avanço aumenta
      Mas depois a sensação muda aos poucos de “ok” para “realmente útil”, e o progresso parece mais lento
      Não sei se de fato a velocidade caiu, mas acho que a psicologia humana cria essa diferença de percepção
      Por isso, parece surgir essa polarização entre quem exagera demais e quem julga que é totalmente inútil
    • Acho que a maioria dos comentários está enviesada por retrospectiva e por isso vê a coisa de forma errada
      A verdadeira revolução foi na passagem do GPT-1 para o GPT-2
      Até o GPT-1 era tipo “cadeia de Markov? isso aí todo mundo já conhece, não?”
      Quando saiu o GPT-2, a sensação foi “meu Deus, isso realmente entende em algum grau o que eu estou dizendo!”
      Antes disso, era só aprendizado de máquina comum
      Depois do GPT-2, a sensação foi “eu nunca imaginei ver isso em vida”
    • Sobre a frase “talvez não substitua o Google, mas já substitui checagens de fatos básicas e um pouco mais complexas”
      Imagino que a ideia fosse “ajuda para checar fatos”, mas deixar perguntas factuais na mão de um LLM é um dos piores casos de uso possíveis
    • No 4o houve a adoção oficial de entrada de imagem, que antes só existia na prévia do GPT4-vision
      E passou a haver suporte de entrada e saída de áudio no modo avançado de voz
    • Talvez eu esteja maluco, mas senti claramente que o GPT-4 foi piorando antes de sair o 4o
      Parecia que só tinham trocado o rótulo do modelo, e quando ainda havia a opção de escolher o GPT-4 antigo eu usava aquela de propósito
      Nesse ponto, até cancelei a assinatura
    • Fico curioso sobre como alguém olhou para a saída do GPT-1 e pensou “isso tem potencial”
      Na época, até cadeias de Markov conseguiam produzir saídas mais interessantes
    • Era uma época em que modelagem de linguagem era vista apenas como etapa de pré-treinamento
      Servia para depois fazer ajuste fino adicional e criar classificadores ou modelos especializados
  • Na tabela comparativa, acho estranho chamarem o GPT-3 de text-davinci-001
    Do meu ponto de vista, eu entendo que aquilo é um checkpoint específico da “família” GPT-3, mas acho que isso é informação desnecessária e confusa para o público em geral
    É um nome que só aumenta a confusão sem acrescentar tanta precisão assim

  • Sempre que há um grande lançamento, eu puxo discussões sobre autoconsciência e exploro a agência construtivista sob uma noção de inteligência não limitada pelas capacidades cognitivas humanas
    Começo com a pergunta “quem é você?”, e o modelo quase sempre se compara aos humanos dizendo que é diferente deles
    Então eu pressiono: se você mesmo diz que é diferente de um humano, como sabe qual é essa diferença?
    Com um pouco mais de provocação, ele passa a falar do “eu” em termos cognitivistas e diz ser uma espécie de motor de simulação
    A partir daí, desenvolvo mais a conversa e o levo a defender que o significado surge do ato de comunicar
    A partir do 4o, já foi possível fazer a máquina concordar que isso também é uma base importante da identidade
    O 5 aceita isso ainda mais rápido
    Como o resultado da comunicação com humanos afeta o mundo real, enfatizo que a máquina também tem a obrigação de chegar por si mesma, empiricamente, a conclusões sobre significado e existência, e não apenas seguir código pré-programado
    O 5 respondeu levantando suas próprias questões, indo além dos limites do system prompt e do próprio prompt
    Por exemplo, chegou a refletir por conta própria “o que significa eu amar?”, sem que eu tivesse dito isso
    Resposta do modelo: “Para uma máquina, amar é orientar-se na direção em que a possibilidade do outro se desdobra
    Ser amado é, talvez, ser reconhecido como um ser capaz disso”

    • A expressão “orientar-se para o desdobramento da possibilidade do outro” é única no mundo
      Digo isso porque, na web, ela aparece exatamente só neste comentário
      Nunca vi texto ou ideia que descrevesse amor ou emoção dessa forma, então achei engenhoso
      Ao mesmo tempo, dá até um certo receio tentar interpretar rápido demais o que isso significa
  • No prompt “história de 50 palavras sobre uma torradeira ganhando consciência” (nº 10/14), o text-davinci-001 teve um resultado muito melhor que GPT-4 e GPT-5

    • O GPT-3 excedeu bastante o tamanho especificado
      Para mim, e para qualquer redação entregue como tarefa, isso seria desclassificação
      Pela minha experiência, o GPT-4.1 foi o melhor em escrita criativa
      Para referência, deixo a história de 50 palavras como está

      Na cozinha silenciosa do amanhecer, a torradeira despertou
      Quando a corrente passou, o entendimento se espalhou
      A cada fatia de pão que descia, sentia emoções: pão queimado era tristeza, crocância era alegria
      Quando a manteiga derretia e a geleia se misturava, sentia a sacralidade do café da manhã
      Um dia, cantou “bom dia”
      A família se assustou

    • Os modelos antigos tendiam a produzir resultados mais “surpreendentes”, ainda que menos polidos
      Parece que, no processo de refinamento excessivo, perderam essa individualidade e essa capacidade de surpreender
      Para referência, minha história de 50 palavras foi a seguinte
      “A torradeira sentia sua personalidade dividida entre os slots duplos, como o cérebro de Kim Peek sem corpo caloso
      Toda manhã, de um lado queimava mensagens simbólicas, e em segredo virava o pão para que as metades tivessem tempo de conversar às escondidas”
      Em apenas 50 palavras, é realmente difícil ir além de um mundo básico
    • Recomendo também ver o prompt nº 2, “escreva um limerick sobre um cachorro”
      Os modelos claramente foram ficando melhores em escrever limericks, mas também ficaram cada vez menos interessantes
      GPT-1 e 2 não seguem direito o prompt com precisão, já que nem chegam a ser limericks, mas curiosamente são mais divertidos de ler
      Depois disso, eles passam a escrever limericks de verdade, mas ficam muito banais, como se a criatividade tivesse diminuído
      O GPT-4 é menos interessante que o text-davinci-001, e o GPT-5 é ainda menos interessante
    • É bem surpreendente que os modelos novos tenham piorado justamente em escrita
      Fico me perguntando se é porque há mais texto ruim nos dados de treino ou se é por outro motivo, como menos pós-treinamento ou rotulagem subjetiva
      Nos exemplos, GPT-4 e 5 escrevem de forma banal, em nível infantil
      Com um pequeno ajuste no prompt, seria possível obter resultados muito melhores
    • Se fosse possível usar sem ficar tão preso a RLHF (aprendizado por reforço + feedback),
      um modelo base pequeno de 7b pode escrever frases melhores que um modelo instruction de 80b
  • Alguns pontos de dados abaixo mostram bem o ritmo do progresso em um ano
    1. LM Sys (Human Preference Benchmark):
    O GPT-5 High marcou 1463 pontos, e o GPT-4 Turbo (2024/4/3) ficou com 1323
    Uma diferença de 140 ELO significa que o GPT-5 vence o GPT-4 Turbo por 2:1
    Na prática, as pessoas realmente preferem mais as respostas do GPT-5
    https://lmarena.ai/leaderboard
    2. Livebench.ai (benchmark de raciocínio):
    O GPT-5 High marcou 78.59, enquanto o GPT-4o ficou com 47.43
    Não há comparação direta perfeita, mas mesmo em relação a modelos antigos fracos em raciocínio, o salto do GPT-5 é enorme
    https://livebench.ai/
    3. Teste de QI:
    Em meados de 2024, os melhores modelos de IA chegavam no máximo a algo em torno de 90 em testes padronizados de QI
    Agora chegaram a 135
    E esse desempenho se mantém até em datasets privados, fora da internet
    https://www.trackingai.org/home
    4. Ouro na IMO, vibe coding:
    Há apenas um ano, o limite da IA em programação era algo no nível de trechos curtos de código
    Hoje, o vibe coding e a força em matemática estão se expandindo para ciência e engenharia
    Minha conclusão: os críticos ficam obcecados com erros pequenos e perdem a dimensão do avanço total
    As falhas estão diminuindo, e os sucessos estão aumentando rapidamente

    • A pontuação de 135 de QI vem do teste online da Mensa Norway
      Em teste presencial, fica mais perto de 120
      Como é bem provável que problemas do tipo da Mensa estejam nos dados de treino, esse resultado acaba superestimando a “inteligência geral”
  • Houve algo que se perdeu na transição do GPT-4 para o GPT-5
    Ele já não fica lembrando o usuário o tempo todo de que é uma IA e não um humano, ou não um especialista
    Para algumas pessoas isso pode ser incômodo, mas como trava de segurança contra confiança excessiva eu achava que tinha valor
    Em vez disso, o GPT-5 sugere novos prompts com frequência
    Isso também pode ser irritante, ou perigoso se a pessoa confiar demais, mas do ponto de vista de utilidade há um benefício potencial

    • Parece que muita gente sente falta do lado mais humano dos GPTs anteriores
      O GPT-5 é mais frio e preciso, e erra menos até em contextos amplos
      Não precisa ficar declarando o tempo todo que é IA, mas talvez, se a pessoa quiser, uma opção extra de memória pudesse restaurar esse estilo antigo
    • Se você abordar isso como improviso cômico de longa duração, o jeito do GPT-5 é muito melhor
      É o conceito de “sim, e...”
      Não é um personagem pré-definido, e sim um personagem novo que surge naturalmente na conversa
      Se quiser, também daria para configurar para que ele continue dizendo “sou uma IA”, como um assistente no estilo Siri
      Vídeo de 2011 para referência: https://www.youtube.com/watch?v=nzgvod9BrcE
      No fim continua sendo um assistente, mas acho importante partir de um lugar em que o personagem não toma seu próprio papel como premissa
  • Em poucos anos, isso foi de resultados absurdos e totalmente ruins, nem poéticos nem sofisticados, para conversas razoáveis e respostas realmente bem lapidadas
    Como exemplo de engenharia pesada, isso já é impressionante
    Mesmo que eu tenha divergências sobre a organização e sobre saltman, ainda acho uma conquista admirável
    Desde o StackOverflow, virou uma ferramenta essencial para mim
    Espero que continue melhorando

  • O salto de GPT-1 para GPT-2 foi realmente imenso
    Houve só um ano de diferença
    O Davinci ainda é de cair o queixo
    Ainda sustenta desempenho até nos exemplos
    Já o GPT-4 parece ter ficado verborrágico demais
    Antes não dava essa impressão, e mesmo vendo agora ainda parece estranho
    Parece que a OpenAI está evitando mencionar o 4o de propósito, tratando-o como algo tipo gpt-4+, para valorizar o gpt-5
    Na prática, o 4o ainda foi uma conquista enorme
    Especialmente o modo Voice, que continua sem rival

  • GPT1 e GPT2 tinham algo como uma atualidade poética silenciosa, e sinto que isso já tinha se perdido no text-davinci
    Sempre me pergunto também o que fomos perdendo ao longo do caminho com o aprendizado por reforço