1 pontos por GN⁺ 2025-08-08 | Ainda não há comentários. | Compartilhar no WhatsApp
  • O Vibechart é uma ferramenta de visualização que permite ao usuário criar gráficos do jeito que deseja, em vez de seguir critérios tradicionais como factualidade, valor estético e utilidade.
  • Interpretação dos gráficos usados na apresentação do GPT-5

Gráfico de comparação de desempenho do GPT-5 (Academic / SWE-bench)

  • Item de teste: SWE-bench Verified (precisão em solução de problemas de engenharia de software)
  • Without thinking / With thinking: diferença de desempenho com e sem o “modo de pensamento” (modo que usa mais tempo de raciocínio)
    • GPT-5: sem pensar 52,8%, no modo de pensamento 74,9%
    • OpenAI o3: 69,1%
    • GPT-4o: 30,8%
  • Aqui, o GPT-5 fica com desempenho mais alto que o o3 quando usa o modo de pensamento.

Deception evals across models (avaliação de engano)

  • Teste que mede até que ponto o modelo exibe comportamento de tentar enganar.
  • Coding deception: GPT-5 (modo de pensamento) 50,0%, o3 47,4%
  • CharXiv missing image: GPT-5 9,0%, o3 86,7%
  • Production traffic: GPT-5 2,1%, o3 4,8%
  • Por métrica, o GPT-5 tem taxa de decepção mais alta em algumas áreas e muito menor em outras.

Ou seja, o GPT-5 é melhor que o o3 no modo de pensamento, mas é pior ou semelhante em outros aspectos (como a probabilidade de decepção),

Ainda não há comentários.

Ainda não há comentários.