Vibechart
(vibechart.net)- O Vibechart é uma ferramenta de visualização que permite ao usuário criar gráficos do jeito que deseja, em vez de seguir critérios tradicionais como factualidade, valor estético e utilidade.
- Interpretação dos gráficos usados na apresentação do GPT-5
Gráfico de comparação de desempenho do GPT-5 (Academic / SWE-bench)
- Item de teste: SWE-bench Verified (precisão em solução de problemas de engenharia de software)
- Without thinking / With thinking: diferença de desempenho com e sem o “modo de pensamento” (modo que usa mais tempo de raciocínio)
- GPT-5: sem pensar 52,8%, no modo de pensamento 74,9%
- OpenAI o3: 69,1%
- GPT-4o: 30,8%
- Aqui, o GPT-5 fica com desempenho mais alto que o o3 quando usa o modo de pensamento.
Deception evals across models (avaliação de engano)
- Teste que mede até que ponto o modelo exibe comportamento de tentar enganar.
- Coding deception: GPT-5 (modo de pensamento) 50,0%, o3 47,4%
- CharXiv missing image: GPT-5 9,0%, o3 86,7%
- Production traffic: GPT-5 2,1%, o3 4,8%
- Por métrica, o GPT-5 tem taxa de decepção mais alta em algumas áreas e muito menor em outras.
Ou seja, o GPT-5 é melhor que o o3 no modo de pensamento, mas é pior ou semelhante em outros aspectos (como a probabilidade de decepção),
Ainda não há comentários.