Vibechart

(vibechart.net)

1 pontos por GN⁺ 2025-08-08 | 1 comentários | Compartilhar no WhatsApp

O Vibechart é uma ferramenta de visualização que permite ao usuário criar gráficos do jeito que deseja, em vez de seguir critérios tradicionais como factualidade, valor estético e utilidade.
Interpretação dos gráficos usados na apresentação do GPT-5

Gráfico de comparação de desempenho do GPT-5 (Academic / SWE-bench)

Item de teste: SWE-bench Verified (precisão em solução de problemas de engenharia de software)
Without thinking / With thinking: diferença de desempenho com e sem o “modo de pensamento” (modo que usa mais tempo de raciocínio)
- GPT-5: sem pensar 52,8%, no modo de pensamento 74,9%
- OpenAI o3: 69,1%
- GPT-4o: 30,8%
Aqui, o GPT-5 fica com desempenho mais alto que o o3 quando usa o modo de pensamento.

Deception evals across models (avaliação de engano)

Teste que mede até que ponto o modelo exibe comportamento de tentar enganar.
Coding deception: GPT-5 (modo de pensamento) 50,0%, o3 47,4%
CharXiv missing image: GPT-5 9,0%, o3 86,7%
Production traffic: GPT-5 2,1%, o3 4,8%
Por métrica, o GPT-5 tem taxa de decepção mais alta em algumas áreas e muito menor em outras.

Ou seja, o GPT-5 é melhor que o o3 no modo de pensamento, mas é pior ou semelhante em outros aspectos (como a probabilidade de decepção),

1 comentários

GN⁺ 2025-08-08

Opinião do Hacker News

Existe uma versão com números e tamanhos de barras ainda mais plausíveis na seção "evaluation" do post de lançamento do GPT-5 da OpenAI (link). Pode ser só um erro, mas já é ruim dar a impressão de que uma empresa que gasta bilhões de dólares prometendo revolucionar toda atividade humana não consegue nem fazer um PowerPoint decente.
- É como se estivessem provando a própria ração que vão vender; esse é o tipo de resultado que isso dá.
- Talvez a IA recém-lançada tenha gerado os gráficos.
- As pessoas da OpenAI são top de linha na área, então acho difícil imaginar que tenham cometido um erro desse nível.
No começo pensei que isso fosse uma métrica de vibe coding, mas não era: era WakaTime.
Acho que o gráfico de "Coding deception" também deveria estar incluído, porque é extremamente enganoso (50.0 não é menor que 47.4) (link)
- Coloquei a imagem desse gráfico no ChatGPT-5 e perguntei: "Parece que tem algum erro nesse gráfico, você consegue encontrar?" O ChatGPT me respondeu: "No primeiro 'Coding deception', a barra rosa do GPT-5 (versão de reasoning) está em 50.0%, enquanto a barra branca do OpenAI o3 está em 47.4%, mas visualmente a barra branca foi desenhada mais curta que a rosa. A porcentagem é um pouco menor, mas visualmente não está correta." No fim, ficou a sensação de que eu deveria ter usado o ChatGPT para revisar o slide.
- Levou um bom tempo descobrir o que havia de errado tanto no post quanto no link acima. Não entendi com que intenção isso foi feito. Fico me perguntando se agora a IA está criando os gráficos e ninguém os revisa.
- Isso está errado de forma tão óbvia que parece que alguém rotulou o gráfico incorretamente. Talvez eu esteja sendo otimista demais.
- Já adicionei isso ao gráfico.
- Só entendi isso em parte. 'deception' é uma propriedade indesejada em LLM, então quanto menor, o público percebe como 'melhor'. Mas quando comparo com outras métricas que não têm a propriedade de 'less is more', não sei como representar isso corretamente no gráfico (além de o gráfico não começar no 0), então no fim penso que o resultado é totalmente sem sentido.
Fico curioso de como isso aconteceu. Imagino que, no fim, um executivo sênior tenha entrado e dado feedback tipo: "Não podemos parecer que o novo modelo melhora só um pouquinho em relação ao antigo, então vamos ajustar o eixo Y para parecer uma melhora maior."
- É assustador ver pessoas tão incompetentes tendo esse nível de dinheiro e poder.
- Talvez tenham pedido ao GPT-5 para editar os slides.
- Como dá pra sentir uma sensação de urgência em torno da OpenAI, não é surpreendente que esse exagero de hype venha da alta liderança.
- Isso é padrão da indústria. Por exemplo, a Nvidia faz esse mesmo tipo de gráfico toda vez que lança uma nova GPU. A Apple faz o mesmo nas CPUs da série M. Às vezes até exagera mais ao comparar com modelos de algumas gerações atrás.
Eu sempre vou investir em gráficos em que o rosa é maior do que o cinza.
A OpenAI já soube desde o início que "dados" também fazem parte do marketing, e sempre tratou assim. Não acho que tenha sido intencional, mas ela já sabia muito bem desde a época do Dota 2 como apresentar dados de forma a superestimar resultados e esconder fracassos.
É o mesmo estilo da demonstração de vidro do Cybertruck.
A coluna de 69.1 tem a mesma altura da coluna de 30.8. Talvez seja um erro de ter clonado a coluna de 30.8 e só alterado o número, esquecendo de ajustar a altura. Parece que eles só checaram de forma superficial que está abaixo do novo modelo e seguiram em frente. Mas a altura da coluna de 50.0 não se explica nem com esse tipo de erro.
- A primeira vista, essa barra parece ter cerca de 15% de altura. Talvez tenham escrito 50 em vez de 15. Ainda assim, um erro desses eu esperaria mais em uma apresentação de estudante do ensino médio do que no keynotes da startup mais comentada da história. Ah, e todo mundo envolvido nessa apresentação vai receber, com certeza, bônus de US$ 1,5 milhão. Só de pensar nisso fica um pouco triste.
- Não entendo por que, em uma apresentação profissional, barras e rótulos foram criados separadamente e manualmente. Não era para fazer nenhum estilo estranho, e se nem isso dá erro num gráfico de barras básico, é difícil explicar sem assumir que seja intencional.
Ver todo mundo tentando enganar todos com a própria autoilusão é hilário.