6 pontos por GN⁺ 2025-04-07 | 5 comentários | Compartilhar no WhatsApp
  • Há 9 meses, ao concluir que a IA já conseguia fazer análise de segurança de código em um nível capaz de realmente substituir pessoas, foi criada uma startup
  • No início, ao trocar do GPT-4o para o Claude 3.5 Sonnet, houve uma grande melhora qualitativa na explicação de vulnerabilidades de segurança e na avaliação de gravidade
  • Mas, depois disso, a maioria dos modelos, incluindo Claude 3.6 e 3.7, não mostrou melhorias reais em benchmarks internos nem na capacidade de detectar bugs
  • Os ganhos de desempenho vieram principalmente de melhorias gerais de engenharia, e não do próprio modelo de IA
  • Outras startups também tiveram experiências parecidas, e a maioria passou pelo ciclo de novo anúncio de modelo → bom desempenho em benchmark → ganho real mínimo
  • O autor considera que o avanço atual dos modelos de IA ainda não chegou a um nível significativo em utilidade econômica ou capacidade de generalização

Distância entre benchmarks de IA e desempenho real

  • Modelos de IA tiram boas notas em provas, mas isso quase não se reflete na capacidade de trabalho real
  • Os benchmarks se concentram principalmente em problemas curtos e isolados, sendo inadequados para aplicações reais
  • Como exemplo, o modelo Claude tem dificuldade de manter memória de longo prazo a ponto de não conseguir terminar um jogo de Pokémon
  • Benchmarks como ‘Humanity’s Last Exam’ parecem importantes à primeira vista, mas não avaliam adequadamente a utilidade real
  • O autor pretende, daqui em diante, confiar apenas em benchmarks baseados em uso real, como Claude Plays Pokemon, para avaliar desempenho de IA

Problemas de confiabilidade dos laboratórios de IA

  • Os laboratórios de IA estão em uma competição de escala civilizacional, e alguns têm incentivo para exagerar desempenho ou divulgar seletivamente apenas os bons resultados
  • Na prática, os benchmarks usados por OpenAI, Anthropic e outros são, em sua maioria, baseados em conjuntos de teste públicos e podem ser manipulados
  • Fora avaliações semi-privadas como ARC-AGI, quase todos os resultados podem estar baseados em datasets já vistos no treinamento
  • A interpretação mais otimista é que o problema não seja um limite técnico, mas sim trapaça humana

Razões estruturais pelas quais benchmarks não refletem a utilidade real

  • Testes de QI em humanos têm correlação com diversos resultados reais, mas benchmarks de IA não
  • A maioria dos benchmarks de IA é composta por quebra-cabeças independentes ou por problemas de resolução de curto prazo
  • A IA é muito fraca em memória, percepção de contexto e acompanhamento de objetivos, que são exigidos em problemas reais
  • Benchmarks são convenientes para desenvolvimento e avaliação, mas têm baixa relação com a capacidade total no mundo real

Modelos de IA podem ser inteligentes, mas ter o desempenho limitado por problemas de alignment

  • A empresa do autor usa IA em revisões reais de segurança de código, mas o modelo não entende bem o contexto da tarefa
  • O modelo não consegue seguir a orientação de reportar apenas problemas que afetam o serviço real e frequentemente gera alertas desnecessários
  • Isso acontece porque o modelo foi treinado para preferir respostas que “parecem inteligentes
  • Em conversas isso pode funcionar bem, mas ao ser combinado com sistemas, os erros se acumulam e viram um problema
  • Tentar corrigir apenas os sintomas externos é arriscado no longo prazo, e é preciso resolver o problema fundamental de alignment

Considerações finais e implicações sociais

  • Hoje, o desempenho real da IA fica abaixo das expectativas infladas, e isso bate com a ‘experiência vivida’ de muitos usuários
  • Antes que sistemas de IA desalinhados passem a afetar a sociedade como um todo, é necessário um entendimento e um projeto mais fundamentais
  • Mais do que benchmarks simples orientados a resultado, avaliações qualitativas baseadas em cenários reais de uso são importantes

5 comentários

 
ifmkl 2025-04-08

Concordo. Uso bastante o modelo Claude 3.7 no Perplexity, mas recentemente também tenho usado o Gemini 2.5 e realmente sinto, na prática, que o desempenho é muito bom.

 
say8425 2025-04-07

Por que ultimamente só aparecem notícias que parecem de jornal econômico?

 
sjisrich 2025-04-07

Eu gostei muito, na verdade...

 
kandk 2025-04-07

Hoje em dia parece que tem que colocar um título nesse nível pra gerar clique.

 
GN⁺ 2025-04-07
Opiniões do Hacker News
  • Minha mãe disse que Paul Newman teve problemas com álcool. Quando perguntei ao ChatGPT, ele respondeu que Paul Newman não era particularmente conhecido por problemas com álcool

    • O ChatGPT explicou que sua carreira de ator, seu trabalho filantrópico e sua paixão por corridas de carro receberam mais atenção
    • No entanto, há muitas evidências online sobre seus problemas com álcool, incluindo depoimentos de sua esposa, Joanne Woodward
    • Quando enviei a resposta do ChatGPT para minha mãe, ela encontrou uma fonte confiável em 5 minutos
    • Eu uso o ChatGPT todos os dias, mas não consegui entender como ele podia errar algo tão simples
    • Tirei a lição de que não se deve questionar o conhecimento cinematográfico da minha mãe
  • Recentemente, no USAMO, modelos SOTA tiveram uma pontuação média de 5%. Isso sugere que os modelos de IA na verdade não estão resolvendo os problemas, mas sim memorizando resultados anteriores

    • Apesar desses resultados, as empresas não divulgam os esforços para remover dados de provas dos dados de treinamento
  • LLMs tendem a querer relatar alguma coisa, então muitas vezes exageram

    • Têm tendência a responder "sim" às perguntas
    • A competição entre LLMs vem aumentando gradualmente as pontuações de benchmark, mas essas melhorias são ilusórias
    • LLMs tendem a concordar, e isso não está melhorando
    • É importante avaliar os modelos em cenários de agente
  • É interessante ler as reações a este texto. Isso mostra que nossa reação coletiva é muito diversa e baseada em anedotas

    • Algumas pessoas estarão certas e outras erradas, e fico curioso sobre quais características sinalizam a capacidade de fazer "melhores escolhas" em relação à IA
  • Minha experiência pessoal coincide com a opinião do autor

    • LLMs são treinados para "soar inteligentes" nas conversas com usuários, então tendem a enfatizar problemas
    • Isso está alinhado com o propósito da linguagem na maioria das situações, e os LLMs são treinados com linguagem
  • A melhora nos resultados de benchmark e a falta de melhora em tarefas reais refletem a natureza dos LLMs

    • LLMs são sistemas preditivos, e se forem treinados em um domínio específico, seu desempenho nesse domínio melhora
    • Eu não esperaria que treinar matemática avançada melhorasse a capacidade de programação
  • Usei o gemini 2.5 no fim de semana e ele foi excelente

    • Depende do objetivo de uso, e ainda não está claro para onde os LLMs vão nos levar
  • Mesmo que o desenvolvimento de LLMs parasse agora, continuaríamos encontrando novos usos pelos próximos 10 anos

    • A tecnologia está avançando rápido demais, e tenho medo das consequências
    • Espero que se chegue a um ponto de retorno decrescente, mas não acredito muito nisso
  • Como alguém que usa LLMs e plugins de assistência para programação, sinto que GPT/Claude pioraram nos últimos 12 meses

    • Acho que os modelos estão "bons o suficiente" e que agora deveríamos ver melhorias nas ferramentas e aplicações
    • Acho que o MCP é um bom passo na direção certa, mas no geral continuo cético