10 pontos por GN⁺ 2025-12-23 | 2 comentários | Compartilhar no WhatsApp
  • Foi proposta uma nova métrica para medir o desempenho com base no “comprimento” das tarefas que modelos de IA conseguem concluir completamente
  • A análise indica que, nos últimos 6 anos, a duração das tarefas que a IA consegue completar de forma autônoma dobrou aproximadamente a cada 7 meses
  • Tarefas que especialistas humanos concluem em até 4 minutos têm taxa de sucesso de quase 100%, mas tarefas que levam mais de 4 horas têm taxa de sucesso inferior a 10%
  • Se essa tendência continuar, prevê-se que, em alguns anos, a IA poderá executar de forma independente projetos com duração de várias semanas
  • O estudo traz implicações importantes para benchmarks de IA, previsão de capacidades futuras e gestão de riscos

Visão geral da pesquisa

  • A METR apresenta um novo método para medir quão longas são as tarefas que a IA consegue concluir
    • O critério de medição é o tempo que um especialista humano leva para realizar a tarefa
    • A relação entre a probabilidade de sucesso do modelo e o tempo de trabalho humano é modelada por uma curva logística
  • Essa abordagem é apresentada como uma métrica útil para avaliar a aplicabilidade real da IA
    • Ela complementa a limitação dos benchmarks existentes, que tendem a se concentrar na capacidade de resolver problemas isolados

Principais resultados

  • Limites de desempenho dos modelos atuais
    • Tarefas realizadas por humanos em até 4 minutos têm taxa de sucesso de quase 100%
    • Tarefas que levam mais de 4 horas têm taxa de sucesso inferior a 10%
    • Exemplo: Claude 3.7 Sonnet alcança cerca de 50% de sucesso em tarefas com duração de aproximadamente 1 hora
  • Tendência de melhora de desempenho
    • Nos últimos 6 anos, a duração das tarefas que podem ser concluídas com 50% de confiança dobrou aproximadamente a cada 7 meses
    • A análise em escala logarítmica confirma um crescimento exponencial contínuo
    • Se a tendência continuar, há possibilidade de execução de tarefas com duração de semanas dentro de 2 a 4 anos

Metodologia e validação

  • Validação baseada em datasets
    • O tempo de execução humano foi registrado para diversos grupos de tarefas (software, raciocínio etc.)
    • Um aumento exponencial semelhante também foi confirmado no dataset SWE-Bench Verified
    • Nesse conjunto de dados, foi observada uma velocidade de duplicação inferior a 3 meses
  • Análise de sensibilidade
    • Foi verificada a robustez em relação a vários fatores, como escolha de modelo, seleção de tarefas e ruído
    • Em simulações para prever o momento em que tarefas de 1 mês poderiam ser executadas, a tendência se manteve mesmo com erro de medição elevado

Interpretação e limitações

  • O estudo explica a lacuna entre o desempenho da IA em benchmarks e sua utilidade prática real
    • Embora supere humanos em questões de prova e afins, ainda é fraca na execução de projetos longos do mundo real
  • Há reconhecimento da incerteza na extrapolação da tendência
    • Quando se usam apenas dados de 2024–2025, o momento previsto para execução de tarefas mensais é antecipado em cerca de 2,5 anos
    • Menciona-se a possibilidade de que a tendência recente preveja melhor o desempenho futuro do que dados mais antigos

Conclusão e relevância

  • A abordagem de medir o desempenho da IA pelo “comprimento da tarefa”
    • Permite quantificar a melhora de desempenho em diferentes níveis de dificuldade e domínios
    • Torna possível uma interpretação de desempenho absoluto diretamente conectada ao impacto no mundo real
  • Se o crescimento exponencial contínuo prosseguir,
    • Haverá possibilidade de execução autônoma de projetos mensais dentro de 10 anos
    • Isso traz simultaneamente enorme potencial de benefícios e riscos
  • Os dados da pesquisa e o código de análise foram abertos no GitHub, incentivando estudos posteriores e experimentos de reprodução

2 comentários

 
crawler 2025-12-23

Parece um benchmark muito bom.
Hoje em dia, quando vemos as ferramentas de codificação com IA, em muitos casos elas definem um plano com antecedência e agem em modo agente; também fico curioso para saber se isso realmente tem um impacto significativo na taxa de sucesso de longo prazo.

 
GN⁺ 2025-12-23
Comentários no Hacker News
  • Recentemente, no meu projeto hobby, eu pedi apenas para “adicionar busca vetorial”, e o Opus configurou o manticore, baixou um modelo de embeddings, criou uma ferramenta para migrar o índice de palavras-chave existente e até montou o frontend
    Era um prompt de uma linha, digno de tweet, e ficou pronto em 15 minutos, enquanto isso eu estava jogando Kirby Air Riders
    Só fiquei decepcionado com o fato de que, nesse processo, não aprendi absolutamente nada sobre como construir busca vetorial. No fim, o objetivo era a funcionalidade em si, e o aprendizado era algo secundário
    • Não acho que fazer de um jeito deliberadamente mais demorado seja necessariamente uma forma melhor de aprender
      Em vez de gastar 4 horas fazendo tudo na mão, é muito mais eficiente deixar o agente fazer em 15 minutos enquanto você cuida de outra coisa, e depois passar uns 30 minutos lendo, ajustando o código e fazendo perguntas
      30 minutos de aprendizado focado talvez sejam melhores do que 4 horas de tentativa e erro
    • Mas, se fizer assim, no fim você acaba com um enorme bloco de código impossível de manter
      Em algum momento a IA também perde a noção da estrutura do código, e você acaba virando cliente cativo do Opus
    • Opus e Anthropic são claramente de altíssimo nível, mas toda vez que uso parece fast-food intelectual
      Antes eu gostava de ouvir música enquanto resolvia problemas em Scala, mas agora conseguir só o resultado com tanta facilidade acaba dando uma sensação de vazio
    • Concordo totalmente com a frase “eu queria a funcionalidade, não queria aprender a fazer”
      Quando monto modelos de trading, eu também prefiro que um LLM escreva o código em vez de eu ter que aprender gráficos na prática
      Assim, não perco tempo com tratamento de API sem importância e consigo focar só nas partes que realmente exigem decisão
    • Fiquei curioso se aquele código de busca vetorial seria compartilhável
  • Antes de vivenciar de fato a ideia de “tarefa longa (long task)”, eu não entendia muito bem o conceito
    Enquanto portava um parser HTML5 em Python para JavaScript, rodei o Codex CLI nos 9.200 testes do html5lib-tests, e foi impressionante ver ele passar mais de 4 horas em loop resolvendo os problemas
    Escrevi sobre isso aqui
    • A “tarefa de 4 horas” da METR não significa que a IA realmente leva 4 horas, e sim um nível de dificuldade que levaria 4 horas para um humano
      Isso quer dizer que o Opus 4.5 consegue executar tarefas desse nível com 50% de confiabilidade, e o tempo real de execução é muito menor
      Vai ficar mais interessante quando começarem a superar marcos como 8 horas ou 40 horas
    • Essa métrica não mede a velocidade real da IA, mas sim a dificuldade segundo o padrão humano
      Ela mostra bem como benchmarks são quebrados rapidamente, enquanto automatizar trabalho real continua sendo difícil
    • Em “human hours equivalent” da METR, o importante é qual humano está sendo usado como referência
      Alguém acostumado com jq, o ecossistema PyPI ou anotações em TypeScript talvez termine muito mais rápido
      No fim, o grande atrativo da IA é justamente ter ajuda de nível especialista instantaneamente
    • Mas quando você roda tarefas longas com Codex ou Claude code, os pedidos de permissão aparecem o tempo todo, e muitas vezes o processo para no meio
      A maioria dos modelos acaba se interrompendo por conta própria com algo como “vamos para a próxima etapa”
    • O GPT5.2, em especial, exige input do usuário em excesso, então é difícil colocá-lo para trabalhar por mais de 2 minutos seguidos
      Queria saber se alguém encontrou uma forma de resolver isso
  • Sou cauteloso ao avaliar modelos, mas a diferença entre Opus 4.5 e Sonnet 4.5 foi bem perceptível
    A diferença de preço também diminuiu em relação ao passado, então o valor prático aumentou bastante, e o Haiku 4.5 também fica bem útil com reasoning ativado
    Ele é especialmente adequado para ferramentas pequenas ou edição de página única
  • Acho que aprender software se divide em duas etapas: exploração (exploration) e aproveitamento (exploitation)
    Com LLMs, essas duas etapas acabam se combinando naturalmente
    Por exemplo, ao criar animações com AnimeJS, eu aprendo observando o CCAgent escrever o código e depois eu mesmo estruturo e refatoro
    Assim, dá para ter economia de tempo e controle criativo ao mesmo tempo
  • O Opus parece um salto maior do que o GPT 5.1, mas no critério de 80% de confiabilidade o GPT 5.1 ainda leva vantagem
    Ou seja, para tarefas curtas o GPT 5.1 é melhor, e para tarefas longas o Opus é mais adequado
    • Com 50% de taxa de sucesso, o desperdício de tokens caros é grande, mas espero que no ano que vem os modelos open source também cheguem a esse nível
  • O ponto principal da METR é medir complexidade com base no “tempo equivalente humano”
    Se você entrega uma tarefa de 4 horas com 50% de taxa de sucesso, na prática isso fica muito próximo de uma aposta; e, se falhar, o prejuízo aumenta ainda mais quando entra o debugging
    Por isso, acho melhor colocar checkpoints de revisão humana a cada 30 minutos
    Mas também é importante a IA ter capacidade de se recuperar sozinha quando trava no meio
    • Só que, em 30 minutos, a IA produz coisa demais, e revisar tudo vira um pesadelo
      Na superfície parece tudo certo, mas há muitos bugs sutis que só aparecem depois
      Por isso ainda não uso agentes em tarefas importantes; além de tudo, isso ainda tira a graça do trabalho
    • Mesmo que 4 horas sejam desperdiçadas, se nesse tempo você fez outra coisa, não é exatamente uma perda
      Se há 50% de chance de obter o resultado, talvez seja uma aposta eficiente em termos de tempo
    • Mesmo quando falha, o que se perde de fato são só alguns minutos de trabalho da IA, então é excelente para exploração de protótipos
      Dá para tentar várias abordagens rapidamente, e até os fracassos ensinam algo
  • Também precisamos de gráficos com 95% ou 99% de confiabilidade
    Só assim ficará mais claro por que os LLMs ainda falham com tanta frequência em coisas que humanos fazem facilmente
  • Acho que otimização de desempenho é um ótimo benchmark para medir a inteligência prática da IA
    O resultado pode ser verificado numericamente, quanto menor o código melhor, e isso exige pensamento sistêmico, não apenas combinação simples
    Até agora, o Gemini Pro 3 foi o melhor em otimização de código SIMD
  • O problema da taxa de sucesso de 50% é que a probabilidade despenca quando você tenta de novo
    Se você repetir várias vezes uma tarefa de 4 horas, a chance de sucesso pode cair até 6,25%
    • Mas, em vez de ser só “azar”, pode ser que uma tarefa que falhou uma vez tenha outra probabilidade de sucesso na próxima tentativa
      Isso depende da natureza da tarefa