Medição da capacidade da IA de executar tarefas longas

(metr.org)

10 pontos por GN⁺ 2025-12-23 | 2 comentários | Compartilhar no WhatsApp

Foi proposta uma nova métrica para medir o desempenho com base no “comprimento” das tarefas que modelos de IA conseguem concluir completamente
A análise indica que, nos últimos 6 anos, a duração das tarefas que a IA consegue completar de forma autônoma dobrou aproximadamente a cada 7 meses
Tarefas que especialistas humanos concluem em até 4 minutos têm taxa de sucesso de quase 100%, mas tarefas que levam mais de 4 horas têm taxa de sucesso inferior a 10%
Se essa tendência continuar, prevê-se que, em alguns anos, a IA poderá executar de forma independente projetos com duração de várias semanas
O estudo traz implicações importantes para benchmarks de IA, previsão de capacidades futuras e gestão de riscos

Visão geral da pesquisa

A METR apresenta um novo método para medir quão longas são as tarefas que a IA consegue concluir
- O critério de medição é o tempo que um especialista humano leva para realizar a tarefa
- A relação entre a probabilidade de sucesso do modelo e o tempo de trabalho humano é modelada por uma curva logística
Essa abordagem é apresentada como uma métrica útil para avaliar a aplicabilidade real da IA
- Ela complementa a limitação dos benchmarks existentes, que tendem a se concentrar na capacidade de resolver problemas isolados

Principais resultados

Limites de desempenho dos modelos atuais
- Tarefas realizadas por humanos em até 4 minutos têm taxa de sucesso de quase 100%
- Tarefas que levam mais de 4 horas têm taxa de sucesso inferior a 10%
- Exemplo: Claude 3.7 Sonnet alcança cerca de 50% de sucesso em tarefas com duração de aproximadamente 1 hora
Tendência de melhora de desempenho
- Nos últimos 6 anos, a duração das tarefas que podem ser concluídas com 50% de confiança dobrou aproximadamente a cada 7 meses
- A análise em escala logarítmica confirma um crescimento exponencial contínuo
- Se a tendência continuar, há possibilidade de execução de tarefas com duração de semanas dentro de 2 a 4 anos

Metodologia e validação

Validação baseada em datasets
- O tempo de execução humano foi registrado para diversos grupos de tarefas (software, raciocínio etc.)
- Um aumento exponencial semelhante também foi confirmado no dataset SWE-Bench Verified
- Nesse conjunto de dados, foi observada uma velocidade de duplicação inferior a 3 meses
Análise de sensibilidade
- Foi verificada a robustez em relação a vários fatores, como escolha de modelo, seleção de tarefas e ruído
- Em simulações para prever o momento em que tarefas de 1 mês poderiam ser executadas, a tendência se manteve mesmo com erro de medição elevado

Interpretação e limitações

O estudo explica a lacuna entre o desempenho da IA em benchmarks e sua utilidade prática real
- Embora supere humanos em questões de prova e afins, ainda é fraca na execução de projetos longos do mundo real
Há reconhecimento da incerteza na extrapolação da tendência
- Quando se usam apenas dados de 2024–2025, o momento previsto para execução de tarefas mensais é antecipado em cerca de 2,5 anos
- Menciona-se a possibilidade de que a tendência recente preveja melhor o desempenho futuro do que dados mais antigos

Conclusão e relevância

A abordagem de medir o desempenho da IA pelo “comprimento da tarefa”
- Permite quantificar a melhora de desempenho em diferentes níveis de dificuldade e domínios
- Torna possível uma interpretação de desempenho absoluto diretamente conectada ao impacto no mundo real
Se o crescimento exponencial contínuo prosseguir,
- Haverá possibilidade de execução autônoma de projetos mensais dentro de 10 anos
- Isso traz simultaneamente enorme potencial de benefícios e riscos
Os dados da pesquisa e o código de análise foram abertos no GitHub, incentivando estudos posteriores e experimentos de reprodução
- Infraestrutura relacionada: vivaria, eval-analysis-public

2 comentários

crawler 2025-12-23

Parece um benchmark muito bom.
Hoje em dia, quando vemos as ferramentas de codificação com IA, em muitos casos elas definem um plano com antecedência e agem em modo agente; também fico curioso para saber se isso realmente tem um impacto significativo na taxa de sucesso de longo prazo.

GN⁺ 2025-12-23

Comentários no Hacker News

Recentemente, no meu projeto hobby, eu pedi apenas para “adicionar busca vetorial”, e o Opus configurou o manticore, baixou um modelo de embeddings, criou uma ferramenta para migrar o índice de palavras-chave existente e até montou o frontend
Era um prompt de uma linha, digno de tweet, e ficou pronto em 15 minutos, enquanto isso eu estava jogando Kirby Air Riders
Só fiquei decepcionado com o fato de que, nesse processo, não aprendi absolutamente nada sobre como construir busca vetorial. No fim, o objetivo era a funcionalidade em si, e o aprendizado era algo secundário
- Não acho que fazer de um jeito deliberadamente mais demorado seja necessariamente uma forma melhor de aprender
  Em vez de gastar 4 horas fazendo tudo na mão, é muito mais eficiente deixar o agente fazer em 15 minutos enquanto você cuida de outra coisa, e depois passar uns 30 minutos lendo, ajustando o código e fazendo perguntas
  30 minutos de aprendizado focado talvez sejam melhores do que 4 horas de tentativa e erro
- Mas, se fizer assim, no fim você acaba com um enorme bloco de código impossível de manter
  Em algum momento a IA também perde a noção da estrutura do código, e você acaba virando cliente cativo do Opus
- Opus e Anthropic são claramente de altíssimo nível, mas toda vez que uso parece fast-food intelectual
  Antes eu gostava de ouvir música enquanto resolvia problemas em Scala, mas agora conseguir só o resultado com tanta facilidade acaba dando uma sensação de vazio
- Concordo totalmente com a frase “eu queria a funcionalidade, não queria aprender a fazer”
  Quando monto modelos de trading, eu também prefiro que um LLM escreva o código em vez de eu ter que aprender gráficos na prática
  Assim, não perco tempo com tratamento de API sem importância e consigo focar só nas partes que realmente exigem decisão
- Fiquei curioso se aquele código de busca vetorial seria compartilhável
Antes de vivenciar de fato a ideia de “tarefa longa (long task)”, eu não entendia muito bem o conceito
Enquanto portava um parser HTML5 em Python para JavaScript, rodei o Codex CLI nos 9.200 testes do html5lib-tests, e foi impressionante ver ele passar mais de 4 horas em loop resolvendo os problemas
Escrevi sobre isso aqui
- A “tarefa de 4 horas” da METR não significa que a IA realmente leva 4 horas, e sim um nível de dificuldade que levaria 4 horas para um humano
  Isso quer dizer que o Opus 4.5 consegue executar tarefas desse nível com 50% de confiabilidade, e o tempo real de execução é muito menor
  Vai ficar mais interessante quando começarem a superar marcos como 8 horas ou 40 horas
- Essa métrica não mede a velocidade real da IA, mas sim a dificuldade segundo o padrão humano
  Ela mostra bem como benchmarks são quebrados rapidamente, enquanto automatizar trabalho real continua sendo difícil
- Em “human hours equivalent” da METR, o importante é qual humano está sendo usado como referência
  Alguém acostumado com jq, o ecossistema PyPI ou anotações em TypeScript talvez termine muito mais rápido
  No fim, o grande atrativo da IA é justamente ter ajuda de nível especialista instantaneamente
- Mas quando você roda tarefas longas com Codex ou Claude code, os pedidos de permissão aparecem o tempo todo, e muitas vezes o processo para no meio
  A maioria dos modelos acaba se interrompendo por conta própria com algo como “vamos para a próxima etapa”
- O GPT5.2, em especial, exige input do usuário em excesso, então é difícil colocá-lo para trabalhar por mais de 2 minutos seguidos
  Queria saber se alguém encontrou uma forma de resolver isso
Sou cauteloso ao avaliar modelos, mas a diferença entre Opus 4.5 e Sonnet 4.5 foi bem perceptível
A diferença de preço também diminuiu em relação ao passado, então o valor prático aumentou bastante, e o Haiku 4.5 também fica bem útil com reasoning ativado
Ele é especialmente adequado para ferramentas pequenas ou edição de página única
Acho que aprender software se divide em duas etapas: exploração (exploration) e aproveitamento (exploitation)
Com LLMs, essas duas etapas acabam se combinando naturalmente
Por exemplo, ao criar animações com AnimeJS, eu aprendo observando o CCAgent escrever o código e depois eu mesmo estruturo e refatoro
Assim, dá para ter economia de tempo e controle criativo ao mesmo tempo
O Opus parece um salto maior do que o GPT 5.1, mas no critério de 80% de confiabilidade o GPT 5.1 ainda leva vantagem
Ou seja, para tarefas curtas o GPT 5.1 é melhor, e para tarefas longas o Opus é mais adequado
- Com 50% de taxa de sucesso, o desperdício de tokens caros é grande, mas espero que no ano que vem os modelos open source também cheguem a esse nível
O ponto principal da METR é medir complexidade com base no “tempo equivalente humano”
Se você entrega uma tarefa de 4 horas com 50% de taxa de sucesso, na prática isso fica muito próximo de uma aposta; e, se falhar, o prejuízo aumenta ainda mais quando entra o debugging
Por isso, acho melhor colocar checkpoints de revisão humana a cada 30 minutos
Mas também é importante a IA ter capacidade de se recuperar sozinha quando trava no meio
- Só que, em 30 minutos, a IA produz coisa demais, e revisar tudo vira um pesadelo
  Na superfície parece tudo certo, mas há muitos bugs sutis que só aparecem depois
  Por isso ainda não uso agentes em tarefas importantes; além de tudo, isso ainda tira a graça do trabalho
- Mesmo que 4 horas sejam desperdiçadas, se nesse tempo você fez outra coisa, não é exatamente uma perda
  Se há 50% de chance de obter o resultado, talvez seja uma aposta eficiente em termos de tempo
- Mesmo quando falha, o que se perde de fato são só alguns minutos de trabalho da IA, então é excelente para exploração de protótipos
  Dá para tentar várias abordagens rapidamente, e até os fracassos ensinam algo
Também precisamos de gráficos com 95% ou 99% de confiabilidade
Só assim ficará mais claro por que os LLMs ainda falham com tanta frequência em coisas que humanos fazem facilmente
Acho que otimização de desempenho é um ótimo benchmark para medir a inteligência prática da IA
O resultado pode ser verificado numericamente, quanto menor o código melhor, e isso exige pensamento sistêmico, não apenas combinação simples
Até agora, o Gemini Pro 3 foi o melhor em otimização de código SIMD
O problema da taxa de sucesso de 50% é que a probabilidade despenca quando você tenta de novo
Se você repetir várias vezes uma tarefa de 4 horas, a chance de sucesso pode cair até 6,25%
- Mas, em vez de ser só “azar”, pode ser que uma tarefa que falhou uma vez tenha outra probabilidade de sucesso na próxima tentativa
  Isso depende da natureza da tarefa