- Foi proposta uma nova métrica para medir o desempenho com base no “comprimento” das tarefas que modelos de IA conseguem concluir completamente
- A análise indica que, nos últimos 6 anos, a duração das tarefas que a IA consegue completar de forma autônoma dobrou aproximadamente a cada 7 meses
- Tarefas que especialistas humanos concluem em até 4 minutos têm taxa de sucesso de quase 100%, mas tarefas que levam mais de 4 horas têm taxa de sucesso inferior a 10%
- Se essa tendência continuar, prevê-se que, em alguns anos, a IA poderá executar de forma independente projetos com duração de várias semanas
- O estudo traz implicações importantes para benchmarks de IA, previsão de capacidades futuras e gestão de riscos
Visão geral da pesquisa
- A METR apresenta um novo método para medir quão longas são as tarefas que a IA consegue concluir
- O critério de medição é o tempo que um especialista humano leva para realizar a tarefa
- A relação entre a probabilidade de sucesso do modelo e o tempo de trabalho humano é modelada por uma curva logística
- Essa abordagem é apresentada como uma métrica útil para avaliar a aplicabilidade real da IA
- Ela complementa a limitação dos benchmarks existentes, que tendem a se concentrar na capacidade de resolver problemas isolados
Principais resultados
- Limites de desempenho dos modelos atuais
- Tarefas realizadas por humanos em até 4 minutos têm taxa de sucesso de quase 100%
- Tarefas que levam mais de 4 horas têm taxa de sucesso inferior a 10%
- Exemplo: Claude 3.7 Sonnet alcança cerca de 50% de sucesso em tarefas com duração de aproximadamente 1 hora
- Tendência de melhora de desempenho
- Nos últimos 6 anos, a duração das tarefas que podem ser concluídas com 50% de confiança dobrou aproximadamente a cada 7 meses
- A análise em escala logarítmica confirma um crescimento exponencial contínuo
- Se a tendência continuar, há possibilidade de execução de tarefas com duração de semanas dentro de 2 a 4 anos
Metodologia e validação
- Validação baseada em datasets
- O tempo de execução humano foi registrado para diversos grupos de tarefas (software, raciocínio etc.)
- Um aumento exponencial semelhante também foi confirmado no dataset SWE-Bench Verified
- Nesse conjunto de dados, foi observada uma velocidade de duplicação inferior a 3 meses
- Análise de sensibilidade
- Foi verificada a robustez em relação a vários fatores, como escolha de modelo, seleção de tarefas e ruído
- Em simulações para prever o momento em que tarefas de 1 mês poderiam ser executadas, a tendência se manteve mesmo com erro de medição elevado
Interpretação e limitações
- O estudo explica a lacuna entre o desempenho da IA em benchmarks e sua utilidade prática real
- Embora supere humanos em questões de prova e afins, ainda é fraca na execução de projetos longos do mundo real
- Há reconhecimento da incerteza na extrapolação da tendência
- Quando se usam apenas dados de 2024–2025, o momento previsto para execução de tarefas mensais é antecipado em cerca de 2,5 anos
- Menciona-se a possibilidade de que a tendência recente preveja melhor o desempenho futuro do que dados mais antigos
Conclusão e relevância
- A abordagem de medir o desempenho da IA pelo “comprimento da tarefa”
- Permite quantificar a melhora de desempenho em diferentes níveis de dificuldade e domínios
- Torna possível uma interpretação de desempenho absoluto diretamente conectada ao impacto no mundo real
- Se o crescimento exponencial contínuo prosseguir,
- Haverá possibilidade de execução autônoma de projetos mensais dentro de 10 anos
- Isso traz simultaneamente enorme potencial de benefícios e riscos
- Os dados da pesquisa e o código de análise foram abertos no GitHub, incentivando estudos posteriores e experimentos de reprodução
2 comentários
Parece um benchmark muito bom.
Hoje em dia, quando vemos as ferramentas de codificação com IA, em muitos casos elas definem um plano com antecedência e agem em modo agente; também fico curioso para saber se isso realmente tem um impacto significativo na taxa de sucesso de longo prazo.
Comentários no Hacker News
Era um prompt de uma linha, digno de tweet, e ficou pronto em 15 minutos, enquanto isso eu estava jogando Kirby Air Riders
Só fiquei decepcionado com o fato de que, nesse processo, não aprendi absolutamente nada sobre como construir busca vetorial. No fim, o objetivo era a funcionalidade em si, e o aprendizado era algo secundário
Em vez de gastar 4 horas fazendo tudo na mão, é muito mais eficiente deixar o agente fazer em 15 minutos enquanto você cuida de outra coisa, e depois passar uns 30 minutos lendo, ajustando o código e fazendo perguntas
30 minutos de aprendizado focado talvez sejam melhores do que 4 horas de tentativa e erro
Em algum momento a IA também perde a noção da estrutura do código, e você acaba virando cliente cativo do Opus
Antes eu gostava de ouvir música enquanto resolvia problemas em Scala, mas agora conseguir só o resultado com tanta facilidade acaba dando uma sensação de vazio
Quando monto modelos de trading, eu também prefiro que um LLM escreva o código em vez de eu ter que aprender gráficos na prática
Assim, não perco tempo com tratamento de API sem importância e consigo focar só nas partes que realmente exigem decisão
Enquanto portava um parser HTML5 em Python para JavaScript, rodei o Codex CLI nos 9.200 testes do html5lib-tests, e foi impressionante ver ele passar mais de 4 horas em loop resolvendo os problemas
Escrevi sobre isso aqui
Isso quer dizer que o Opus 4.5 consegue executar tarefas desse nível com 50% de confiabilidade, e o tempo real de execução é muito menor
Vai ficar mais interessante quando começarem a superar marcos como 8 horas ou 40 horas
Ela mostra bem como benchmarks são quebrados rapidamente, enquanto automatizar trabalho real continua sendo difícil
Alguém acostumado com jq, o ecossistema PyPI ou anotações em TypeScript talvez termine muito mais rápido
No fim, o grande atrativo da IA é justamente ter ajuda de nível especialista instantaneamente
A maioria dos modelos acaba se interrompendo por conta própria com algo como “vamos para a próxima etapa”
Queria saber se alguém encontrou uma forma de resolver isso
A diferença de preço também diminuiu em relação ao passado, então o valor prático aumentou bastante, e o Haiku 4.5 também fica bem útil com reasoning ativado
Ele é especialmente adequado para ferramentas pequenas ou edição de página única
Com LLMs, essas duas etapas acabam se combinando naturalmente
Por exemplo, ao criar animações com AnimeJS, eu aprendo observando o CCAgent escrever o código e depois eu mesmo estruturo e refatoro
Assim, dá para ter economia de tempo e controle criativo ao mesmo tempo
Ou seja, para tarefas curtas o GPT 5.1 é melhor, e para tarefas longas o Opus é mais adequado
Se você entrega uma tarefa de 4 horas com 50% de taxa de sucesso, na prática isso fica muito próximo de uma aposta; e, se falhar, o prejuízo aumenta ainda mais quando entra o debugging
Por isso, acho melhor colocar checkpoints de revisão humana a cada 30 minutos
Mas também é importante a IA ter capacidade de se recuperar sozinha quando trava no meio
Na superfície parece tudo certo, mas há muitos bugs sutis que só aparecem depois
Por isso ainda não uso agentes em tarefas importantes; além de tudo, isso ainda tira a graça do trabalho
Se há 50% de chance de obter o resultado, talvez seja uma aposta eficiente em termos de tempo
Dá para tentar várias abordagens rapidamente, e até os fracassos ensinam algo
Só assim ficará mais claro por que os LLMs ainda falham com tanta frequência em coisas que humanos fazem facilmente
O resultado pode ser verificado numericamente, quanto menor o código melhor, e isso exige pensamento sistêmico, não apenas combinação simples
Até agora, o Gemini Pro 3 foi o melhor em otimização de código SIMD
Se você repetir várias vezes uma tarefa de 4 horas, a chance de sucesso pode cair até 6,25%
Isso depende da natureza da tarefa