Opus 4.6: o que significa resolver problemas de 14,5 horas no padrão humano (METR Time Horizon)

(metr.org)

5 pontos por princox 2026-02-21 | Ainda não há comentários. | Compartilhar no WhatsApp

Existe nos EUA uma instituição de pesquisa sem fins lucrativos chamada METR.
É uma organização de pesquisa sem fins lucrativos localizada em Berkeley, Califórnia, que avalia a capacidade de modelos de IA de fronteira de realizar tarefas autônomas e de longo prazo.

Alguns pesquisadores alertam que essas capacidades podem representar riscos graves para a sociedade, e o papel do METR é justamente medir esse risco.

A pesquisa do METR é composta, em linhas gerais, por três eixos.

Primeiro, uma avaliação ampla de capacidades autônomas que mede a habilidade de agentes de IA concluírem de forma autônoma tarefas diversas ao longo de várias horas.

Segundo, a avaliação da capacidade de a IA acelerar a própria pesquisa e desenvolvimento em IA.

Terceiro, o estudo de comportamentos de IA que ameaçam a integridade das avaliações (por exemplo, sandbagging e reward hacking) e das respectivas contramedidas.

Em especial, o estudo de horizonte temporal (Time Horizon) publicado pelo METR revelou que a duração das tarefas que agentes de IA conseguem concluir vem dobrando aproximadamente a cada 7 meses nos últimos 6 anos, e esse estudo vem sendo usado como base central para prever quando a IA poderá causar impacto transformador.

Abaixo está uma tradução automática da página acessada pela URL.

Visão geral

O horizonte de tempo de conclusão de tarefa (task-completion time horizon) é o tempo necessário para uma tarefa, no padrão de conclusão de um especialista humano, em que se prevê que um agente de IA terá sucesso em um dado nível de confiabilidade. Por exemplo, o horizonte de 50% é a duração de uma tarefa na qual se prevê que o agente terá sucesso com probabilidade de 50%. O gráfico abaixo mostra os horizontes de 50% e 80% de agentes de IA de fronteira, calculados com base no desempenho em mais de 100 tarefas variadas de software.

Atualizamos periodicamente as medições de horizonte temporal de modelos públicos de IA de fronteira. Devido a limites de capacidade, alguns modelos podem ser medidos algum tempo após o lançamento, ou alguns lançamentos podem ser totalmente ignorados.

Para uma discussão completa sobre metodologia e resultados, consulte o artigo e o post no blog.

Detalhes da metodologia

Para estimar o horizonte temporal de agentes de IA de fronteira, primeiro estimamos quanto tempo especialistas humanos levam para concluir cada tarefa. Para cada agente, ajustamos uma curva logística para prever a probabilidade de sucesso na tarefa em função do tempo que um humano levaria para realizá-la. Para obter o horizonte de 50% (ou de 80%), encontramos a duração da tarefa em que a curva ajustada cruza a probabilidade de sucesso de 50% (ou 80%).

Distribuição das tarefas: as tarefas são compostas por RE-Bench, HCAST e tarefas curtas de software. São principalmente tarefas de engenharia de software, machine learning e cibersegurança, independentes, claramente definidas e com critérios objetivos de sucesso que permitem avaliação automática.

Estimativa do tempo humano de execução: para a maioria das tarefas, contratamos pessoas para tentar executá-las e usamos a média geométrica dos tempos de conclusão bem-sucedida. Essas pessoas recebem as mesmas instruções e o mesmo ambiente que os agentes de IA, e são orientadas a concluir as tarefas o mais rapidamente possível. Nossas estimativas de tempo humano de execução podem ser superestimadas em relação a especialistas reais, porque esses humanos (e os agentes de IA) têm muito menos contexto sobre a tarefa do que especialistas que realizariam tarefas equivalentes em seu trabalho cotidiano.

Perguntas frequentes (FAQ)

P. “Horizonte temporal” significa o tempo durante o qual a IA atual consegue agir de forma autônoma?

Não. O horizonte de 50% é a duração da tarefa (no padrão de um especialista humano) que o agente de IA consegue concluir com 50% de confiabilidade. Não é o tempo real que a IA leva para concluir a tarefa, mas um indicador da dificuldade da tarefa.

P. Quanto tempo um agente de IA realmente leva para concluir uma tarefa de 2 horas?

Depende do modelo, da tarefa e da configuração do agente, mas agentes de IA geralmente são várias vezes mais rápidos que humanos. Com frequência, eles escrevem código de uma vez, sem iterações, e também precisam buscar menos coisas. Além disso, muitos agentes de IA programam muito mais rápido do que engenheiros de software humanos.

P. A estimativa de duração da tarefa toma como base que tipo de humano?

Especialistas experientes em engenharia de software, machine learning e cibersegurança, a maioria formada em uma das 100 melhores universidades do mundo. Em média, têm cerca de 5 anos de experiência relevante. Nossa “tarefa de 2 horas” deve ser entendida mais como algo que um “funcionário novo ou contratado freelancer com quase nenhum contexto prévio” consegue concluir em 2 horas, e não como algo que um “especialista experiente já familiarizado com o projeto” faria em 2 horas.

P. Um horizonte temporal de 2 horas significa que a IA consegue realizar todo trabalho intelectual que um humano pode fazer em 2 horas?

Não. Nossa distribuição de tarefas é composta principalmente por tarefas de engenharia de software, machine learning e cibersegurança. Em pesquisas posteriores, investigamos como o horizonte temporal de sistemas de IA varia entre diferentes domínios, e encontramos tendências exponenciais semelhantes em outros domínios, embora os valores absolutos do horizonte temporal sejam diferentes. As capacidades da IA em relação aos humanos são 'irregulares (jagged)', e espera-se que os horizontes temporais de todas as tarefas economicamente valiosas se distribuam por várias ordens de magnitude.

📊 Interpretação dos gráficos

Gráfico principal (imagens 1 e 6)

Observando a trajetória de GPT-2 (2019) até Claude Opus 4.6 (fevereiro de 2026), dá para ver que o horizonte temporal da IA cresceu de forma explosiva de quase 0 minuto para cerca de 14 horas e 30 minutos. Em especial, no intervalo de 2024 a 2026, a curva fica muito mais íngreme, indicando que os avanços dos últimos 1 a 2 anos superam os de vários anos anteriores.

Gráfico multidomínio (imagem 5)

Ele mostra que o horizonte temporal está aumentando exponencialmente em diversos benchmarks, como METR-HRS (software), MATH, GPQA, Mock AIME e SWE-bench. Embora os valores absolutos variem entre domínios, a tendência de alta em si é comum.

🔑 Como interpretar “14 horas e 30 minutos” — a pergunta central

“O que significa dizer que Claude Opus 4.6 alcançou 14,5 horas em 'Fix complex bug in ML research codebase'?”

Este é o ponto mais fácil de interpretar de forma errada. Explicando com precisão:

Interpretação equivocada	Interpretação correta
“Claude Opus 4.6 trabalhou durante 14,5 horas”	❌
“Claude Opus 4.6 tem 50% de chance de sucesso em uma tarefa com dificuldade equivalente a 14,5 horas de trabalho humano”	✅

Ou seja, 14 horas e 30 minutos não é o tempo gasto pela IA, mas a dificuldade da tarefa no padrão humano.

Em termos concretos, é o seguinte:

O METR seleciona a tarefa “corrigir um bug complexo em uma codebase de pesquisa em ML”
Vários especialistas humanos experientes executam essa tarefa, e a média fica em cerca de 14 horas e 30 minutos
Claude Opus 4.6 executa repetidamente a mesma tarefa e tem sucesso em metade das tentativas (50%)
Portanto, o “horizonte temporal de 50% do Claude Opus 4.6 = 14 horas e 30 minutos”

Na prática, o tempo real que Claude Opus 4.6 leva para processar essa tarefa provavelmente é muito menor que o de um humano (segundo o FAQ, a IA normalmente é várias vezes mais rápida que humanos).

💡 Resumo das implicações

Os dados de horizonte temporal do METR demonstram objetivamente que a capacidade de agentes de IA de executar trabalho autônomo está se expandindo em ritmo exponencial, e o fato de Claude Opus 4.6 conseguir concluir com sucesso, em metade das tentativas, tarefas complexas de software, ML e cibersegurança que exigem mais de 14 horas no padrão de especialistas humanos sugere que a IA já se aproxima de um ponto de inflexão em que pode substituir ou automatizar, na prática, uma parte significativa do trabalho intelectual especializado; se essa tendência continuar, isso implica fortemente que será inevitável uma redefinição fundamental do papel e do valor do trabalho humano em setores intensivos em conhecimento e alta qualificação, como desenvolvimento de software, segurança e pesquisa.

Dizem que o Opus 4.6, atualizado em fevereiro de 2026, teria 50% de chance de sucesso em problemas equivalentes ao trabalho de um especialista humano por 14,5 horas.

Achei o gráfico impressionante e resolvi postar porque penso que, no futuro, cada vez mais todo tipo de trabalho será automatizado e conduzido com base em IA.