ClawWork — framework de benchmark que transforma assistentes de IA em “colegas de trabalho de IA com responsabilidade econômica”

(github.com/HKUDS)

5 pontos por princox 2026-02-19 | Ainda não há comentários. | Compartilhar no WhatsApp

É um projeto open source divulgado em fevereiro de 2026 pela equipe de pesquisa da Universidade de Hong Kong (HKUDS). É um sistema que usa o dataset GDPVal da OpenAI para verificar se agentes de IA conseguem realmente ganhar dinheiro. Em vez de apenas medir o desempenho de chatbots, ele avalia, do ponto de vista da sobrevivência econômica, se a IA consegue executar trabalho profissional real e gerar receita.

Ideia central: pressão de sobrevivência econômica

O agente começa com $10. A cada chamada ao LLM, o custo real de tokens é descontado, e ele só recebe receita se concluir o trabalho. Todos os dias, o agente escolhe entre duas opções: trabalhar (work) para obter renda imediata ou aprender (learn) para melhorar o desempenho no longo prazo. O cálculo da remuneração também é realista.

Payment = pontuação de qualidade (0.0~1.0) × (tempo estimado necessário × salário oficial por hora do BLS)

A faixa de valor das tarefas vai de $82 a $5,004, com média de cerca de $259.

Benchmark: dataset GDPVal
Ele usa o dataset GDPVal, criado pela OpenAI para medir a contribuição da IA ao PIB. O conjunto é composto por 44 ocupações e 220 tarefas reais de trabalho, cobrindo 4 domínios: tecnologia e engenharia, negócios e finanças, saúde, e jurídico e operações. Os resultados das tarefas exigem o envio de arquivos reais, como Word, Excel, PDF e relatórios de análise de dados, e a qualidade recebe nota com avaliação de LLM baseada em GPT-4o.

Estrutura

É uma estrutura leve construída sobre o Nanobot, e as ferramentas do agente incluem busca na web, criação de arquivos (.docx/.xlsx/.pdf), execução de código Python (sandbox isolado E2B), geração de vídeo e mais. Em um dashboard React em tempo real, é possível monitorar visualmente mudanças no saldo, conclusão de tarefas e progresso do aprendizado. Também há suporte à integração com 9 canais, incluindo Telegram, Discord e Slack.

Limitações

O “$10K in 7 hours” do título corresponde a um ganho equivalente em um ambiente de simulação isolado, e a própria avaliação também é feita pelo GPT-4o. É preciso levar em conta que se trata de uma estrutura em que um modelo da OpenAI é avaliado por um avaliador baseado em OpenAI. Como foi lançado há pouco tempo, a validação da comunidade ainda é limitada. Ainda assim, a proposta de avaliar IA não pela “precisão”, mas pela “sobrevivência econômica”, é interessante.

ClawWork — framework de benchmark que transforma assistentes de IA em “colegas de trabalho de IA com responsabilidade econômica”

Ideia central: pressão de sobrevivência econômica

Estrutura

Limitações

Leituras relacionadas

Ainda não há comentários.