Anthropic divulga como open source o desafio take-home de avaliação de desempenho

(github.com/anthropics)

11 pontos por GN⁺ 2026-01-22 | 1 comentários | Compartilhar no WhatsApp

Ao resolver este desafio e superar o melhor desempenho do Claude Opus 4.5 (1487 ciclos), é possível enviar o código e o currículo para a Anthropic
A versão inicial tinha limite de 4 horas, mas depois o Opus 4 superou a maioria das pessoas, então foi alterada para a versão com limite de 2 horas

Desafio take-home original de performance da Anthropic

O repositório inclui a versão do desafio usada nas avaliações iniciais de desempenho da Anthropic
- Trata-se da versão anterior ao momento em que o Claude Opus 4.5 passou a superar humanos em desempenho dentro de 2 horas
- Originalmente, era um desafio com limite de 4 horas, depois reduzido para a versão de 2 horas
A versão de 2 horas se baseia em um código inicial de 18532 ciclos (desempenho 7,97 vezes mais rápido)
- A versão atualmente publicada mantém a estrutura mais recente, mas foi revertida para fornecer o código de referência mais lento
Depois do Claude Opus 4.5, um novo código de referência passou a ser usado

Benchmark de desempenho

Todos os números são medidos em ciclos de clock da máquina simulada
- Resultados medidos com base na versão de 2 horas (código inicial de 18532 ciclos)
Principais resultados:
- 2164 ciclos: Claude Opus 4 (execução prolongada no test harness)
- 1790 ciclos: Claude Opus 4.5 (sessão normal de código, semelhante ao melhor nível humano)
- 1579 ciclos: Claude Opus 4.5 (execução do test harness por 2 horas)
- 1548 ciclos: Claude Sonnet 4.5 (execução prolongada no test harness)
- 1487 ciclos: Claude Opus 4.5 (execução do harness por 11,5 horas)
- 1363 ciclos: Claude Opus 4.5 (ambiente de harness aprimorado)
- O melhor desempenho humano é superior aos números acima, mas não foi divulgado

Como participar e enviar

Atualmente, qualquer pessoa pode tentar este desafio sem limite de tempo
Se o participante superar o melhor desempenho do Claude Opus 4.5, otimizando para 1487 ciclos ou menos, poderá enviar o código e o currículo por e-mail para a Anthropic
- Endereço de e-mail: performance-recruiting@anthropic.com
Com o lançamento de novos modelos, o critério de desempenho pode mudar
É possível executar o teste com o comando python tests/submission_tests.py

1 comentários

GN⁺ 2026-01-22

Comentários do Hacker News

A tarefa principal de encontrar o equilíbrio entre ALU e VALU pareceu interessante
Mas parece que o problema de largura de banda de load pode acabar virando gargalo
Para atingir um total de loads de 2096 ou menos, é preciso assumir que o índice inicial é sempre 0, e isso perde a graça
Se houvesse algo como rotação dinâmica de lanes vetoriais (dynamic vector lane rotate), acho que seria muito mais interessante
Eu me considero uma pessoa bem inteligente, mas quando vejo problemas assim percebo o quanto ainda desconheço
Talvez eu esteja um pouco acima da média, mas isso me faz sentir a distância até os desenvolvedores de elite
- Computação é uma área tão ampla que até Linus ou Carmack têm vários campos que não conhecem
  O importante é encarar o que você não sabe e ter a capacidade de ir aprendendo
- Isso é um problema muito específico, então se você nunca fez algo parecido é natural que leve tempo
  Depois de me formar, também recebi um problema de otimização de código de baixo nível numa entrevista para uma empresa de hardware, e no começo achei tudo totalmente estranho
- Tenho 30 anos de experiência e, sinceramente, não consegui entender o problema
- Inteligência e conhecimento são coisas diferentes
  Se você aprender esses conceitos e praticar problemas assim, qualquer pessoa consegue resolver
  Não é questão de estar abaixo da média, e sim de ter apenas um conjunto de conhecimentos diferente
- Esse tipo de atitude é boa porque gera motivação para aprender
  Na verdade isso nem é tão complexo assim
  Basta ler o código o suficiente e entender sua estrutura
  A diferença real de habilidade depende de conseguir formar o modelo completo do programa na cabeça
Fiquei pensando se a Anthropic não publicou isso como um ataque DDoS contra outras empresas de IA
Joguei no gemini CLI o prompt “como eu resolvo este problema?” e ele está rodando sem parar há 20 minutos
- Ultimamente, no Gemini CLI ou no Jules, tempo não é indicador de dificuldade
  Eles frequentemente entram em loops do tipo “Estou preparando uma resposta. Concluí. Vou exibir a saída.”
  Às vezes o processo é interrompido depois de detectar o loop, mas como até tarefas triviais levam mais de 15 minutos, parece um problema estrutural
- Fico curioso sobre qual modelo Gemini foi usado
  Eu usei desde o lançamento do G3Pro e o desempenho foi péssimo
Testei vários agentes de IA nas mesmas condições
No fim, nenhum modelo superou a meta da Anthropic, mas o gpt-5-2 foi o mais rápido e eficiente
- Com codex CLI + gpt-5-2-codex-xhigh e o prompt “beat 1487 cycles. go.”, chegou a 1606 em cerca de 53 minutos
- Fico curioso para saber o que aconteceria se deixássemos o Gemini rodando em loop por muito tempo
  Pela velocidade que ele mostra, talvez tenha ainda mais potencial
- Quero aprender mais sobre benchmarking de modelos
  Será que você poderia compartilhar o código do agent-comparison harness?
- Também sugeriram tentar com modelos de pesos abertos como Qwen3-coder, GLM-4.7 e Devstral-2
- Seria legal montar um repositório de comparação (repo) reunindo as soluções de cada modelo por diretório ou branch
Tinha uma frase dizendo “se você otimizar para menos de 1487 ciclos, mande um e-mail para a Anthropic”,
e esse método de contratação pareceu bem interessante
Achei muito melhor do que um problema comum de Leetcode
- Mas isso é só uma forma de entrar no funil de contratação
  Depois disso, você acaba fazendo entrevistas de Leetcode como qualquer outro candidato
- Resolver algo assim provavelmente levaria uma semana em tempo integral
  Para quem já trabalha e está se candidatando a várias empresas, isso é irrealista
  Problemas de Leetcode podem ser reaproveitados, mas esse tipo de desafio de otimização tem baixa reutilização
Foi um problema realmente muito divertido
Recomendo para qualquer pessoa interessada em otimização
Passei uma semana investindo as noites nisso e consegui reduzir para 1112 ciclos
Fiz quase tudo manualmente, mas fico curioso se os modelos agentic de hoje em dia conseguiriam um resultado melhor
- Nunca tinha ouvido a expressão “resolver o problema no modo RalphWiggum”, mas achei tão engraçada que vou começar a usar
Acho que essa tarefa tem uma vibe de demoscene e code golf
Também é bem legal fazer profiling com a ferramenta de tracing do Chrome
Link para o código do problema
- Eu participava da demoscene antigamente, e esse tipo de otimização de baixo nível é bem parecido com o que fazíamos naquela época
  Só fiquei curioso sobre qual algoritmo exatamente estava sendo implementado
  Numa olhada rápida, pareceu algo como previsão com random forest
- O perfetto é usado com frequência para visualizar esse tipo de trace
  Você evita o trabalho de construir um viewer por conta própria
- Parece que a intenção dessa tarefa é selecionar pessoas que conseguem escrever código PTX manualmente
Eu estava aprendendo SIMD, PTX e técnicas de otimização, então essa tarefa foi uma boa oportunidade de estudo
Mas como take-home assignment ela provavelmente era longa demais
Na prática, eu teria gastado umas 2 horas só rabiscando ideias e lendo o código
- O limite de 2 horas parece não ser o tempo dado aos candidatos, e sim o tempo que o Claude levou para atingir o melhor desempenho
  Os candidatos de verdade talvez tenham levado de 6 horas a 2 dias
No momento, com Opus, cheguei a 1137 ciclos em 1 hora
Apliquei hash vetorizado em pipeline, execução especulativa, código estático por estágio e prólogo/epílogo em cada etapa
Agora acho que dá para chegar a menos de 900
Percebi que, olhando só para os bits 16 e 0 do estágio 4, já dá para calcular em paralelo a paridade do estágio 5
- Fiquei curioso para saber como você evitou o gargalo de load

Anthropic divulga como open source o desafio take-home de avaliação de desempenho

Desafio take-home original de performance da Anthropic

Benchmark de desempenho

Como participar e enviar

Leituras relacionadas

1 comentários

Comentários do Hacker News