- Ao resolver este desafio e superar o melhor desempenho do Claude Opus 4.5 (1487 ciclos), é possível enviar o código e o currículo para a Anthropic
- A versão inicial tinha limite de 4 horas, mas depois o Opus 4 superou a maioria das pessoas, então foi alterada para a versão com limite de 2 horas
Desafio take-home original de performance da Anthropic
- O repositório inclui a versão do desafio usada nas avaliações iniciais de desempenho da Anthropic
- Trata-se da versão anterior ao momento em que o Claude Opus 4.5 passou a superar humanos em desempenho dentro de 2 horas
- Originalmente, era um desafio com limite de 4 horas, depois reduzido para a versão de 2 horas
- A versão de 2 horas se baseia em um código inicial de 18532 ciclos (desempenho 7,97 vezes mais rápido)
- A versão atualmente publicada mantém a estrutura mais recente, mas foi revertida para fornecer o código de referência mais lento
- Depois do Claude Opus 4.5, um novo código de referência passou a ser usado
Benchmark de desempenho
- Todos os números são medidos em ciclos de clock da máquina simulada
- Resultados medidos com base na versão de 2 horas (código inicial de 18532 ciclos)
- Principais resultados:
- 2164 ciclos: Claude Opus 4 (execução prolongada no test harness)
- 1790 ciclos: Claude Opus 4.5 (sessão normal de código, semelhante ao melhor nível humano)
- 1579 ciclos: Claude Opus 4.5 (execução do test harness por 2 horas)
- 1548 ciclos: Claude Sonnet 4.5 (execução prolongada no test harness)
- 1487 ciclos: Claude Opus 4.5 (execução do harness por 11,5 horas)
- 1363 ciclos: Claude Opus 4.5 (ambiente de harness aprimorado)
- O melhor desempenho humano é superior aos números acima, mas não foi divulgado
Como participar e enviar
- Atualmente, qualquer pessoa pode tentar este desafio sem limite de tempo
- Se o participante superar o melhor desempenho do Claude Opus 4.5, otimizando para 1487 ciclos ou menos, poderá enviar o código e o currículo por e-mail para a Anthropic
- Endereço de e-mail: performance-recruiting@anthropic.com
- Com o lançamento de novos modelos, o critério de desempenho pode mudar
- É possível executar o teste com o comando
python tests/submission_tests.py
1 comentários
Comentários do Hacker News
A tarefa principal de encontrar o equilíbrio entre ALU e VALU pareceu interessante
Mas parece que o problema de largura de banda de load pode acabar virando gargalo
Para atingir um total de loads de 2096 ou menos, é preciso assumir que o índice inicial é sempre 0, e isso perde a graça
Se houvesse algo como rotação dinâmica de lanes vetoriais (dynamic vector lane rotate), acho que seria muito mais interessante
Eu me considero uma pessoa bem inteligente, mas quando vejo problemas assim percebo o quanto ainda desconheço
Talvez eu esteja um pouco acima da média, mas isso me faz sentir a distância até os desenvolvedores de elite
O importante é encarar o que você não sabe e ter a capacidade de ir aprendendo
Depois de me formar, também recebi um problema de otimização de código de baixo nível numa entrevista para uma empresa de hardware, e no começo achei tudo totalmente estranho
Se você aprender esses conceitos e praticar problemas assim, qualquer pessoa consegue resolver
Não é questão de estar abaixo da média, e sim de ter apenas um conjunto de conhecimentos diferente
Na verdade isso nem é tão complexo assim
Basta ler o código o suficiente e entender sua estrutura
A diferença real de habilidade depende de conseguir formar o modelo completo do programa na cabeça
Fiquei pensando se a Anthropic não publicou isso como um ataque DDoS contra outras empresas de IA
Joguei no gemini CLI o prompt “como eu resolvo este problema?” e ele está rodando sem parar há 20 minutos
Eles frequentemente entram em loops do tipo “Estou preparando uma resposta. Concluí. Vou exibir a saída.”
Às vezes o processo é interrompido depois de detectar o loop, mas como até tarefas triviais levam mais de 15 minutos, parece um problema estrutural
Eu usei desde o lançamento do G3Pro e o desempenho foi péssimo
Testei vários agentes de IA nas mesmas condições
No fim, nenhum modelo superou a meta da Anthropic, mas o gpt-5-2 foi o mais rápido e eficiente
Pela velocidade que ele mostra, talvez tenha ainda mais potencial
Será que você poderia compartilhar o código do agent-comparison harness?
Tinha uma frase dizendo “se você otimizar para menos de 1487 ciclos, mande um e-mail para a Anthropic”,
e esse método de contratação pareceu bem interessante
Achei muito melhor do que um problema comum de Leetcode
Depois disso, você acaba fazendo entrevistas de Leetcode como qualquer outro candidato
Para quem já trabalha e está se candidatando a várias empresas, isso é irrealista
Problemas de Leetcode podem ser reaproveitados, mas esse tipo de desafio de otimização tem baixa reutilização
Foi um problema realmente muito divertido
Recomendo para qualquer pessoa interessada em otimização
Passei uma semana investindo as noites nisso e consegui reduzir para 1112 ciclos
Fiz quase tudo manualmente, mas fico curioso se os modelos agentic de hoje em dia conseguiriam um resultado melhor
Acho que essa tarefa tem uma vibe de demoscene e code golf
Também é bem legal fazer profiling com a ferramenta de tracing do Chrome
Link para o código do problema
Só fiquei curioso sobre qual algoritmo exatamente estava sendo implementado
Numa olhada rápida, pareceu algo como previsão com random forest
Você evita o trabalho de construir um viewer por conta própria
Eu estava aprendendo SIMD, PTX e técnicas de otimização, então essa tarefa foi uma boa oportunidade de estudo
Mas como take-home assignment ela provavelmente era longa demais
Na prática, eu teria gastado umas 2 horas só rabiscando ideias e lendo o código
Os candidatos de verdade talvez tenham levado de 6 horas a 2 dias
No momento, com Opus, cheguei a 1137 ciclos em 1 hora
Apliquei hash vetorizado em pipeline, execução especulativa, código estático por estágio e prólogo/epílogo em cada etapa
Agora acho que dá para chegar a menos de 900
Percebi que, olhando só para os bits 16 e 0 do estágio 4, já dá para calcular em paralelo a paridade do estágio 5