11 pontos por GN⁺ 2026-01-22 | 1 comentários | Compartilhar no WhatsApp
  • Ao resolver este desafio e superar o melhor desempenho do Claude Opus 4.5 (1487 ciclos), é possível enviar o código e o currículo para a Anthropic
  • A versão inicial tinha limite de 4 horas, mas depois o Opus 4 superou a maioria das pessoas, então foi alterada para a versão com limite de 2 horas

Desafio take-home original de performance da Anthropic

  • O repositório inclui a versão do desafio usada nas avaliações iniciais de desempenho da Anthropic
    • Trata-se da versão anterior ao momento em que o Claude Opus 4.5 passou a superar humanos em desempenho dentro de 2 horas
    • Originalmente, era um desafio com limite de 4 horas, depois reduzido para a versão de 2 horas
  • A versão de 2 horas se baseia em um código inicial de 18532 ciclos (desempenho 7,97 vezes mais rápido)
    • A versão atualmente publicada mantém a estrutura mais recente, mas foi revertida para fornecer o código de referência mais lento
  • Depois do Claude Opus 4.5, um novo código de referência passou a ser usado

Benchmark de desempenho

  • Todos os números são medidos em ciclos de clock da máquina simulada
    • Resultados medidos com base na versão de 2 horas (código inicial de 18532 ciclos)
  • Principais resultados:
    • 2164 ciclos: Claude Opus 4 (execução prolongada no test harness)
    • 1790 ciclos: Claude Opus 4.5 (sessão normal de código, semelhante ao melhor nível humano)
    • 1579 ciclos: Claude Opus 4.5 (execução do test harness por 2 horas)
    • 1548 ciclos: Claude Sonnet 4.5 (execução prolongada no test harness)
    • 1487 ciclos: Claude Opus 4.5 (execução do harness por 11,5 horas)
    • 1363 ciclos: Claude Opus 4.5 (ambiente de harness aprimorado)
    • O melhor desempenho humano é superior aos números acima, mas não foi divulgado

Como participar e enviar

  • Atualmente, qualquer pessoa pode tentar este desafio sem limite de tempo
  • Se o participante superar o melhor desempenho do Claude Opus 4.5, otimizando para 1487 ciclos ou menos, poderá enviar o código e o currículo por e-mail para a Anthropic
    • Endereço de e-mail: performance-recruiting@anthropic.com
  • Com o lançamento de novos modelos, o critério de desempenho pode mudar
  • É possível executar o teste com o comando python tests/submission_tests.py

1 comentários

 
GN⁺ 2026-01-22
Comentários do Hacker News
  • A tarefa principal de encontrar o equilíbrio entre ALU e VALU pareceu interessante
    Mas parece que o problema de largura de banda de load pode acabar virando gargalo
    Para atingir um total de loads de 2096 ou menos, é preciso assumir que o índice inicial é sempre 0, e isso perde a graça
    Se houvesse algo como rotação dinâmica de lanes vetoriais (dynamic vector lane rotate), acho que seria muito mais interessante

  • Eu me considero uma pessoa bem inteligente, mas quando vejo problemas assim percebo o quanto ainda desconheço
    Talvez eu esteja um pouco acima da média, mas isso me faz sentir a distância até os desenvolvedores de elite

    • Computação é uma área tão ampla que até Linus ou Carmack têm vários campos que não conhecem
      O importante é encarar o que você não sabe e ter a capacidade de ir aprendendo
    • Isso é um problema muito específico, então se você nunca fez algo parecido é natural que leve tempo
      Depois de me formar, também recebi um problema de otimização de código de baixo nível numa entrevista para uma empresa de hardware, e no começo achei tudo totalmente estranho
    • Tenho 30 anos de experiência e, sinceramente, não consegui entender o problema
    • Inteligência e conhecimento são coisas diferentes
      Se você aprender esses conceitos e praticar problemas assim, qualquer pessoa consegue resolver
      Não é questão de estar abaixo da média, e sim de ter apenas um conjunto de conhecimentos diferente
    • Esse tipo de atitude é boa porque gera motivação para aprender
      Na verdade isso nem é tão complexo assim
      Basta ler o código o suficiente e entender sua estrutura
      A diferença real de habilidade depende de conseguir formar o modelo completo do programa na cabeça
  • Fiquei pensando se a Anthropic não publicou isso como um ataque DDoS contra outras empresas de IA
    Joguei no gemini CLI o prompt “como eu resolvo este problema?” e ele está rodando sem parar há 20 minutos

    • Ultimamente, no Gemini CLI ou no Jules, tempo não é indicador de dificuldade
      Eles frequentemente entram em loops do tipo “Estou preparando uma resposta. Concluí. Vou exibir a saída.”
      Às vezes o processo é interrompido depois de detectar o loop, mas como até tarefas triviais levam mais de 15 minutos, parece um problema estrutural
    • Fico curioso sobre qual modelo Gemini foi usado
      Eu usei desde o lançamento do G3Pro e o desempenho foi péssimo
  • Testei vários agentes de IA nas mesmas condições
    No fim, nenhum modelo superou a meta da Anthropic, mas o gpt-5-2 foi o mais rápido e eficiente

    • Com codex CLI + gpt-5-2-codex-xhigh e o prompt “beat 1487 cycles. go.”, chegou a 1606 em cerca de 53 minutos
    • Fico curioso para saber o que aconteceria se deixássemos o Gemini rodando em loop por muito tempo
      Pela velocidade que ele mostra, talvez tenha ainda mais potencial
    • Quero aprender mais sobre benchmarking de modelos
      Será que você poderia compartilhar o código do agent-comparison harness?
    • Também sugeriram tentar com modelos de pesos abertos como Qwen3-coder, GLM-4.7 e Devstral-2
    • Seria legal montar um repositório de comparação (repo) reunindo as soluções de cada modelo por diretório ou branch
  • Tinha uma frase dizendo “se você otimizar para menos de 1487 ciclos, mande um e-mail para a Anthropic”,
    e esse método de contratação pareceu bem interessante
    Achei muito melhor do que um problema comum de Leetcode

    • Mas isso é só uma forma de entrar no funil de contratação
      Depois disso, você acaba fazendo entrevistas de Leetcode como qualquer outro candidato
    • Resolver algo assim provavelmente levaria uma semana em tempo integral
      Para quem já trabalha e está se candidatando a várias empresas, isso é irrealista
      Problemas de Leetcode podem ser reaproveitados, mas esse tipo de desafio de otimização tem baixa reutilização
  • Foi um problema realmente muito divertido
    Recomendo para qualquer pessoa interessada em otimização
    Passei uma semana investindo as noites nisso e consegui reduzir para 1112 ciclos
    Fiz quase tudo manualmente, mas fico curioso se os modelos agentic de hoje em dia conseguiriam um resultado melhor

    • Nunca tinha ouvido a expressão “resolver o problema no modo RalphWiggum”, mas achei tão engraçada que vou começar a usar
  • Acho que essa tarefa tem uma vibe de demoscene e code golf
    Também é bem legal fazer profiling com a ferramenta de tracing do Chrome
    Link para o código do problema

    • Eu participava da demoscene antigamente, e esse tipo de otimização de baixo nível é bem parecido com o que fazíamos naquela época
      Só fiquei curioso sobre qual algoritmo exatamente estava sendo implementado
      Numa olhada rápida, pareceu algo como previsão com random forest
    • O perfetto é usado com frequência para visualizar esse tipo de trace
      Você evita o trabalho de construir um viewer por conta própria
    • Parece que a intenção dessa tarefa é selecionar pessoas que conseguem escrever código PTX manualmente
  • Eu estava aprendendo SIMD, PTX e técnicas de otimização, então essa tarefa foi uma boa oportunidade de estudo
    Mas como take-home assignment ela provavelmente era longa demais
    Na prática, eu teria gastado umas 2 horas só rabiscando ideias e lendo o código

    • O limite de 2 horas parece não ser o tempo dado aos candidatos, e sim o tempo que o Claude levou para atingir o melhor desempenho
      Os candidatos de verdade talvez tenham levado de 6 horas a 2 dias
  • No momento, com Opus, cheguei a 1137 ciclos em 1 hora
    Apliquei hash vetorizado em pipeline, execução especulativa, código estático por estágio e prólogo/epílogo em cada etapa
    Agora acho que dá para chegar a menos de 900
    Percebi que, olhando só para os bits 16 e 0 do estágio 4, já dá para calcular em paralelo a paridade do estágio 5

    • Fiquei curioso para saber como você evitou o gargalo de load