Este é um benchmark em que o autor, um committer de Ruby, fez o Claude Code implementar um mini Git em 13 linguagens, medindo tempo, custo e número de linhas de código. Foram 600 execuções no total, 20 por linguagem, usando o modelo Claude Opus 4.6.
Os resultados mostraram que Ruby (US$ 0,36) → Python (US$ 0,38) → JavaScript (US$ 0,39) foram as opções mais rápidas e baratas, enquanto linguagens de tipagem estática foram de 1,4 a 2,6 vezes mais lentas e também custaram mais. Ao adicionar um verificador de tipos, Python/mypy ficou de 1,6 a 1,7 vezes mais lento, e Ruby/Steep de 2 a 3,2 vezes mais lento. OCaml e Haskell, apesar de terem menos linhas de código, consumiram muitos tokens de thinking e ficaram no grupo intermediário-inferior.
O autor enfatiza que “a diferença entre 30 e 60 segundos afeta a concentração e o fluxo de desenvolvimento, e a própria velocidade de desenvolvimento é uma dimensão da qualidade”. Ainda assim, ele acrescenta que há a limitação de se tratar de uma tarefa única em escala de prototipagem, e que em projetos maiores a tipagem estática pode ser vantajosa.
6 comentários
Parece que foi medido um agregado em que variáveis além das características da linguagem se misturaram. No GitHub há resultados do tempo gasto por experimento, mas não há logs de execução. É difícil verificar até mesmo o tempo gasto por subtarefa, que é o indicador mais comum, e, pelas características da saída de LLMs, a reprodução parece impossível.
O próprio autor reconhece, na seção de limitações, que se trata de um trabalho pontual na fase de protótipo. Ainda assim, no geral, considero que é um experimento com pouca transparência e sem controle adequado de variáveis.
Seria ótimo se comparassem várias linguagens por meio de um grande experimento,
mas um teste desse nível não costuma ser feito por empresas, e quando acaba sendo conduzido por alguém da comunidade, é difícil que seja um experimento preciso.
Procurei em vários lugares, mas não é fácil encontrar informações realmente boas.
O que também é natural, porque quem se disporia a gastar do próprio bolso para planejar direito e testar qual linguagem é melhor...
Eu também achei que era um experimento com muitas limitações, mas ainda assim gostei de poder ver pelo menos uma tentativa..^^
Aquela maldita Ruby
Se o autor do Ruby testou, então claro que vai dizer que Ruby é boa
Mas, por causa das características do Ruby, é inevitável que o consumo de tokens seja menor. Como ele é bom para escrever código de forma concisa, o consumo de tokens acaba diminuindo nesse aspecto, inclusive no número de tokens de saída.
Haha, é preciso considerar que posso estar sendo um pouco tendencioso por ser committer da linguagem Ruby.
Se fosse para perguntar em qual implementação eu mais confiaria… kkkkk