9 pontos por princox 2026-03-07 | 6 comentários | Compartilhar no WhatsApp

Este é um benchmark em que o autor, um committer de Ruby, fez o Claude Code implementar um mini Git em 13 linguagens, medindo tempo, custo e número de linhas de código. Foram 600 execuções no total, 20 por linguagem, usando o modelo Claude Opus 4.6.

Os resultados mostraram que Ruby (US$ 0,36) → Python (US$ 0,38) → JavaScript (US$ 0,39) foram as opções mais rápidas e baratas, enquanto linguagens de tipagem estática foram de 1,4 a 2,6 vezes mais lentas e também custaram mais. Ao adicionar um verificador de tipos, Python/mypy ficou de 1,6 a 1,7 vezes mais lento, e Ruby/Steep de 2 a 3,2 vezes mais lento. OCaml e Haskell, apesar de terem menos linhas de código, consumiram muitos tokens de thinking e ficaram no grupo intermediário-inferior.

O autor enfatiza que “a diferença entre 30 e 60 segundos afeta a concentração e o fluxo de desenvolvimento, e a própria velocidade de desenvolvimento é uma dimensão da qualidade”. Ainda assim, ele acrescenta que há a limitação de se tratar de uma tarefa única em escala de prototipagem, e que em projetos maiores a tipagem estática pode ser vantajosa.

6 comentários

 
savvykang 2026-03-08

Parece que foi medido um agregado em que variáveis além das características da linguagem se misturaram. No GitHub há resultados do tempo gasto por experimento, mas não há logs de execução. É difícil verificar até mesmo o tempo gasto por subtarefa, que é o indicador mais comum, e, pelas características da saída de LLMs, a reprodução parece impossível.

O próprio autor reconhece, na seção de limitações, que se trata de um trabalho pontual na fase de protótipo. Ainda assim, no geral, considero que é um experimento com pouca transparência e sem controle adequado de variáveis.

 
princox 2026-03-09

Seria ótimo se comparassem várias linguagens por meio de um grande experimento,
mas um teste desse nível não costuma ser feito por empresas, e quando acaba sendo conduzido por alguém da comunidade, é difícil que seja um experimento preciso.

Procurei em vários lugares, mas não é fácil encontrar informações realmente boas.

O que também é natural, porque quem se disporia a gastar do próprio bolso para planejar direito e testar qual linguagem é melhor...

Eu também achei que era um experimento com muitas limitações, mas ainda assim gostei de poder ver pelo menos uma tentativa..^^

 
happing94 2026-03-07

Aquela maldita Ruby
Se o autor do Ruby testou, então claro que vai dizer que Ruby é boa

 
spp00 2026-03-08

Mas, por causa das características do Ruby, é inevitável que o consumo de tokens seja menor. Como ele é bom para escrever código de forma concisa, o consumo de tokens acaba diminuindo nesse aspecto, inclusive no número de tokens de saída.

 
princox 2026-03-09

Haha, é preciso considerar que posso estar sendo um pouco tendencioso por ser committer da linguagem Ruby.

 
skageektp 2026-03-07

Se fosse para perguntar em qual implementação eu mais confiaria… kkkkk