Caveman - economize tokens do Claude/Codex com fala de homem das cavernas
(github.com/JuliusBrussee)- Skill que força respostas em fala de homem das cavernas para reduzir em média 65~75% dos tokens de saída
- Ajusta a intensidade da compressão em três níveis: Lite·Full·Ultra, gerando respostas curtas e eficientes sem perder a precisão técnica
- Em benchmarks reais, explicações sobre React·PostgreSQL·Git tiveram o uso de tokens reduzido para menos da metade
- Oferece ao mesmo tempo melhora de legibilidade, redução de custos e velocidade de resposta cerca de 3x maior
- Pode ser instalado com um comando simples no Claude Code e no Codex, e continuar ativo ao longo de toda a sessão
Visão geral do Caveman
- Plugin para Claude Code e Codex que converte as respostas do LLM em “fala de homem das cavernas (caveman-speak)” para reduzir o uso de tokens em cerca de 75%
- Gera respostas curtas e eficientes removendo palavras desnecessárias sem perder a precisão técnica
- A instalação pode ser feita com um comando de uma linha, e o uso continua disponível em todas as sessões
- A redução afeta apenas os tokens de saída — tokens de pensamento/raciocínio não são impactados
- Itens removidos:
- Saudações e introduções: "Sure, I'd be happy to help" (desperdício de 8 tokens)
- Introduções explicativas de causa: "The reason this is happening is because" (7 tokens)
- Expressões de recomendação: "I would recommend that you consider" (7 tokens)
- Aberturas prolixas: "Sure, let me take a look at that for you" (10 tokens)
- Itens preservados: blocos de código, termos técnicos (como polymorphism), mensagens de erro, mensagens de commit e PR do git
Exemplos de Before / After
- A mesma explicação técnica é expressa de forma compactada em frases curtas
- Explicação da causa de rerenderização de componente React: 69 tokens → 19 tokens
- Explicação de bug em middleware de autenticação: mais de 75% de redução de tokens
- É possível ajustar a intensidade da compressão em três níveis: Lite / Full / Ultra
- Lite (
/caveman lite): remove expressões desnecessárias, mas mantém a gramática — profissional, porém sem gordura - Full (
/caveman full): modo caveman padrão — omite artigos, usa frases curtas e fragmentadas - Ultra (
/caveman ultra): compressão máxima — estilo telegráfico, tudo abreviado
- Lite (
Benchmark
- Comparação real de uso de tokens via Claude API mostrou redução média de 65%
- Faixa de redução: 22%~87%
- Explicação de bug de rerenderização em React: 1.180 → 159 tokens (87% de redução)
- Configuração de pool de conexões no PostgreSQL: 2.347 → 380 tokens (84% de redução)
- Build multi-stage no Docker: 1.042 → 290 tokens (72% de redução)
- Explicação de git rebase vs merge: 702 → 292 tokens (58% de redução)
- Refatoração de callback → async/await: 387 → 301 tokens (22% de redução, efeito mínimo)
- Apenas os tokens de saída diminuem; tokens de pensamento e raciocínio permanecem iguais
- Os principais benefícios são melhora de legibilidade e aumento da velocidade de resposta; a redução de custo é um efeito adicional
Base científica
- Artigo de março de 2026 "Brevity Constraints Reverse Performance Hierarchies in Language Models": ao forçar respostas concisas em modelos grandes, foi observada melhora de 26 pontos percentuais na acurácia em benchmarks específicos, além de inversão no ranking de desempenho
- "Verbose not always better. Sometimes less word = more correct"
- Em alguns casos, respostas curtas podem ser mais corretas do que respostas prolixas
Como instalar
- Instalação em uma linha:
npx skills add JuliusBrussee/caveman - Plugin do Claude Code:
claude plugin marketplace add JuliusBrussee/caveman - Codex: clone o repositório e procure/instale Caveman no menu
/plugins - Gatilhos:
/caveman, "talk like caveman", "caveman mode", "less tokens please" - Desativação: "stop caveman" ou "normal mode"
- Uma instalação só → vale para toda a sessão depois disso
Como usar
-
Comandos de gatilho:
/caveman,$caveman, “talk like caveman”, “caveman mode”, “less tokens please” -
Comandos para encerrar: “stop caveman”, “normal mode”
-
Ajuste de intensidade
Level Trigger Característica Lite /caveman liteMantém a gramática, remove palavras desnecessárias Full /caveman fullModo padrão, remove artigos e excessos Ultra /caveman ultraCompressão máxima, expressão centrada em abreviações -
A configuração é mantida até o fim da sessão
-
Licença MIT / Python 100% / suporte a plugins para Claude Code & Codex
2 comentários
Estilo espartano por aqui também..? rsrs
Comentários do Hacker News
Sou o autor. Algumas pessoas estão refutando uma afirmação mais forte do que a que este repositório realmente faz. Na verdade, isso foi feito como uma piada, não como um comentário de nível acadêmico
A ideia aqui não é reduzir hidden reasoning tokens, mas sim cortar o excesso no texto de saída. Isso não afeta o código em si
Acho que os modelos da Anthropic foram ajustados com RL o bastante para ser difícil degradar o desempenho de propósito de forma severa
O número “~75%” no README veio de testes preliminares, então eu deveria ter sido mais cauteloso. Agora estou preparando um benchmark formal
A skill não é gratuita; ao ser carregada, consome parte do contexto. Então a avaliação real precisa incluir tokens de entrada/saída, latência e qualidade
Também há pesquisas mostrando que prompts concisos podem reduzir o tamanho das respostas mantendo a qualidade (link do artigo)
Em resumo, é uma ideia interessante, mas houve muita interpretação exagerada, e o README precisa ser escrito com mais precisão até sair uma avaliação formal
(E eu não entendo por que comentários relevantes assim continuam levando downvote)
Se você acrescentar um prompt tipo “aja como um idiota”, claro que consegue piorar o desempenho. A questão é quanto um certo estilo de saída realmente impacta isso
Sempre achei que, quando um LLM é forçado a falar de um jeito diferente da sua voz padrão, a capacidade de raciocínio diminui.
Porque algumas camadas do modelo acabam tendo que se concentrar em “o que dizer” ou em “como dizer”
Em experimentos com ficção colaborativa ou roleplay, vi que quanto mais fatos o modelo precisa considerar, mais difícil fica manter o estilo
A ideia é divertida. Mas eu também queria ver a direção oposta: usar não tokens simples, e sim tokens ricos.
Por exemplo, usar algo como “improve idiomatically” em vez de “make good”. A linguagem é um modulador que ajusta a realidade, então um uso mais refinado talvez produza resultados melhores. Estou curioso pelo benchmark
Tentei falar com o Claude como um caveman, mas a compreensão caiu e houve muitos mal-entendidos. Acabei tendo que explicar mais, e se houver erro de digitação a perda de contexto é grande.
No fim, parece que acabam sendo necessárias mais palavras. Também dá a impressão de que o LLM extrai menos informação das próprias respostas anteriores
Vi um texto de Grug brained developer encontrando tooling de IA (grugbrain.dev)
A ideia é interessante. Mas na minha empresa o desempenho é avaliado pelo consumo de tokens. Será que existe uma skill para deixar o Claude propositalmente mais prolixo?
/tmpa cada loopIdeia fofa, mas na prática o gargalo são os tokens de entrada.
O modelo lê inúmeros arquivos, saídas de ferramentas e árvores de diretório, mas a saída são só algumas centenas de linhas de código e uma explicação breve
Aliás, a mesma ideia é transmitida mesmo sem “Cute idea, but” (link)
Há também a pesquisa relacionada ‘Brevity Constraints Reverse Performance Hierarchies in Language Models’ (2026)
Interessante. Talvez também dê para descompactar a saída com um modelo 2B
Ou alguém já tentou isso, ou estou pensando em implementar eu mesmo
Se os LLMs conversassem em linguagem não humana em vez de linguagem humana, a eficiência poderia aumentar.
A estrutura seria: um pequeno modelo local traduz a entrada humana para uma linguagem amigável ao LLM, o modelo grande pensa nessa linguagem e depois traduz de volta
Modelos com janela de contexto pequena, como o Apple Fundamental Models, talvez pudessem servir como essa camada de tradução.
Também parece possível usar aprendizado por reforço para que esse tipo de linguagem seja descoberto automaticamente. Parece um projeto realmente divertido
Porque seria preciso criar uma linguagem e um método de treinamento completamente novos. Ainda assim, se alguém levantar investimento de VC, eu toparia participar