Caveman - economize tokens do Claude/Codex com fala de homem das cavernas

(github.com/JuliusBrussee)

30 pontos por GN⁺ 24 일 전 | 2 comentários | Compartilhar no WhatsApp

Skill que força respostas em fala de homem das cavernas para reduzir em média 65~75% dos tokens de saída
Ajusta a intensidade da compressão em três níveis: Lite·Full·Ultra, gerando respostas curtas e eficientes sem perder a precisão técnica
Em benchmarks reais, explicações sobre React·PostgreSQL·Git tiveram o uso de tokens reduzido para menos da metade
Oferece ao mesmo tempo melhora de legibilidade, redução de custos e velocidade de resposta cerca de 3x maior
Pode ser instalado com um comando simples no Claude Code e no Codex, e continuar ativo ao longo de toda a sessão

Visão geral do Caveman

Plugin para Claude Code e Codex que converte as respostas do LLM em “fala de homem das cavernas (caveman-speak)” para reduzir o uso de tokens em cerca de 75%
Gera respostas curtas e eficientes removendo palavras desnecessárias sem perder a precisão técnica
A instalação pode ser feita com um comando de uma linha, e o uso continua disponível em todas as sessões
A redução afeta apenas os tokens de saída — tokens de pensamento/raciocínio não são impactados
Itens removidos:
- Saudações e introduções: "Sure, I'd be happy to help" (desperdício de 8 tokens)
- Introduções explicativas de causa: "The reason this is happening is because" (7 tokens)
- Expressões de recomendação: "I would recommend that you consider" (7 tokens)
- Aberturas prolixas: "Sure, let me take a look at that for you" (10 tokens)
Itens preservados: blocos de código, termos técnicos (como polymorphism), mensagens de erro, mensagens de commit e PR do git

Exemplos de Before / After

A mesma explicação técnica é expressa de forma compactada em frases curtas
- Explicação da causa de rerenderização de componente React: 69 tokens → 19 tokens
- Explicação de bug em middleware de autenticação: mais de 75% de redução de tokens
É possível ajustar a intensidade da compressão em três níveis: Lite / Full / Ultra
- Lite (/caveman lite): remove expressões desnecessárias, mas mantém a gramática — profissional, porém sem gordura
- Full (/caveman full): modo caveman padrão — omite artigos, usa frases curtas e fragmentadas
- Ultra (/caveman ultra): compressão máxima — estilo telegráfico, tudo abreviado

Benchmark

Comparação real de uso de tokens via Claude API mostrou redução média de 65%
Faixa de redução: 22%~87%
- Explicação de bug de rerenderização em React: 1.180 → 159 tokens (87% de redução)
- Configuração de pool de conexões no PostgreSQL: 2.347 → 380 tokens (84% de redução)
- Build multi-stage no Docker: 1.042 → 290 tokens (72% de redução)
- Explicação de git rebase vs merge: 702 → 292 tokens (58% de redução)
- Refatoração de callback → async/await: 387 → 301 tokens (22% de redução, efeito mínimo)
Apenas os tokens de saída diminuem; tokens de pensamento e raciocínio permanecem iguais
Os principais benefícios são melhora de legibilidade e aumento da velocidade de resposta; a redução de custo é um efeito adicional

Base científica

Artigo de março de 2026 "Brevity Constraints Reverse Performance Hierarchies in Language Models": ao forçar respostas concisas em modelos grandes, foi observada melhora de 26 pontos percentuais na acurácia em benchmarks específicos, além de inversão no ranking de desempenho
"Verbose not always better. Sometimes less word = more correct"
- Em alguns casos, respostas curtas podem ser mais corretas do que respostas prolixas

Como instalar

Instalação em uma linha: npx skills add JuliusBrussee/caveman
Plugin do Claude Code: claude plugin marketplace add JuliusBrussee/caveman
Codex: clone o repositório e procure/instale Caveman no menu /plugins
Gatilhos: /caveman, "talk like caveman", "caveman mode", "less tokens please"
Desativação: "stop caveman" ou "normal mode"
Uma instalação só → vale para toda a sessão depois disso

Como usar

Comandos de gatilho: /caveman, $caveman, “talk like caveman”, “caveman mode”, “less tokens please”
Comandos para encerrar: “stop caveman”, “normal mode”

Ajuste de intensidade

Level	Trigger	Característica
Lite	`/caveman lite`	Mantém a gramática, remove palavras desnecessárias
Full	`/caveman full`	Modo padrão, remove artigos e excessos
Ultra	`/caveman ultra`	Compressão máxima, expressão centrada em abreviações

A configuração é mantida até o fim da sessão
Licença MIT / Python 100% / suporte a plugins para Claude Code & Codex

2 comentários

joyfui 24 일 전

Estilo espartano por aqui também..? rsrs

GN⁺ 24 일 전

Comentários do Hacker News

Sou o autor. Algumas pessoas estão refutando uma afirmação mais forte do que a que este repositório realmente faz. Na verdade, isso foi feito como uma piada, não como um comentário de nível acadêmico
A ideia aqui não é reduzir hidden reasoning tokens, mas sim cortar o excesso no texto de saída. Isso não afeta o código em si
Acho que os modelos da Anthropic foram ajustados com RL o bastante para ser difícil degradar o desempenho de propósito de forma severa
O número “~75%” no README veio de testes preliminares, então eu deveria ter sido mais cauteloso. Agora estou preparando um benchmark formal
A skill não é gratuita; ao ser carregada, consome parte do contexto. Então a avaliação real precisa incluir tokens de entrada/saída, latência e qualidade
Também há pesquisas mostrando que prompts concisos podem reduzir o tamanho das respostas mantendo a qualidade (link do artigo)
Em resumo, é uma ideia interessante, mas houve muita interpretação exagerada, e o README precisa ser escrito com mais precisão até sair uma avaliação formal
- Parece razoável. Discussão online costuma mesmo ir nessa direção. Ainda assim, este fio está melhor que a média, embora às vezes decepcione
- Se você quer benchmark, recomendo olhar adam-s/testing-claude-agent
- Resumindo: “Isso é uma piada. Não fiquem bravos comigo. Mas talvez funcione um pouco?”
- Também tive uma conversa parecida com um LLM, e ele explicou que tende a responder curto a perguntas curtas e a dar respostas densas em informação a pedidos educados. No fim, a forma da pergunta influencia o estilo da resposta
  (E eu não entendo por que comentários relevantes assim continuam levando downvote)
- A frase “os modelos da Anthropic são otimizados para programação, então não dá para forçar uma queda de desempenho” é meio confusa.
  Se você acrescentar um prompt tipo “aja como um idiota”, claro que consegue piorar o desempenho. A questão é quanto um certo estilo de saída realmente impacta isso
Sempre achei que, quando um LLM é forçado a falar de um jeito diferente da sua voz padrão, a capacidade de raciocínio diminui.
Porque algumas camadas do modelo acabam tendo que se concentrar em “o que dizer” ou em “como dizer”
Em experimentos com ficção colaborativa ou roleplay, vi que quanto mais fatos o modelo precisa considerar, mais difícil fica manter o estilo
- Em compensação, se você disser “fale de forma tagarela”, a saída cresce muito. Instruções de personalidade realmente têm grande impacto
- Penso de forma parecida. No fim, o modelo tem um attention budget limitado, então há um limite para o que consegue fazer de uma vez
A ideia é divertida. Mas eu também queria ver a direção oposta: usar não tokens simples, e sim tokens ricos.
Por exemplo, usar algo como “improve idiomatically” em vez de “make good”. A linguagem é um modulador que ajusta a realidade, então um uso mais refinado talvez produza resultados melhores. Estou curioso pelo benchmark
- Esse estilo “caveman” me lembra a velha escrita de telegrama (telegram). Será que o modelo poderia aprender “tokens ricos” comprimidos, como num livro de abreviações de telegrama, e o navegador decodificá-los? link para livro de abreviações de telegrama
- Isso parece uma discussão de RISC vs CISC. Assim como a simplicidade venceu em escalabilidade, os LLMs também parecem evoluir na direção de pensar com conceitos simples e ortogonais
- Sugeriram tentar um prompt como “MILSPEC prose register. Max per-token semantic yield.”
Tentei falar com o Claude como um caveman, mas a compreensão caiu e houve muitos mal-entendidos. Acabei tendo que explicar mais, e se houver erro de digitação a perda de contexto é grande.
No fim, parece que acabam sendo necessárias mais palavras. Também dá a impressão de que o LLM extrai menos informação das próprias respostas anteriores
- Em fóruns comuns (Twitter, Reddit), as pessoas reclamam que o LLM é burro, mas quando você vê o estilo de escrita delas dá para entender o motivo
- Lá no começo do ChatGPT, já tentei conversar só em s-expression, e o modelo também respondia em s-expression. O conteúdo era uma bagunça, mas os parênteses batiam. Hoje isso não acontece mais
- “Por que falar muito? Falar pouco economiza tempo. Mundo oceano”
- A maior parte dos dados de fala “caveman” não envolve conversa científica, então o modelo parece não conseguir prever esse contexto
Vi um texto de Grug brained developer encontrando tooling de IA (grugbrain.dev)
- Eu também uso bastante o Grug como exemplo para fazer o LLM explicar conceitos
A ideia é interessante. Mas na minha empresa o desempenho é avaliado pelo consumo de tokens. Será que existe uma skill para deixar o Claude propositalmente mais prolixo?
- É só mandar ele explicar em estilo ELI5 em /tmp a cada loop
- Você está falando sério ou é piada? Por acaso trabalha na Nvidia?
Ideia fofa, mas na prática o gargalo são os tokens de entrada.
O modelo lê inúmeros arquivos, saídas de ferramentas e árvores de diretório, mas a saída são só algumas centenas de linhas de código e uma explicação breve
- Em um turno único, sim, mas ao acumular vários turnos a otimização da saída faz sentido.
  Aliás, a mesma ideia é transmitida mesmo sem “Cute idea, but” (link)
- Além disso, essa skill não afeta thinking tokens. Na verdade, para converter para o estilo caveman talvez até seja necessário mais raciocínio interno
Há também a pesquisa relacionada ‘Brevity Constraints Reverse Performance Hierarchies in Language Models’ (2026)
Interessante. Talvez também dê para descompactar a saída com um modelo 2B
Ou alguém já tentou isso, ou estou pensando em implementar eu mesmo
Se os LLMs conversassem em linguagem não humana em vez de linguagem humana, a eficiência poderia aumentar.
A estrutura seria: um pequeno modelo local traduz a entrada humana para uma linguagem amigável ao LLM, o modelo grande pensa nessa linguagem e depois traduz de volta
Modelos com janela de contexto pequena, como o Apple Fundamental Models, talvez pudessem servir como essa camada de tradução.
Também parece possível usar aprendizado por reforço para que esse tipo de linguagem seja descoberto automaticamente. Parece um projeto realmente divertido
- Pensei em algo parecido também. Seria ótimo criar uma linguagem própria para LLM e treinar o modelo nela, mas isso provavelmente exigiria algo como 60 a 100 milhões de dólares.
  Porque seria preciso criar uma linguagem e um método de treinamento completamente novos. Ainda assim, se alguém levantar investimento de VC, eu toparia participar

Caveman - economize tokens do Claude/Codex com fala de homem das cavernas

Visão geral do Caveman

Exemplos de Before / After

Benchmark

Base científica

Como instalar

Como usar

Leituras relacionadas

2 comentários

Comentários do Hacker News