oh-my-free-models - proxy local que roteia agentes de código para o modelo gratuito mais rápido do momento
(github.com/hakilee)oh-my-free-models (omfm) é um proxy local que roteia agentes de código para o modelo mais rápido do momento entre vários providers gratuitos. Basta trocar o baseURL de um agente compatível com OpenAI ou Anthropic para localhost e selecionar alguns modelos gratuitos; mesmo enquanto latency, rate limit e quota oscilam, o omfm continua encaminhando as requisições.
Por que isso é necessário?
Agentes de código no free tier parecem normais na ficha técnica, mas na prática travam em quatro pontos.
-
O rate limit interrompe no meio do trabalho. Modelos gratuitos da OpenRouter ou NVIDIA retornam 429 sem aviso. Uma execução que estava funcionando para após uma única chamada de ferramenta, e alguém precisa tentar de novo manualmente.
-
A latency oscila conforme o horário. O mesmo modelo gratuito pode ser rápido de manhã e lento a ponto de ficar inutilizável à tarde. Como isso varia por horário e região, não dá para definir antes qual é o “modelo rápido”. Só existe o “modelo rápido neste exato momento”.
-
Quando a quota acaba, é preciso trocar de provider manualmente. Quando a quota gratuita de um provider termina, você precisa trocar a chave e o
baseURLpor conta própria. A configuração do agente não acompanha essa mudança sozinha. -
O catálogo gratuito muda com frequência. Modelos aparecem, desaparecem, recebem marcação de deprecated e começam silenciosamente a retornar erro. Você não descobre isso pelo dashboard, e sim quando bate na parede.
Principais recursos
- Roteamento de requisições para o live model com a menor latency atual dentro do pool de modelos gratuitos selecionado
- Modelos que retornarem erros de rate limit ou quota, como 429/402, entram em cooldown por cerca de 10 minutos
- Endpoints compatíveis com OpenAI em
/v1e compatíveis com Anthropic em/anthropic - Pode ser usado em clientes compatíveis com OpenAI como OpenClaw, Hermes Agent e OpenCode com
url=http://localhost:4567/v1emodel=omfm - No Claude Code, é possível usar trocando a base URL da Anthropic para
http://localhost:4567/anthropic - Separação de pools de modelos por uso com os grupos
omfm/fast,omfm/balancedeomfm/capable - CLI com comandos como
omfm model,omfm start,omfm status,omfm doctoreomfm usage
É especialmente útil para agentes locais/CLI de código que aceitam endpoint compatível com OpenAI, como OpenClaw ou Hermes Agent. Mantendo a configuração do agente como está e trocando apenas a base URL e o model para omfm, a medição de latency dos modelos gratuitos, a exclusão de modelos com falha e a troca de provider passam a acontecer automaticamente nos bastidores.
2 comentários
Projeto interessante. O 9router me veio brevemente à mente, mas achei interessante porque parece ser mais especializado em modelos gratuitos. Obrigado pelo ótimo produto.
https://9router.com
Nossa, que legal isso existir. Obrigado por compartilhar. Eu pensei no LiteLLM, mas no momento em que você coloca provedores pagos no omfm, parece que deixa de ter diferença, então quero manter só modelos gratuitos.