18 pontos por happyhaki 19 일 전 | 2 comentários | Compartilhar no WhatsApp

oh-my-free-models (omfm) é um proxy local que roteia agentes de código para o modelo mais rápido do momento entre vários providers gratuitos. Basta trocar o baseURL de um agente compatível com OpenAI ou Anthropic para localhost e selecionar alguns modelos gratuitos; mesmo enquanto latency, rate limit e quota oscilam, o omfm continua encaminhando as requisições.

Por que isso é necessário?

Agentes de código no free tier parecem normais na ficha técnica, mas na prática travam em quatro pontos.

  • O rate limit interrompe no meio do trabalho. Modelos gratuitos da OpenRouter ou NVIDIA retornam 429 sem aviso. Uma execução que estava funcionando para após uma única chamada de ferramenta, e alguém precisa tentar de novo manualmente.

  • A latency oscila conforme o horário. O mesmo modelo gratuito pode ser rápido de manhã e lento a ponto de ficar inutilizável à tarde. Como isso varia por horário e região, não dá para definir antes qual é o “modelo rápido”. Só existe o “modelo rápido neste exato momento”.

  • Quando a quota acaba, é preciso trocar de provider manualmente. Quando a quota gratuita de um provider termina, você precisa trocar a chave e o baseURL por conta própria. A configuração do agente não acompanha essa mudança sozinha.

  • O catálogo gratuito muda com frequência. Modelos aparecem, desaparecem, recebem marcação de deprecated e começam silenciosamente a retornar erro. Você não descobre isso pelo dashboard, e sim quando bate na parede.

Principais recursos

  • Roteamento de requisições para o live model com a menor latency atual dentro do pool de modelos gratuitos selecionado
  • Modelos que retornarem erros de rate limit ou quota, como 429/402, entram em cooldown por cerca de 10 minutos
  • Endpoints compatíveis com OpenAI em /v1 e compatíveis com Anthropic em /anthropic
  • Pode ser usado em clientes compatíveis com OpenAI como OpenClaw, Hermes Agent e OpenCode com url=http://localhost:4567/v1 e model=omfm
  • No Claude Code, é possível usar trocando a base URL da Anthropic para http://localhost:4567/anthropic
  • Separação de pools de modelos por uso com os grupos omfm/fast, omfm/balanced e omfm/capable
  • CLI com comandos como omfm model, omfm start, omfm status, omfm doctor e omfm usage

É especialmente útil para agentes locais/CLI de código que aceitam endpoint compatível com OpenAI, como OpenClaw ou Hermes Agent. Mantendo a configuração do agente como está e trocando apenas a base URL e o model para omfm, a medição de latency dos modelos gratuitos, a exclusão de modelos com falha e a troca de provider passam a acontecer automaticamente nos bastidores.

2 comentários

 
channprj 14 일 전

Projeto interessante. O 9router me veio brevemente à mente, mas achei interessante porque parece ser mais especializado em modelos gratuitos. Obrigado pelo ótimo produto.

https://9router.com

 
happyhaki 14 일 전

Nossa, que legal isso existir. Obrigado por compartilhar. Eu pensei no LiteLLM, mas no momento em que você coloca provedores pagos no omfm, parece que deixa de ter diferença, então quero manter só modelos gratuitos.