Plataforma de IA da Cloudflare: uma camada de inferência para agentes
(blog.cloudflare.com)- Constrói uma camada de inferência unificada que reduz a complexidade de aplicações agentic ao integrar diversos modelos e provedores
- Com AI Gateway e Workers AI, é possível chamar mais de 70 modelos e 12 provedores por meio de uma única API, com gerenciamento centralizado de custos e uso
- Oferece execução de modelos em contêiner para permitir a implantação direta de modelos personalizados, usando a tecnologia Cog da Replicate
- Usa a infraestrutura em 330 cidades no mundo para minimizar a latência e garante inferência estável com roteamento automático em caso de falhas
- A equipe da Replicate se juntou à Cloudflare para integrar totalmente hospedagem e implantação de modelos, expandindo para uma plataforma única para desenvolvimento de agentes
Visão geral da Cloudflare AI Platform
- Com as rápidas mudanças nos modelos de IA e as diferenças entre provedores, cresce a complexidade de aplicações agentic que combinam vários modelos
- Por exemplo, um agente de suporte ao cliente pode usar um modelo rápido para classificar mensagens, um modelo grande para planejamento e um modelo leve para execução
- Há a necessidade de gerenciar de forma unificada custo, confiabilidade e latência sem ficar preso a um único provedor
- A Cloudflare construiu uma camada de inferência unificada baseada em AI Gateway e Workers AI, capaz de chamar todos os modelos por uma única API
- Recentemente, adicionou reformulação do dashboard, configuração automática do gateway padrão, repetição automática em falhas upstream e controles mais granulares de logging
Um catálogo, um endpoint unificado
- Por meio do binding AI.run(), é possível chamar diretamente modelos de terceiros (OpenAI, Anthropic etc.) a partir do Cloudflare Workers
- Ao trocar de um modelo hospedado pela Cloudflare para um modelo de terceiros, basta alterar uma linha de código
- O suporte a REST API também será disponibilizado em breve, permitindo acessar todo o catálogo de modelos em qualquer ambiente
- Mais de 70 modelos e 12 provedores disponíveis com uma única API e uma única unidade de cobrança
- Principais provedores: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- É possível criar aplicações multimodais, incluindo modelos de imagem, vídeo e voz
- Todas as chamadas de modelo são unificadas em uma única API, permitindo gerenciar centralmente o uso de IA e os custos
- Em média, empresas estão chamando 3,5 modelos de vários provedores, mas o AI Gateway permite acompanhar isso em um único dashboard
- É possível incluir metadados personalizados nas requisições para analisar custos por cliente e por workflow
Implantação direta de modelos do usuário (Bring Your Own Model)
- O AI Gateway integra modelos de todos os provedores, mas também está se preparando para permitir a implantação direta de modelos ajustados com dados do usuário
- Hoje, clientes enterprise já executam modelos customizados em instâncias dedicadas, e isso será expandido para usuários em geral
- A Cloudflare usa a tecnologia Cog da Replicate para conteinerizar modelos de machine learning
- Defina as dependências no arquivo
cog.yamle escreva o código de inferência no arquivopredict.py, e o empacotamento é feito automaticamente - O Cog abstrai configurações complexas como CUDA, versões de Python e carregamento de pesos
- Defina as dependências no arquivo
- Depois de gerar a imagem de contêiner com o comando
cog builde enviá-la ao Workers AI, a Cloudflare cuida da implantação e da operação do serviço- No futuro, estão previstos comandos do wrangler, cold start rápido baseado em snapshots de GPU e API para clientes
- Está em teste com clientes internos e alguns externos, com plano de expansão para que qualquer pessoa possa usar seus próprios modelos no Workers AI
Otimização da velocidade até o primeiro token
- A combinação de AI Gateway + Workers AI é especialmente vantajosa para agentes ao vivo, em que respostas em tempo real são importantes
- Mesmo que o tempo total de inferência seja de 3 segundos, receber o primeiro token 50 ms antes melhora a percepção de velocidade do usuário
- A Cloudflare minimiza a latência de rede entre o usuário e o endpoint de inferência por meio de data centers em 330 cidades no mundo
- O Workers AI hospeda modelos open source especializados em agentes, como Kimi K2.5 e modelos de voz em tempo real
- Quando chamados via AI Gateway, o código e a inferência são executados na mesma rede, alcançando a menor latência
Confiabilidade baseada em failover automático
- Workflows de agentes têm alta dependência entre etapas, então a estabilidade da inferência é essencial
- Se o mesmo modelo existir em vários provedores, o AI Gateway roteia automaticamente para outro provedor quando um deles falha
- O desenvolvedor não precisa escrever lógica separada para tratamento de falhas
- No caso de agentes de longa execução que usam o Agents SDK, a inferência em streaming pode ser restaurada mesmo após desconexões
- O AI Gateway faz buffering independente das respostas em streaming, permitindo reutilizar a mesma resposta após reconexão em caso de interrupção
- Os mesmos tokens são restaurados sem cobrança duplicada e, quando combinados com o recurso de checkpoint do SDK, a interrupção não é percebida pelo usuário
Integração com a Replicate
- A equipe da Replicate se juntou à equipe da Cloudflare AI Platform e a integração total está em andamento
- Todos os modelos da Replicate serão migrados para o AI Gateway, e os modelos hospedados serão replataformados na infraestrutura da Cloudflare
- Os usuários poderão chamar modelos existentes da Replicate pelo AI Gateway ou hospedar no Workers AI modelos implantados na Replicate
Como começar
- Desenvolvedores podem começar pela documentação do AI Gateway ou pela documentação do Workers AI
- Também é possível criar agentes na Cloudflare por meio do Agents SDK
O papel da Cloudflare
- A Cloudflare, como connectivity cloud, oferece proteção para redes corporativas, construção de aplicações em larga escala, aceleração de performance web e suporte a defesa contra DDoS e segurança Zero Trust
- O app gratuito 1.1.1.1 permite uma internet mais rápida e segura
- A missão da Cloudflare é ajudar a construir uma internet melhor, e mais informações e vagas podem ser encontradas no site oficial
1 comentários
Comentários do Hacker News
No fim das contas, isso parece ser openrouter com Cloudflare Argo networking acoplado
Parece que daria para construir algo mais interessante aproveitando a aquisição da Replicate
RL específico por aplicação está melhorando cada vez mais, mas faltam formas de implantar isso de maneira escalável
Lugares como a Fireworks dizem que fazem implantação escalável de LORA, mas na prática não funciona bem
Então, por enquanto, estou hospedando a carga base do meu app por conta própria com várias 3090 na garagem. É engraçado, mas isso me economiza 1 mil dólares por mês
Isso parece bem útil. A Cloudflare está reunindo boas ferramentas
Especialmente o D2, que é praticamente o único sqlite-as-a-service, com boa estabilidade e limites generosos no plano gratuito
Para vincular um novo DB, é preciso reimplantar o Worker, então na prática isso é inviável
As consultas travavam por alguns segundos, às vezes por dezenas de segundos, na camada de rede interna
Algumas consultas nem apareciam no painel de observabilidade, então você nem percebe o problema sem implementar sua própria detecção de timeout
Também não há suporte a transações, e numa thread de issue um PM disse que não há planos de implementar isso
Para garantir consistência dos dados, é preciso usar Durable Object, o que traz outros custos e trade-offs
A ideia é boa, mas é difícil confiar para produção; para projetos hobby, tudo bem
Hoje isso só é possível com código customizado em um Worker
É difícil entender querer construir um OpenRouter e ao mesmo tempo só dar suporte a bindings do próprio runtime
A lista de modelos do Workers AI e o
catálogo de modelos de IA têm conjuntos de modelos diferentes
No namespace “workers-ai/*” há bem menos modelos. Fiquei curioso se isso é intencional
“workers-ai/@cf/nvidia/nemotron-3-120b-a12b” não aparecem no endpoint /models de gateway.ai.cloudflare.com. Mas existem como modelos hospedados
Eu uso openrouter muito bem no Cloudflare Workers
Os recursos de cascading e waterfalling quando um modelo fica offline também são muito melhores
Parece que isso ainda não funciona no V1
Gosto tanto de tudo no openrouter que já sou praticamente fã
O problema da camada de inferência está sendo resolvido rapidamente
O próximo desafio difícil é a camada de governança, ou seja, o que os agentes podem fazer e como provar isso
Fico curioso se a Cloudflare também está pensando nisso
Imagino uma estrutura em que cada agente apresente credenciais RBAC para obter permissões
É bom ver que a aquisição da Replicate finalmente está dando resultado
Não vejo informações de preço na página de modelos
Queria saber o quanto isso sai mais caro do que pagar diretamente ao provedor
Será que a Cloudflare oferece isso a preço de custo?
Além disso, zero data retention não é o padrão, e alguns provedores nem oferecem suporte a isso
Seria bom poder retornar tanto completions no estilo OpenAI quanto Anthropic
No momento, é o mesmo preço do provedor, com uma pequena taxa de processamento via unified billing credits
Suporte a completions no estilo OpenAI/Anthropic também deve chegar em breve
link explicando unified billing
No fim das contas, isso parece ser um serviço semelhante ao openrouter
É um anúncio bem grande. Parece competitivo o suficiente para ser uma alternativa ao AWS Bedrock
Pode até ter uptime maior que o da Anthropic ou da AWS