Plataforma de IA da Cloudflare: uma camada de inferência para agentes

(blog.cloudflare.com)

2 pontos por GN⁺ 13 일 전 | 1 comentários | Compartilhar no WhatsApp

Constrói uma camada de inferência unificada que reduz a complexidade de aplicações agentic ao integrar diversos modelos e provedores
Com AI Gateway e Workers AI, é possível chamar mais de 70 modelos e 12 provedores por meio de uma única API, com gerenciamento centralizado de custos e uso
Oferece execução de modelos em contêiner para permitir a implantação direta de modelos personalizados, usando a tecnologia Cog da Replicate
Usa a infraestrutura em 330 cidades no mundo para minimizar a latência e garante inferência estável com roteamento automático em caso de falhas
A equipe da Replicate se juntou à Cloudflare para integrar totalmente hospedagem e implantação de modelos, expandindo para uma plataforma única para desenvolvimento de agentes

Visão geral da Cloudflare AI Platform

Com as rápidas mudanças nos modelos de IA e as diferenças entre provedores, cresce a complexidade de aplicações agentic que combinam vários modelos
- Por exemplo, um agente de suporte ao cliente pode usar um modelo rápido para classificar mensagens, um modelo grande para planejamento e um modelo leve para execução
- Há a necessidade de gerenciar de forma unificada custo, confiabilidade e latência sem ficar preso a um único provedor
A Cloudflare construiu uma camada de inferência unificada baseada em AI Gateway e Workers AI, capaz de chamar todos os modelos por uma única API
- Recentemente, adicionou reformulação do dashboard, configuração automática do gateway padrão, repetição automática em falhas upstream e controles mais granulares de logging

Um catálogo, um endpoint unificado

Por meio do binding AI.run(), é possível chamar diretamente modelos de terceiros (OpenAI, Anthropic etc.) a partir do Cloudflare Workers
- Ao trocar de um modelo hospedado pela Cloudflare para um modelo de terceiros, basta alterar uma linha de código
- O suporte a REST API também será disponibilizado em breve, permitindo acessar todo o catálogo de modelos em qualquer ambiente
Mais de 70 modelos e 12 provedores disponíveis com uma única API e uma única unidade de cobrança
- Principais provedores: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- É possível criar aplicações multimodais, incluindo modelos de imagem, vídeo e voz
Todas as chamadas de modelo são unificadas em uma única API, permitindo gerenciar centralmente o uso de IA e os custos
- Em média, empresas estão chamando 3,5 modelos de vários provedores, mas o AI Gateway permite acompanhar isso em um único dashboard
- É possível incluir metadados personalizados nas requisições para analisar custos por cliente e por workflow

Implantação direta de modelos do usuário (Bring Your Own Model)

O AI Gateway integra modelos de todos os provedores, mas também está se preparando para permitir a implantação direta de modelos ajustados com dados do usuário
- Hoje, clientes enterprise já executam modelos customizados em instâncias dedicadas, e isso será expandido para usuários em geral
A Cloudflare usa a tecnologia Cog da Replicate para conteinerizar modelos de machine learning
- Defina as dependências no arquivo cog.yaml e escreva o código de inferência no arquivo predict.py, e o empacotamento é feito automaticamente
- O Cog abstrai configurações complexas como CUDA, versões de Python e carregamento de pesos
Depois de gerar a imagem de contêiner com o comando cog build e enviá-la ao Workers AI, a Cloudflare cuida da implantação e da operação do serviço
- No futuro, estão previstos comandos do wrangler, cold start rápido baseado em snapshots de GPU e API para clientes
- Está em teste com clientes internos e alguns externos, com plano de expansão para que qualquer pessoa possa usar seus próprios modelos no Workers AI

Otimização da velocidade até o primeiro token

A combinação de AI Gateway + Workers AI é especialmente vantajosa para agentes ao vivo, em que respostas em tempo real são importantes
- Mesmo que o tempo total de inferência seja de 3 segundos, receber o primeiro token 50 ms antes melhora a percepção de velocidade do usuário
A Cloudflare minimiza a latência de rede entre o usuário e o endpoint de inferência por meio de data centers em 330 cidades no mundo
O Workers AI hospeda modelos open source especializados em agentes, como Kimi K2.5 e modelos de voz em tempo real
- Quando chamados via AI Gateway, o código e a inferência são executados na mesma rede, alcançando a menor latência

Confiabilidade baseada em failover automático

Workflows de agentes têm alta dependência entre etapas, então a estabilidade da inferência é essencial
- Se o mesmo modelo existir em vários provedores, o AI Gateway roteia automaticamente para outro provedor quando um deles falha
- O desenvolvedor não precisa escrever lógica separada para tratamento de falhas
No caso de agentes de longa execução que usam o Agents SDK, a inferência em streaming pode ser restaurada mesmo após desconexões
- O AI Gateway faz buffering independente das respostas em streaming, permitindo reutilizar a mesma resposta após reconexão em caso de interrupção
- Os mesmos tokens são restaurados sem cobrança duplicada e, quando combinados com o recurso de checkpoint do SDK, a interrupção não é percebida pelo usuário

Integração com a Replicate

A equipe da Replicate se juntou à equipe da Cloudflare AI Platform e a integração total está em andamento
- Todos os modelos da Replicate serão migrados para o AI Gateway, e os modelos hospedados serão replataformados na infraestrutura da Cloudflare
- Os usuários poderão chamar modelos existentes da Replicate pelo AI Gateway ou hospedar no Workers AI modelos implantados na Replicate

Como começar

Desenvolvedores podem começar pela documentação do AI Gateway ou pela documentação do Workers AI
Também é possível criar agentes na Cloudflare por meio do Agents SDK

O papel da Cloudflare

A Cloudflare, como connectivity cloud, oferece proteção para redes corporativas, construção de aplicações em larga escala, aceleração de performance web e suporte a defesa contra DDoS e segurança Zero Trust
O app gratuito 1.1.1.1 permite uma internet mais rápida e segura
A missão da Cloudflare é ajudar a construir uma internet melhor, e mais informações e vagas podem ser encontradas no site oficial

1 comentários

GN⁺ 13 일 전

Comentários do Hacker News

No fim das contas, isso parece ser openrouter com Cloudflare Argo networking acoplado
Parece que daria para construir algo mais interessante aproveitando a aquisição da Replicate
RL específico por aplicação está melhorando cada vez mais, mas faltam formas de implantar isso de maneira escalável
Lugares como a Fireworks dizem que fazem implantação escalável de LORA, mas na prática não funciona bem
Então, por enquanto, estou hospedando a carga base do meu app por conta própria com várias 3090 na garagem. É engraçado, mas isso me economiza 1 mil dólares por mês
- Fiquei curioso sobre quais modelos você está rodando e de quantas 3090 precisaria para escalar
Isso parece bem útil. A Cloudflare está reunindo boas ferramentas
Especialmente o D2, que é praticamente o único sqlite-as-a-service, com boa estabilidade e limites generosos no plano gratuito
- A documentação e o marketing destacam usos como “um DB por usuário, um DB por tenant”, mas na prática é difícil usar com Workers
  Para vincular um novo DB, é preciso reimplantar o Worker, então na prática isso é inviável
- Na nossa experiência, a estabilidade do D1 não foi boa
  As consultas travavam por alguns segundos, às vezes por dezenas de segundos, na camada de rede interna
  Algumas consultas nem apareciam no painel de observabilidade, então você nem percebe o problema sem implementar sua própria detecção de timeout
  Também não há suporte a transações, e numa thread de issue um PM disse que não há planos de implementar isso
  Para garantir consistência dos dados, é preciso usar Durable Object, o que traz outros custos e trade-offs
  A ideia é boa, mas é difícil confiar para produção; para projetos hobby, tudo bem
- Seria bom se a Cloudflare oferecesse por padrão um sistema de backup D1-R2
  Hoje isso só é possível com código customizado em um Worker
- O limite de 10 GB do D1 é pequeno demais. Fora projetos de brinquedo, acho difícil
- Dizem que vão lançar uma API REST em breve, mas a estrutura parece induzir lock-in na Cloudflare
  É difícil entender querer construir um OpenRouter e ao mesmo tempo só dar suporte a bindings do próprio runtime
A lista de modelos do Workers AI e o
catálogo de modelos de IA têm conjuntos de modelos diferentes
No namespace “workers-ai/*” há bem menos modelos. Fiquei curioso se isso é intencional
- Por exemplo, modelos como “workers-ai/@cf/google/gemma-4-26b-a4b-it” ou
  “workers-ai/@cf/nvidia/nemotron-3-120b-a12b” não aparecem no endpoint /models de gateway.ai.cloudflare.com. Mas existem como modelos hospedados
Eu uso openrouter muito bem no Cloudflare Workers
Os recursos de cascading e waterfalling quando um modelo fica offline também são muito melhores
Parece que isso ainda não funciona no V1
Gosto tanto de tudo no openrouter que já sou praticamente fã
O problema da camada de inferência está sendo resolvido rapidamente
O próximo desafio difícil é a camada de governança, ou seja, o que os agentes podem fazer e como provar isso
Fico curioso se a Cloudflare também está pensando nisso
- Seria bom ter um sistema automático de autenticação baseado em zero-trust
  Imagino uma estrutura em que cada agente apresente credenciais RBAC para obter permissões
É bom ver que a aquisição da Replicate finalmente está dando resultado
Não vejo informações de preço na página de modelos
Queria saber o quanto isso sai mais caro do que pagar diretamente ao provedor
Será que a Cloudflare oferece isso a preço de custo?
Além disso, zero data retention não é o padrão, e alguns provedores nem oferecem suporte a isso
Seria bom poder retornar tanto completions no estilo OpenAI quanto Anthropic
- Sou engenheiro da Cloudflare. Vamos adicionar informações de preço na documentação e no dashboard em breve
  No momento, é o mesmo preço do provedor, com uma pequena taxa de processamento via unified billing credits
  Suporte a completions no estilo OpenAI/Anthropic também deve chegar em breve
  link explicando unified billing
- As informações de preço do Workers AI estão aqui
No fim das contas, isso parece ser um serviço semelhante ao openrouter
- Sim. Mas a variedade de modelos é menor, exceto se você trouxer seu próprio modelo
- É isso com Argo networking adicionado
É um anúncio bem grande. Parece competitivo o suficiente para ser uma alternativa ao AWS Bedrock
Pode até ter uptime maior que o da Anthropic ou da AWS

Plataforma de IA da Cloudflare: uma camada de inferência para agentes

Visão geral da Cloudflare AI Platform

Um catálogo, um endpoint unificado

Implantação direta de modelos do usuário (Bring Your Own Model)

Otimização da velocidade até o primeiro token

Confiabilidade baseada em failover automático

Integração com a Replicate

Como começar

O papel da Cloudflare

Leituras relacionadas

1 comentários

Comentários do Hacker News