2 pontos por GN⁺ 1 일 전 | 1 comentários | Compartilhar no WhatsApp
  • Os modelos frontier da OpenAI passarão a fazer parte do runtime nativo de agentes da AWS no Amazon Bedrock, em uma integração que vai além de simplesmente oferecer modelos e os combina no formato de agentes gerenciados para empresas
  • Os Bedrock Managed Agents reúnem identity, permissions, logging, governance e deployment, permitindo que clientes operem agentes em ambientes corporativos mais rapidamente sem precisar montar manualmente esses componentes
  • Hoje, o desempenho de agentes depende não apenas do próprio modelo, mas fortemente do grau de integração com o harness, incluindo tools, state, memory, permissions e evals; AWS e OpenAI estão tratando essa integração como um produto conjunto
  • Os dados dos clientes permanecem dentro da AWS VPC, e os modelos da OpenAI são executados via Bedrock, com o suporte sendo operado principalmente pela AWS
  • Assim como a nuvem no início reduziu barreiras para startups, essa integração também segue a tendência de reduzir a barreira de adoção de IA, ao mesmo tempo em que busca se firmar como uma nova camada de plataforma diante da rápida expansão da demanda por frontier models

AWS, startups e a velocidade da adoção de IA

  • O modelo inicial de nuvem da AWS permitiu usar uma infraestrutura que antes só grandes empresas podiam ter com apenas alguns dólares e um cartão de crédito, ampliando enormemente o alcance da criação na internet ao não exigir que se definisse previamente o que os desenvolvedores iriam construir
  • O impacto da adoção de IA é avaliado como semelhante ou até maior
    • A estrutura em que era preciso estudar programação por 10 anos para criar uma aplicação está enfraquecendo
    • Equipes pequenas podem criar e iterar rapidamente sem precisar de centenas de pessoas nem de longos ciclos de desenvolvimento
    • Isso funciona como um meio de abrir novas inovações em várias áreas do mundo
  • Diferentemente dos primórdios da nuvem, a velocidade de adoção da IA está avançando muito rápido
    • Em 2006, era preciso explicar longamente por que “uma empresa de livraria” ofereceria computação, mas as pessoas entendem IA muito mais rápido
    • A passagem de um chatbot inteligente simples para a execução de tarefas internas nas empresas exigiu alguma educação, mas ainda avançou relativamente rápido para o ritmo de mudança tecnológica
  • A mudança de plataforma para startups pode ser resumida em quatro ondas: Internet, cloud, mobile, AI
    • Nos primeiros dias da YC, a nuvem como a AWS permitiu abrir empresas com pouco capital
    • A barreira de ter que alugar espaço de colo, montar servidores e captar muito dinheiro antes caiu drasticamente
    • Caiu também a suposição de que só o custo de servidores já exigiria dezenas de milhares de dólares, tornando possível uma estrutura de startup com pouco capital
  • Startups têm mais chance de vencer grandes empresas durante grandes transições de plataforma quando conseguem operar com ciclos mais curtos e menos capital
    • No momento, o mesmo parece acontecer com a IA
    • Dentro da YC, a velocidade de crescimento de receita está se movendo muito mais rápido do que no passado, a ponto de a expectativa de receita de boas empresas mudar até entre o início e o fim de um batch
  • A AWS continua sendo apresentada como a nuvem usada por muitas startups em fase de expansão
    • scale, availability, security, reliability, além do ecossistema de parceiros ISV e da base de clientes dentro da AWS, aparecem como pontos fortes combinados
    • Além de créditos, a empresa oferece orientação de arquitetura de sistemas e de go-to-market, e continua tratando startups como base central da AWS
    • A cada trimestre, encontra startups diretamente para verificar se os produtos realmente atendem às necessidades delas
  • Hoje, entre startups, é muito comum o padrão de usar AWS para computação geral e a API da OpenAI para IA

Bedrock Managed Agents e a direção do produto conjunto

  • Os Bedrock Managed Agents são apresentados não apenas como a chegada dos modelos da OpenAI à AWS, mas como a incorporação dos frontier models da OpenAI dentro do runtime nativo de agentes da AWS
    • Elementos operacionais como identity, permission state, logging, governance e deployment são integrados em conjunto
  • A próxima etapa da IA está indo além de colocar texto e receber texto, avançando para stateful agents que realmente executam trabalho dentro da empresa
    • A expressão “virtual co-workers” não é perfeita, mas é tratada como a menos estranha no momento
    • O setor como um todo ainda não definiu completamente como chamar nem como usar esse tipo de sistema
  • Codex é apresentado como um exemplo claro desse movimento
    • O importante é que o trabalho desejado aconteça de fato, e o usuário deixa de distinguir o quanto veio do modelo ou do harness
  • O grau de integração entre modelo e harness é tratado como central para o desempenho dos agentes
    • tools, state, memory, permissions e evals determinam fortemente o funcionamento real
    • Não é exatamente a mesma coisa que pre-training, mas a integração acontece tanto em post-training quanto no nível de prompt
    • O que no início parecia separado, como tool-calling, vai sendo integrado mais profundamente ao processo de treinamento com o tempo
    • Daqui para frente, model e harness, assim como pre-training e post-training, podem se integrar ainda mais fortemente
  • O grau de maturidade da indústria ainda é descrito como tão inicial que chega a ser comparado à era do Homebrew Computer Club
  • O trabalho conjunto entre AWS e OpenAI busca reunir elementos que os clientes antes precisavam montar por conta própria, para que eles cheguem mais rápido ao valor em ambientes corporativos
    • Os clientes querem que modelo e agente funcionem bem juntos mantendo memória
    • Querem conectar não apenas ferramentas de terceiros, mas também suas próprias ferramentas, seus próprios dados, suas próprias aplicações e seu próprio ambiente operacional
    • Até agora, esse trabalho de integração era responsabilidade de cada cliente
    • No produto conjunto, a identity vem embutida, e a autenticação com banco de dados é projetada para acontecer dentro da AWS VPC
  • O objetivo não é apenas aumentar a conveniência, mas permitir até mesmo aquilo que, no modelo anterior, era doloroso de montar e nem assim era implementado de forma confiável
  • O estado atual é descrito como um momento em que desenvolvedores enfrentam dor excessiva e muito trabalho manual ao tentar construir algo com modelos
    • Mesmo no uso do ChatGPT, há muita cópia e cola e combinações complexas de prompts
    • Esse atrito tende a desaparecer, mas o estágio atual ainda é muito inicial e desconfortável
  • Essa colaboração também é resultado do encontro entre a demanda de clientes já instalados na AWS que querem tecnologia da OpenAI e a direção da OpenAI de ampliar sua acessibilidade aos clientes da AWS
  • Mais do que uma simples distribuição de modelos, há forte ênfase em criar um novo produto em conjunto
    • Ao olhar para trás daqui a um ano, a expectativa é que a importância desse novo produto pese mais do que apenas “ficou possível acessar modelos da OpenAI pela AWS”
    • Em termos de modelo, harness e capability, isso se aproxima mais de uma nova forma de computação do que de uma simples chamada de API de modelo tradicional

AgentCore, Managed Agents e o modelo operacional

  • AgentCore é apresentado como um conjunto de primitivos para agentes, como memória, ambiente seguro de execução e concessão de permissões
  • Os Bedrock Managed Agents ficam acima dos componentes do AgentCore como um produto superior construído conjuntamente pela AWS e pela OpenAI, combinando modelos da OpenAI com vários elementos operacionais
  • Só com o AgentCore já é possível criar diretamente um agentic workflow
    • Já existem clientes usando isso em production com uso real
  • Mesmo hoje, é possível usar o AgentCore chamando modelos da OpenAI externamente
    • Não é uma integração nativa dentro do Bedrock, mas há clientes chamando diretamente modelos da OpenAI hospedados em outra nuvem
  • A AWS trata isso como um ecossistema aberto
    • A possibilidade de combinar capacidades e construir diretamente do jeito desejado deve continuar existindo
    • Assim como há pessoas que montam o próprio computador em casa, a expectativa é que sempre existam builders que queiram montar seus próprios agentes
  • Muitos clientes, porém, querem uma forma mais simples que não exija configurar todas as peças manualmente, e este lançamento mira exatamente essa demanda
  • O uso da OpenAI no Azure é resumido como uma experiência de acesso direto à API, enquanto o anúncio na Amazon é posicionado como um managed service diferente disso
  • Esse serviço de agente gerenciado está, no momento, exclusivamente com a Amazon
    • Não se trata apenas de usar uma API da Amazon, mas de um joint effort entre as duas empresas
  • Os dados dos clientes permanecem dentro da AWS
    • Tudo fica dentro da VPC e protegido no ambiente do Bedrock
  • Os modelos da OpenAI são executados via Bedrock, e a infraestrutura usa uma combinação de Trainium e GPUs
    • Em parte por questão de timing, em parte por questão de capabilities
    • A direção apresentada é de que, com o tempo, uma parcela maior deve migrar para o Trainium
    • A OpenAI também demonstrou grande expectativa com a execução de seus modelos no Trainium
  • Ao operar modelos da OpenAI no ambiente da AWS, o primeiro ponto de suporte é a AWS
    • Os clientes recebem ajuda via AWS Support e seus responsáveis de conta na AWS
    • Durante a implementação, equipes da OpenAI também participam para alinhar os modos de uso
    • Bugs que exigirem ajuda da OpenAI serão escalados pela AWS até a OpenAI

Local, nuvem, permissões e fronteiras de segurança

  • O Codex começou na nuvem, mas depois apresentou um movimento de retorno para execução local
  • O local é mais fácil porque o ambiente já está ali
    • Configuração do computador, dados e acesso a arquivos já estão prontos, exigindo menos configuração adicional
    • Mesmo que não seja o estado final, no curto prazo a facilidade de uso pesa mais
  • No longo prazo, a direção tratada como útil é que os agentes rodem na nuvem, assumindo tarefas muito pesadas ou cenários em que seja necessário fechar o computador
  • O cliente local ainda tem vantagens
    • Assim como apps de iPhone também têm componentes locais, há benefícios em connectivity, latency, local compute e acesso a arquivos e aplicações
    • Mas não é possível fazer scale-out do próprio laptop, então a limitação de escalabilidade é clara
  • Em ambientes corporativos, a abordagem local se torna mais difícil
    • A complexidade já sobe bastante quando algo precisa ser compartilhado entre duas pessoas
    • Lidar com permissions e security boundary fica mais complicado
    • No fim, passa a ser necessário um bridge entre o local e a nuvem
  • Para agentes, faz sentido desenvolver no mesmo tipo de ambiente em que serão implantados, e o desenho de identity e permission ainda é uma área bastante inacabada
    • O agente deve usar exatamente a conta da pessoa?
    • Deve ter uma conta separada?
    • Como distinguir vários agentes diferentes?
  • Ainda não existe nem mesmo um primitive como “o agente do Ben faz login como Ben, mas deixando registrado que não é o Ben real e sim um agente”
  • À medida que agentes forem entrando na força de trabalho e sua autonomia e complexidade de tarefas aumentarem, os modelos de controle de acesso e permissões dentro das empresas e em toda a internet também terão de evoluir
  • Quanto mais se vai para a nuvem, mais a organização central pode exercer controle de segurança
    • Os clientes gostam do potencial de modelos e agentes poderosos, mas sua maior preocupação é que algum erro acabe comprometendo a empresa
    • É possível controlar fronteiras fazendo tudo operar dentro da VPC, passando por um gateway específico ou concedendo permissões como roles dentro do ambiente
    • Isso se conecta ao fato de que a estrutura de segurança acumulada pela AWS em 20 anos permitiu seu uso não só por startups, mas também por bancos globais, instituições de saúde e órgãos governamentais
    • Para organizações mais avessas a risco, os guardrails dentro de um sandbox podem, na verdade, ampliar a adoção

Stack de IA e arquitetura corporativa

  • Clientes corporativos querem uma camada de gestão que conecte dados e agentes e ofereça rastreamento de gastos com tokens e supervisão
  • Grandes empresas pedem de forma consistente um pacote que reúna agent runtime environment, camada de gestão e workspace para funcionários
    • Um formato como o do Codex é citado como exemplo de workspace para funcionários
    • Essa demanda por pacote é bastante consistente, embora a oferta concreta ainda precise ser mais construída
  • Há concordância de que as organizações precisam de um middleware / middle layer que atravesse múltiplos bancos de dados, apps SaaS e dados distribuídos
  • Na estrutura atual, parecem necessários tanto uma camada de agentes voltada ao usuário quanto uma camada de gestão corporativa
    • Do lado do usuário, usa-se um formato em que várias interações acontecem com múltiplos agentes, que também podem ser construídos para conversar entre si
    • Na camada de gestão da empresa, são importantes os diversos controls necessários quando a IA navega pelo sistema de arquivos e outros recursos
  • Ainda assim, permanece aberta a possibilidade de que, quando os modelos se tornarem suficientemente inteligentes, toda essa estrutura venha a ser redesenhada
    • A atual estrutura de dupla camada é adaptada ao mundo de hoje
    • Ainda não se sabe exatamente como será a arquitetura do futuro
    • Em algum momento, a conclusão pode ser que “isso simplesmente precisa estar dentro do modelo”
    • O aprendizado virá do processo em que os clientes realmente usam e constroem, mostrando o que precisa ficar mais fácil, mais rápido e melhor

Demanda, capacidade e estratificação de modelos

  • A OpenAI está colocando muita compra de compute e um esforço significativo nesse negócio, esperando também a receita correspondente
  • A demanda por inteligência é tratada como algo próximo de uma demanda sem teto, desde que o preço fique baixo o suficiente
  • Neste momento, a restrição maior parece ser falta de capacidade, não preço
    • Há mais clientes querendo capacidade adicional e dispostos a pagar mais por isso, independentemente do preço, do que clientes discutindo apenas preço
    • Também é expressa a convicção de que o custo do nível atual de inteligência vai cair drasticamente no futuro
  • É visto como um sinal surpreendente que uma parte significativa da demanda total do mercado esteja concentrada no absolute frontier
    • Em vez de bastarem modelos de gerações anteriores, o movimento mais forte é continuar querendo os modelos mais avançados
  • Assim como o custo de compute caiu muito ao longo de décadas e mesmo assim o volume vendido continuou crescendo, a IA pode seguir uma trajetória semelhante de expansão de demanda
  • No momento, para executar trabalho útil, em muitos casos ainda são necessários frontier models, e por isso todos querem esse lado da oferta
  • Com o tempo, espera-se uma estrutura mista em que coexistam modelos pequenos, baratos e rápidos e modelos gigantes
    • Alguns modelos pequenos podem, com o tempo, chegar a executar tarefas que hoje nem os modelos mais recentes da OpenAI conseguem
    • Já os modelos gigantes podem mirar problemas maiores, como cura do câncer
  • Ainda estamos em uma fase inicial, e o fato de esse nível de demanda e crescimento já aparecer aumenta bastante o potencial do que vem pela frente

Trainium, abstração e compute interno

  • Diante da pergunta se o Trainium, apesar do nome, poderá ganhar mais presença em inferência, a AWS responde que ele é útil tanto para training quanto para inference
  • É enfatizado que os clientes terão contato com o Trainium mais pela abstração de managed services do que diretamente
    • Assim como a maioria dos clientes não lida diretamente com GPUs, ao usar OpenAI ou Claude eles interagem na prática com uma interface, e não com GPU, Trainium ou TPU
  • A tendência é que os accelerator chips continuem operando por trás de um pequeno número de grandes modelos e serviços
    • Pode haver 5, 10, 20 ou 100 deles, mas não se espera que o número de pessoas programando isso diretamente chegue a milhões
    • Treinar modelos custa muito dinheiro e exige alta especialização operacional
    • A equipe da OpenAI é muito forte em extrair valor de grandes clusters de compute, mas poucos lugares têm equipes desse tipo
  • A OpenAI disse que inicialmente pensava em si mesma como uma token factory, mas em seguida corrigiu para algo mais próximo de uma intelligence factory
    • O que os clientes querem não é quantidade de tokens, mas receber a melhor unidade de inteligência possível pelo menor custo e com capacidade suficiente
  • GPT-5.5 é citado como exemplo de modelo cujo custo por token é maior que o do 5.4, mas que exige muito menos tokens para chegar à mesma resposta
    • Os usuários se importam mais em concluir a tarefa desejada do que em quantos tokens foram gastos na resposta
  • Seja um modelo maior usando poucos tokens, um modelo menor usando muitos tokens, GPU ou Trainium, o cliente quer mais utilidade por menos custo, e não se preocupa tanto com a implementação interna
  • Mesmo ao criar um novo agente no Codex ou no Stateful Runtime Environment para o Amazon Bedrock, o usuário não deveria precisar pensar na escolha de compute interno
  • A redução no uso de tokens decorre principalmente de melhorias no modelo, com apenas alguma influência do harness
  • Sobre expandir um managed service semelhante para outros modelos, a AWS respondeu apenas que, no momento, está focada na colaboração com a OpenAI

Evolução do mercado e estratégia de plataforma

  • O ChatGPT é avaliado como o primeiro grande novo produto de consumo desde o Facebook
  • A OpenAI afirma ter obtido resultados bastante bons não só com o ChatGPT, mas também com a API e especialmente com o Codex
    • Também aparece a lembrança de que, no passado, o foco estava mais na possibilidade de uma nova interface de linguagem mudar a forma como se encontra informação na internet
    • O Google continua sendo avaliado como uma empresa fenomenal em breadth e depth
  • A AWS resume que, desde o início, adotou uma estratégia centrada em parceiros, na qual o sucesso dos parceiros também leva ao sucesso da AWS
    • Isso difere de uma abordagem em que é preciso possuir tudo diretamente e se aproxima mais de aumentar o tamanho da torta
    • A posição da empresa é que o cliente deve poder escolher o que for melhor para si, seja um produto próprio da AWS ou de um parceiro
  • O Bedrock também foi projetado sobre essa estratégia para dar suporte a uma ampla variedade de modelos e funcionalidades
    • A mesma linha de abordagem teria sido mantida em outras áreas, como banco de dados e plataforma de compute
  • Na camada de infraestrutura, a AWS promove fortemente seus componentes centrais, como o S3, mas, à medida que se sobe na stack, considera mais vantajoso para os clientes aceitar um ecossistema de parceiros mais amplo
  • Os papéis das duas empresas são resumidos como OpenAI no Software, AWS na Infrastructure e ambas construindo juntas a Platform
  • Como se espera que a capacidade dos modelos avance rapidamente ao longo do próximo ano, este momento de construir a plataforma em conjunto é apresentado como um bom timing

1 comentários

 
GN⁺ 1 일 전
Comentários do Hacker News
  • Nas organizações sensíveis à privacidade com as quais trabalho, o Claude foi muito mais bem aceito
    porque era possível acessá-lo por meio da Amazon no papel de intermediária "confiável". A OpenAI é proibida e não inspira confiança
    Não necessariamente concordo com a avaliação dos times jurídicos dessas organizações, mas imagino que eles tenham lido os termos de serviço com muito mais cuidado do que eu
    Ainda não dá para saber se esse anúncio vai mudar o jogo, mas, pela minha percepção atual, a OpenAI parece estar bem atrás em vários aspectos
    Dito isso, no setor de IA uma diferença de 2 a 8 semanas também não é uma distância tão enorme, então pode ser mais uma questão de percepção do que de impacto real
    Pelo menos na minha bolha de informação, a reputação da OpenAI está no fundo do poço por causa do Sam Altman, e eu não gosto muito da empresa porque ela parece antiética e bastante instável, considerando coisas como as exigências ligadas a fabs
    • Os principais fornecedores de LLM podem firmar contratos de ZDR em qualquer lugar
      Não basta usar só a AWS, e mesmo que a AWS execute o modelo, se você quiser ZDR de verdade precisa negociar isso separadamente com eles [0]
      [0]: https://platform.claude.com/docs/en/build-with-claude/claude...
    • É verdade que a Anthropic tem os melhores modelos e uma liderança mais estável, mas acho que quem realmente ampliou muito a acessibilidade para empresas foi a AWS
      As duas certamente se beneficiaram, e a cultura de loop de feedback dos clientes da AWS provavelmente ajudou a Anthropic a se estruturar mais rápido para atender o mercado enterprise
    • Fico curioso para saber se isso é realmente melhor do que OpenAI no Azure em termos de condições legais, SLA e preocupações com dados
      O lado do Azure já existe há algum tempo
    • A OpenAI não está focada em vender apenas um LLM; ela também faz geração de vídeo e imagem
      Já a Anthropic está focada em uma coisa só, e acho que é por isso que ela sempre aparece no topo dos benchmarks de SWE
    • O ponto aqui não é só que a AWS seria uma "intermediária confiável", mas que o modelo roda dentro da própria conta AWS do cliente sob outro contrato
      A AWS afirma que entradas e saídas não são compartilhadas com o provedor do modelo e não são usadas no treinamento do modelo base [1]
      Além disso, a OpenAI recebeu em maio de 2025 uma ordem de preservação no caso NYT v. OpenAI, e o tribunal está essencialmente obrigando a empresa a manter logs de saída do ChatGPT por tempo indeterminado
      Isso inclui conversas apagadas por usuários que originalmente seriam removidas em até 30 dias [2]
      Então, para organizações sujeitas a HIPAA/GDPR, isso já inviabiliza tudo logo na largada
      [1] https://aws.amazon.com/bedrock/faqs/
      [2] https://openai.com/index/response-to-nyt-data-demands/
  • Trabalhando em big tech e vendo reuniões intermináveis só para coordenar o deploy de um recurso pequeno entre dois times, eu nem consigo imaginar a quantidade de reuniões e de 6-pagers necessária para colocar esses modelos no hardware do Bedrock
    • Nesse nível, muitas vezes eles simplesmente decidem e montam um time SWAT para tocar tudo em poucas semanas
      Política interna ou revisão burocrática geralmente pesa mais para manter o pessoal de níveis mais baixos ocupado com restos de funcionalidades e trabalho operacional
    • Depende de como foi implementado, mas a Amazon já colocou o gpt-oss-20b
      Se o modelo for suficientemente parecido com uma variante OSS do GPT, talvez não tenha sido tão complicado quanto parece
  • O mesmo modelo executado em plataformas de inferência diferentes não necessariamente produz exatamente os mesmos resultados
    Quantização, silício customizado para serving, batching e outras otimizações de inferência podem alterar o comportamento em relação à versão do provedor original e à versão hospedada
    Este artigo não trata exatamente do mesmo caso — fala de um Llama open weights auditável —, mas mostra bem sintomas parecidos
    https://arxiv.org/pdf/2410.20247
    • Quem já usou gpt-x tanto pela OpenAI quanto pela Microsoft deve ter sentido essa diferença com bastante clareza
  • Na nossa organização, a oferta via Bedrock também foi um fator central para impulsionar o uso da Anthropic
    Parece que eles também conseguem tirar uma margem razoável daí
    Também fico me perguntando se isso tem ligação direta com o movimento de ruptura com a Microsoft
    Mesmo só olhando para os casos à minha volta, a OpenAI está sendo quase ignorada em implantações enterprise sérias, porque o oferecido no Azure não é grande coisa e, fora isso, não há um caminho amigável para empresas
    Parece que a OpenAI percebeu que seria fatal continuar cedendo o mercado enterprise para a combinação Anthropic + AWS, então se mexeu para correr atrás
  • O mais interessante aqui é a dinâmica de vendas enterprise
    Setores regulados, como finanças e saúde, muitas vezes já têm contratos com a AWS que incluem compromissos de residência de dados
    OpenAI sobre o Bedrock pode permitir que essas organizações usem OpenAI sem precisar negociar um DPA separado com a própria OpenAI, então isso pode ser uma abertura muito maior do que parece no papel
  • Isso é uma mudança bem-vinda do ponto de vista de compliance
    Há um subprocessador a menos, e os dados já estão dentro da AWS, então há menos preocupação com enviá-los para outro lugar
  • Dá a impressão de que a OpenAI está correndo logo atrás da Anthropic
  • Agora já dá para comprar OpenAI pela AWS, mas isso também significa ter de usar outra interface nada compatível com as minhas ferramentas
    Isso, claro, a menos que a AWS finalmente tenha desistido e colocado compatibilidade com a API da OpenAI para tornar o Bedrock minimamente utilizável
  • Saiu mais rápido do que eu esperava
    • A preparação real provavelmente levou bastante tempo, mas o fluxo de PR que o público vê parece uma máquina muito bem ajustada
      Só neste post do HN apareceram quatro links do anúncio ao mesmo tempo, e isso não foi por acaso
      Quando uma fala errada no momento errado pode abalar bilhões de dólares em investimento, a mensagem precisa ser lapidada com muito cuidado e liberada em etapas
  • Parece que a OpenAI está acabando no caminho de virar um dumb pipe