OpenAI apresenta o serviço de agente "Operator"

(openai.com)

6 pontos por GN⁺ 2025-01-24 | 1 comentários | Compartilhar no WhatsApp

A OpenAI apresentou o Operator, um agente de IA capaz de navegar pela web e executar tarefas de forma independente
- Ele usa seu próprio navegador para visualizar páginas da web e interagir por meio de digitação, cliques e rolagem
Como está em fase de research preview, ainda há limitações, e ele deve evoluir com base no feedback dos usuários
É uma das primeiras IAs capazes de executar tarefas de forma independente: o usuário descreve o que quer fazer, e o agente realiza a ação
Ele busca economizar tempo ao lidar com tarefas repetitivas no navegador, como preencher formulários, pedir compras de supermercado e criar memes
Está sendo disponibilizado primeiro para usuários Pro nos Estados Unidos, com possibilidade futura de expansão para Plus, Team e Enterprise, além de integração ao ChatGPT

Como o Operator funciona

É baseado em um novo modelo chamado Computer-Using Agent (CUA)
Combina os recursos de visão do GPT-4o com um método avançado de raciocínio baseado em aprendizado por reforço, permitindo interações com GUI (botões, menus, campos de texto etc.)
Consegue “ver” a tela do navegador por meio de capturas de tela e executar tarefas manipulando mouse e teclado
Quando encontra erros ou obstáculos durante uma tarefa, adota uma abordagem colaborativa: usa raciocínio de autocorreção ou, se necessário, transfere o controle ao usuário
Tem mostrado alto desempenho em benchmarks de uso de navegador como WebArena e WebVoyager; mais detalhes estão disponíveis no blog de pesquisa

Como usar

Basta descrever brevemente a tarefa desejada, e o Operator a executa automaticamente
A qualquer momento, o usuário pode retomar manualmente o controle do navegador
Em etapas sensíveis, como login, inserção de dados de pagamento e resolução de CAPTCHA, o usuário precisa agir diretamente
É possível refletir preferências e gostos do usuário por meio de configurações por site ou para todos os sites
Também é possível salvar prompts favoritos para executar rapidamente tarefas frequentes, como refazer pedidos de supermercado no Instacart
Várias tarefas podem ser processadas ao mesmo tempo, como em várias abas, com sessões de conversa separadas para executar atividades diferentes em paralelo

Ecossistema e usuários

O Operator faz a IA evoluir de uma simples ferramenta para um participante ativo do ecossistema digital
A OpenAI está colaborando com empresas como DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack e Uber para refletir necessidades reais dos usuários e padrões do setor
No setor público, também está sendo avaliada a possibilidade de aplicação para melhorar eficiência e acessibilidade; por exemplo, a City of Stockton explora formas de uso em serviços administrativos municipais
Daniel Danker, Chief Product Officer da Instacart, mencionou uma avaliação positiva sobre a facilidade do processo de pedidos com o Operator

Segurança e privacidade

O Operator prioriza a segurança e adota três camadas de proteção
- Controle liderado pelo usuário: ao inserir informações sensíveis, como login e pagamento, o Operator solicita takeover para que o usuário digite diretamente os dados
- Confirmação antes de ações importantes: antes de tarefas críticas, como enviar um pedido ou um e-mail, ele pede aprovação do usuário
- Restrição de tarefas: foi treinado para recusar tarefas de alta sensibilidade, como operações bancárias ou decisões relacionadas a emprego
- Ao acessar sites sensíveis, o usuário pode monitorar diretamente as ações do Operator por meio do modo Watch
Há recursos de gerenciamento de privacidade de dados
- Se a opção ‘Improve the model for everyone’ for desativada, os dados do Operator também não serão usados no treinamento do modelo
- Na seção Privacy das configurações, é possível apagar dados de navegação, sair de todos os sites e excluir o histórico de conversas com facilidade
Publicidade
Também foram aplicados mecanismos de defesa para proteger o Operator contra sites maliciosos
- Ele foi projetado para detectar e ignorar prompts ocultos, código malicioso e tentativas de phishing
- Um modelo de monitoramento dedicado observa comportamentos suspeitos em tempo real e pode interromper a tarefa quando necessário
- Novas ameaças identificadas por automação e revisão humana levam à atualização rápida das proteções
Para evitar o uso indevido da tecnologia com fins nocivos, o Operator recusa determinadas solicitações, e violações repetidas de política podem resultar em avisos ou bloqueio de acesso
Como ainda está em fase de research preview, não é perfeito e deve continuar sendo aprimorado com feedback de uso no mundo real

Limitações

O Operator ainda está em estágio inicial e pode ter dificuldades com interfaces complexas, como criação de apresentações de slides e gerenciamento de calendário
O feedback dos usuários será um recurso importante para melhorar precisão, estabilidade e segurança

Próximos planos

Está previsto o fornecimento de uma API do CUA para criar a base necessária para que desenvolvedores construam seus próprios agentes
A OpenAI pretende aprimorar o Operator para lidar melhor com tarefas longas e fluxos de trabalho complexos
Além dos usuários Pro, a expansão gradual para Plus, Team e Enterprise está planejada e, no longo prazo, a função deve ser integrada ao ChatGPT para oferecer execução de tarefas em tempo real e de forma assíncrona

1 comentários

GN⁺ 2025-01-24

Comentários do Hacker News

Muitas pessoas acham que empresas como a OpenAI não estão gastando dinheiro para oferecer assistentes pessoais, mas sim treinando IA para reduzir custos de mão de obra no futuro
- Quando a IA se tornar útil como assistente pessoal, essa funcionalidade será lançada por um preço que a pessoa média não poderá pagar
As opiniões sobre o lançamento do OpenAI Operator são mistas
- Há visões céticas sobre as capacidades atuais, o custo e o potencial de expansão excessiva, mas também visões positivas sobre a automação de tarefas e a possibilidade de melhoria ao longo do tempo
- Questões éticas, privacidade e impacto na indústria também estão sendo discutidos
- No geral, há um otimismo cauteloso, reconhecendo os desafios e o potencial de melhoria
O Operator é semelhante à demonstração Computer Use da Claude de alguns meses atrás, e apresenta uma arquitetura que exige executar uma VM, além de uma tendência a imprecisões
- A implementação de Computer Use da Claude não causou grande repercussão na indústria de agentes de IA após o anúncio
Em um slide sobre os riscos de segurança e mitigação do Operator, aparece a expressão "usuário desalinhado"
- Há quem queira ver mais exemplos do que a OpenAI considera um usuário "desalinhado"
Há opiniões críticas sobre investir 50 bilhões de dólares em tarefas como criar memes
- Também foi expressado pesar por não investir em tornar a Terra um lugar melhor para se viver para a próxima geração
CogAgent: uma alternativa open source da China
- São fornecidos links para o artigo, código e modelo
Existe a expectativa de que, no futuro, quando os produtos e modelos melhorarem significativamente, será possível conversar com o ChatGPT para cuidar de tarefas tediosas da web, como reservar jantar, comprar passagens aéreas e fazer compras de supermercado
- Há grande expectativa por esse tipo de funcionalidade
Há a opinião de que empresas como Instacart ou Doordash podem abrir uma nova direção de UI por meio de otimização de marketing para LLMs
- Por exemplo, se receber a instrução de encontrar ovos nutritivos, o agente pode consultar a tabela nutricional para tomar uma decisão
Há a opinião de que é estranho que um "agente" veja pixels e use mouse e teclado
- Imagina-se um padrão em que apps e serviços exponham um conjunto de tarefas pré-aprovadas que possam ser executadas em nome do usuário
- É proposto o conceito de uma "app store" que ofereça a capacidade de adicionar ou revogar permissões do usuário
Há uma forte crença de que é necessário usar Open APIs para agentes
- Argumenta-se que o OpenAPI é o padrão de especificação perfeito para viabilizar um mundo aberto e a internet para agentes
- Quando lançou o GPT pela primeira vez, a OpenAI se baseava em Open APIs, mas está se afastando cada vez mais disso
- Isso parece uma intenção de controlar o mercado e de não querer se basear em padrões abertos
- Isso é muito lamentável

OpenAI apresenta o serviço de agente "Operator"

Como o Operator funciona

Como usar

Ecossistema e usuários

Segurança e privacidade

Limitações

Próximos planos

Leituras relacionadas

1 comentários

Comentários do Hacker News