- A OpenAI apresentou o Operator, um agente de IA capaz de navegar pela web e executar tarefas de forma independente
- Ele usa seu próprio navegador para visualizar páginas da web e interagir por meio de digitação, cliques e rolagem
- Como está em fase de research preview, ainda há limitações, e ele deve evoluir com base no feedback dos usuários
- É uma das primeiras IAs capazes de executar tarefas de forma independente: o usuário descreve o que quer fazer, e o agente realiza a ação
- Ele busca economizar tempo ao lidar com tarefas repetitivas no navegador, como preencher formulários, pedir compras de supermercado e criar memes
- Está sendo disponibilizado primeiro para usuários Pro nos Estados Unidos, com possibilidade futura de expansão para Plus, Team e Enterprise, além de integração ao ChatGPT
Como o Operator funciona
- É baseado em um novo modelo chamado Computer-Using Agent (CUA)
- Combina os recursos de visão do GPT-4o com um método avançado de raciocínio baseado em aprendizado por reforço, permitindo interações com GUI (botões, menus, campos de texto etc.)
- Consegue “ver” a tela do navegador por meio de capturas de tela e executar tarefas manipulando mouse e teclado
- Quando encontra erros ou obstáculos durante uma tarefa, adota uma abordagem colaborativa: usa raciocínio de autocorreção ou, se necessário, transfere o controle ao usuário
- Tem mostrado alto desempenho em benchmarks de uso de navegador como WebArena e WebVoyager; mais detalhes estão disponíveis no blog de pesquisa
Como usar
- Basta descrever brevemente a tarefa desejada, e o Operator a executa automaticamente
- A qualquer momento, o usuário pode retomar manualmente o controle do navegador
- Em etapas sensíveis, como login, inserção de dados de pagamento e resolução de CAPTCHA, o usuário precisa agir diretamente
- É possível refletir preferências e gostos do usuário por meio de configurações por site ou para todos os sites
- Também é possível salvar prompts favoritos para executar rapidamente tarefas frequentes, como refazer pedidos de supermercado no Instacart
- Várias tarefas podem ser processadas ao mesmo tempo, como em várias abas, com sessões de conversa separadas para executar atividades diferentes em paralelo
Ecossistema e usuários
- O Operator faz a IA evoluir de uma simples ferramenta para um participante ativo do ecossistema digital
- A OpenAI está colaborando com empresas como DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack e Uber para refletir necessidades reais dos usuários e padrões do setor
- No setor público, também está sendo avaliada a possibilidade de aplicação para melhorar eficiência e acessibilidade; por exemplo, a City of Stockton explora formas de uso em serviços administrativos municipais
- Daniel Danker, Chief Product Officer da Instacart, mencionou uma avaliação positiva sobre a facilidade do processo de pedidos com o Operator
Segurança e privacidade
- O Operator prioriza a segurança e adota três camadas de proteção
- Controle liderado pelo usuário: ao inserir informações sensíveis, como login e pagamento, o Operator solicita takeover para que o usuário digite diretamente os dados
- Confirmação antes de ações importantes: antes de tarefas críticas, como enviar um pedido ou um e-mail, ele pede aprovação do usuário
- Restrição de tarefas: foi treinado para recusar tarefas de alta sensibilidade, como operações bancárias ou decisões relacionadas a emprego
- Ao acessar sites sensíveis, o usuário pode monitorar diretamente as ações do Operator por meio do modo Watch
- Há recursos de gerenciamento de privacidade de dados
- Se a opção ‘Improve the model for everyone’ for desativada, os dados do Operator também não serão usados no treinamento do modelo
- Na seção Privacy das configurações, é possível apagar dados de navegação, sair de todos os sites e excluir o histórico de conversas com facilidade
- Também foram aplicados mecanismos de defesa para proteger o Operator contra sites maliciosos
- Ele foi projetado para detectar e ignorar prompts ocultos, código malicioso e tentativas de phishing
- Um modelo de monitoramento dedicado observa comportamentos suspeitos em tempo real e pode interromper a tarefa quando necessário
- Novas ameaças identificadas por automação e revisão humana levam à atualização rápida das proteções
- Para evitar o uso indevido da tecnologia com fins nocivos, o Operator recusa determinadas solicitações, e violações repetidas de política podem resultar em avisos ou bloqueio de acesso
- Como ainda está em fase de research preview, não é perfeito e deve continuar sendo aprimorado com feedback de uso no mundo real
Limitações
- O Operator ainda está em estágio inicial e pode ter dificuldades com interfaces complexas, como criação de apresentações de slides e gerenciamento de calendário
- O feedback dos usuários será um recurso importante para melhorar precisão, estabilidade e segurança
Próximos planos
- Está previsto o fornecimento de uma API do CUA para criar a base necessária para que desenvolvedores construam seus próprios agentes
- A OpenAI pretende aprimorar o Operator para lidar melhor com tarefas longas e fluxos de trabalho complexos
- Além dos usuários Pro, a expansão gradual para Plus, Team e Enterprise está planejada e, no longo prazo, a função deve ser integrada ao ChatGPT para oferecer execução de tarefas em tempo real e de forma assíncrona
1 comentários
Comentários do Hacker News
Muitas pessoas acham que empresas como a OpenAI não estão gastando dinheiro para oferecer assistentes pessoais, mas sim treinando IA para reduzir custos de mão de obra no futuro
As opiniões sobre o lançamento do OpenAI Operator são mistas
O Operator é semelhante à demonstração Computer Use da Claude de alguns meses atrás, e apresenta uma arquitetura que exige executar uma VM, além de uma tendência a imprecisões
Em um slide sobre os riscos de segurança e mitigação do Operator, aparece a expressão "usuário desalinhado"
Há opiniões críticas sobre investir 50 bilhões de dólares em tarefas como criar memes
CogAgent: uma alternativa open source da China
Existe a expectativa de que, no futuro, quando os produtos e modelos melhorarem significativamente, será possível conversar com o ChatGPT para cuidar de tarefas tediosas da web, como reservar jantar, comprar passagens aéreas e fazer compras de supermercado
Há a opinião de que empresas como Instacart ou Doordash podem abrir uma nova direção de UI por meio de otimização de marketing para LLMs
Há a opinião de que é estranho que um "agente" veja pixels e use mouse e teclado
Há uma forte crença de que é necessário usar Open APIs para agentes