6 pontos por GN⁺ 2025-01-24 | 1 comentários | Compartilhar no WhatsApp
  • A OpenAI apresentou o Operator, um agente de IA capaz de navegar pela web e executar tarefas de forma independente
    • Ele usa seu próprio navegador para visualizar páginas da web e interagir por meio de digitação, cliques e rolagem
  • Como está em fase de research preview, ainda há limitações, e ele deve evoluir com base no feedback dos usuários
  • É uma das primeiras IAs capazes de executar tarefas de forma independente: o usuário descreve o que quer fazer, e o agente realiza a ação
  • Ele busca economizar tempo ao lidar com tarefas repetitivas no navegador, como preencher formulários, pedir compras de supermercado e criar memes
  • Está sendo disponibilizado primeiro para usuários Pro nos Estados Unidos, com possibilidade futura de expansão para Plus, Team e Enterprise, além de integração ao ChatGPT

Como o Operator funciona

  • É baseado em um novo modelo chamado Computer-Using Agent (CUA)
  • Combina os recursos de visão do GPT-4o com um método avançado de raciocínio baseado em aprendizado por reforço, permitindo interações com GUI (botões, menus, campos de texto etc.)
  • Consegue “ver” a tela do navegador por meio de capturas de tela e executar tarefas manipulando mouse e teclado
  • Quando encontra erros ou obstáculos durante uma tarefa, adota uma abordagem colaborativa: usa raciocínio de autocorreção ou, se necessário, transfere o controle ao usuário
  • Tem mostrado alto desempenho em benchmarks de uso de navegador como WebArena e WebVoyager; mais detalhes estão disponíveis no blog de pesquisa

Como usar

  • Basta descrever brevemente a tarefa desejada, e o Operator a executa automaticamente
  • A qualquer momento, o usuário pode retomar manualmente o controle do navegador
  • Em etapas sensíveis, como login, inserção de dados de pagamento e resolução de CAPTCHA, o usuário precisa agir diretamente
  • É possível refletir preferências e gostos do usuário por meio de configurações por site ou para todos os sites
  • Também é possível salvar prompts favoritos para executar rapidamente tarefas frequentes, como refazer pedidos de supermercado no Instacart
  • Várias tarefas podem ser processadas ao mesmo tempo, como em várias abas, com sessões de conversa separadas para executar atividades diferentes em paralelo

Ecossistema e usuários

  • O Operator faz a IA evoluir de uma simples ferramenta para um participante ativo do ecossistema digital
  • A OpenAI está colaborando com empresas como DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack e Uber para refletir necessidades reais dos usuários e padrões do setor
  • No setor público, também está sendo avaliada a possibilidade de aplicação para melhorar eficiência e acessibilidade; por exemplo, a City of Stockton explora formas de uso em serviços administrativos municipais
  • Daniel Danker, Chief Product Officer da Instacart, mencionou uma avaliação positiva sobre a facilidade do processo de pedidos com o Operator

Segurança e privacidade

  • O Operator prioriza a segurança e adota três camadas de proteção
    • Controle liderado pelo usuário: ao inserir informações sensíveis, como login e pagamento, o Operator solicita takeover para que o usuário digite diretamente os dados
    • Confirmação antes de ações importantes: antes de tarefas críticas, como enviar um pedido ou um e-mail, ele pede aprovação do usuário
    • Restrição de tarefas: foi treinado para recusar tarefas de alta sensibilidade, como operações bancárias ou decisões relacionadas a emprego
    • Ao acessar sites sensíveis, o usuário pode monitorar diretamente as ações do Operator por meio do modo Watch
  • Há recursos de gerenciamento de privacidade de dados
    • Se a opção ‘Improve the model for everyone’ for desativada, os dados do Operator também não serão usados no treinamento do modelo
    • Na seção Privacy das configurações, é possível apagar dados de navegação, sair de todos os sites e excluir o histórico de conversas com facilidade
  • Também foram aplicados mecanismos de defesa para proteger o Operator contra sites maliciosos
    • Ele foi projetado para detectar e ignorar prompts ocultos, código malicioso e tentativas de phishing
    • Um modelo de monitoramento dedicado observa comportamentos suspeitos em tempo real e pode interromper a tarefa quando necessário
    • Novas ameaças identificadas por automação e revisão humana levam à atualização rápida das proteções
  • Para evitar o uso indevido da tecnologia com fins nocivos, o Operator recusa determinadas solicitações, e violações repetidas de política podem resultar em avisos ou bloqueio de acesso
  • Como ainda está em fase de research preview, não é perfeito e deve continuar sendo aprimorado com feedback de uso no mundo real

Limitações

  • O Operator ainda está em estágio inicial e pode ter dificuldades com interfaces complexas, como criação de apresentações de slides e gerenciamento de calendário
  • O feedback dos usuários será um recurso importante para melhorar precisão, estabilidade e segurança

Próximos planos

  • Está previsto o fornecimento de uma API do CUA para criar a base necessária para que desenvolvedores construam seus próprios agentes
  • A OpenAI pretende aprimorar o Operator para lidar melhor com tarefas longas e fluxos de trabalho complexos
  • Além dos usuários Pro, a expansão gradual para Plus, Team e Enterprise está planejada e, no longo prazo, a função deve ser integrada ao ChatGPT para oferecer execução de tarefas em tempo real e de forma assíncrona

1 comentários

 
GN⁺ 2025-01-24
Comentários do Hacker News
  • Muitas pessoas acham que empresas como a OpenAI não estão gastando dinheiro para oferecer assistentes pessoais, mas sim treinando IA para reduzir custos de mão de obra no futuro

    • Quando a IA se tornar útil como assistente pessoal, essa funcionalidade será lançada por um preço que a pessoa média não poderá pagar
  • As opiniões sobre o lançamento do OpenAI Operator são mistas

    • Há visões céticas sobre as capacidades atuais, o custo e o potencial de expansão excessiva, mas também visões positivas sobre a automação de tarefas e a possibilidade de melhoria ao longo do tempo
    • Questões éticas, privacidade e impacto na indústria também estão sendo discutidos
    • No geral, há um otimismo cauteloso, reconhecendo os desafios e o potencial de melhoria
  • O Operator é semelhante à demonstração Computer Use da Claude de alguns meses atrás, e apresenta uma arquitetura que exige executar uma VM, além de uma tendência a imprecisões

    • A implementação de Computer Use da Claude não causou grande repercussão na indústria de agentes de IA após o anúncio
  • Em um slide sobre os riscos de segurança e mitigação do Operator, aparece a expressão "usuário desalinhado"

    • Há quem queira ver mais exemplos do que a OpenAI considera um usuário "desalinhado"
  • Há opiniões críticas sobre investir 50 bilhões de dólares em tarefas como criar memes

    • Também foi expressado pesar por não investir em tornar a Terra um lugar melhor para se viver para a próxima geração
  • CogAgent: uma alternativa open source da China

    • São fornecidos links para o artigo, código e modelo
  • Existe a expectativa de que, no futuro, quando os produtos e modelos melhorarem significativamente, será possível conversar com o ChatGPT para cuidar de tarefas tediosas da web, como reservar jantar, comprar passagens aéreas e fazer compras de supermercado

    • Há grande expectativa por esse tipo de funcionalidade
  • Há a opinião de que empresas como Instacart ou Doordash podem abrir uma nova direção de UI por meio de otimização de marketing para LLMs

    • Por exemplo, se receber a instrução de encontrar ovos nutritivos, o agente pode consultar a tabela nutricional para tomar uma decisão
  • Há a opinião de que é estranho que um "agente" veja pixels e use mouse e teclado

    • Imagina-se um padrão em que apps e serviços exponham um conjunto de tarefas pré-aprovadas que possam ser executadas em nome do usuário
    • É proposto o conceito de uma "app store" que ofereça a capacidade de adicionar ou revogar permissões do usuário
  • Há uma forte crença de que é necessário usar Open APIs para agentes

    • Argumenta-se que o OpenAPI é o padrão de especificação perfeito para viabilizar um mundo aberto e a internet para agentes
    • Quando lançou o GPT pela primeira vez, a OpenAI se baseava em Open APIs, mas está se afastando cada vez mais disso
    • Isso parece uma intenção de controlar o mercado e de não querer se basear em padrões abertos
    • Isso é muito lamentável