4 pontos por GN⁺ 2024-10-25 | 1 comentários | Compartilhar no WhatsApp
  • Ferramenta que usa LLM e visão computacional para automatizar fluxos de trabalho baseados em navegador
  • As soluções de automação tradicionais dependiam de parsing de DOM e interações baseadas em XPath, que podem quebrar facilmente quando o layout do site muda; o Skyvern, porém, analisa em tempo real os itens na viewport e cria um plano de interação para executar a tarefa
  • Vantagens:
    • Pode funcionar até em sites novos e mapear elementos visuais para as ações necessárias sem código personalizado.
    • É resiliente a mudanças no layout do site e não usa XPath ou seletores predefinidos.
    • Um único fluxo de trabalho pode ser aplicado a vários sites, e o sistema consegue resolver problemas por meio de interação mesmo em situações complexas.

Como funciona

  • Sistema de agentes: o Skyvern usa vários agentes para entender sites, planejar tarefas e executá-las.
    • Agente de elementos interativos: analisa o HTML do site e extrai elementos com os quais é possível interagir.
    • Agente de navegação: planeja a navegação necessária para concluir a tarefa.
    • Agente de extração de dados: extrai dados do site.
    • Agente de senha: preenche formulários de senha.
    • Agente de 2FA: preenche formulários de 2FA.
    • Agente de preenchimento automático dinâmico: preenche formulários com autocompletar dinâmico.

Skyvern Cloud

  • Versão em nuvem: a versão gerenciada em nuvem do Skyvern permite automatizar fluxos de trabalho em larga escala executando várias instâncias do Skyvern em paralelo sem precisar gerenciar infraestrutura. Além disso, inclui mecanismos para evitar detecção de bots, rede de proxies e recursos para resolver CAPTCHA.

Tarefas e fluxos de trabalho no Skyvern

  • Tarefa: bloco básico de construção do Skyvern, que instrui a navegar em sites para atingir um objetivo específico.
  • Fluxo de trabalho: conecta várias tarefas e as organiza como uma única unidade de trabalho. Por exemplo, é possível automatizar o processo de compra de produtos em uma loja de e-commerce.

1 comentários

 
GN⁺ 2024-10-25
Comentários do Hacker News
  • Há interesse no anúncio do recurso de "uso do computador" do Claude, da Anthropic, e perguntas sobre o diferencial do Skyvern

    • Há curiosidade sobre qual é o diferencial do Skyvern em comparação com o novo recurso do Claude
  • Menciona-se que recentemente surgiram muitos wrappers de IA usando Playwright

    • Considera-se que o uso em BPA (automação de processos de negócios) é mais atraente do que em automação de testes
    • Na automação de testes, precisão e repetibilidade são importantes, mas em BPA só o resultado importa
  • Há preocupações, no vídeo de exemplo do Skyvern, com a grande quantidade de prompts e com o uso de dados em texto simples

    • Afirma-se que isso é menos técnico do que a geração de código do Playwright, mas que não há muitas pessoas capazes de gerenciar isso
    • Há preocupações de segurança com o envio, em texto simples, de credenciais de login de sites e dados de cartão de crédito
  • Considera-se que a frequência de redesigns de sites está sendo exagerada

    • Na automação com Playwright, quando o processo muda, a validação pode indicar a necessidade de atualização, mas essa opção não parece existir no Skyvern
  • Menciona-se o risco de startups baseadas em LLMs de terceiros

    • Com a participação de grandes empresas como Anthropic, OpenAI e Google, a concorrência deve ficar acirrada
  • Há parabéns pela adoção da licença open source AGPL no Skyvern e perguntas sobre planos de integração com LangChain

    • Também há curiosidade sobre as técnicas usadas para construir a lógica de raciocínio/ação do Skyvern
  • Explica-se o conceito de "automação de navegador"

    • Trata-se de criar um programa que manipula sites, de forma semelhante ao Selenium
  • Levantam-se perguntas sobre casos de uso e consequências de longo prazo de ferramentas de automação de workflow com LLM

    • Questiona-se se elas resolvem a falta de interoperabilidade entre ferramentas, se contornam medidas de segurança ou se são usadas para adiar a manutenção de ferramentas internas
  • Há preocupação sobre se o Skyvern está apenas adicionando outra camada de complexidade sobre processos já complexos

    • Considera-se que o projeto pode ser útil, mas há dúvidas sobre seus efeitos no longo prazo
  • Há uma pergunta sobre alguém já ter executado o Skyvern na modal.com

  • Há uma pergunta sobre o desempenho no WebArena e no VisualWebArena

  • Há uma pergunta sobre a possibilidade de a Cloudflare bloquear o Skyvern

  • Há uma pergunta sobre experiências de uso do Skyvern em sites de companhias aéreas

    • Sites de companhias aéreas mudam com frequência e têm fortes medidas anti-scraping