- Ferramenta que usa LLM e visão computacional para automatizar fluxos de trabalho baseados em navegador
- As soluções de automação tradicionais dependiam de parsing de DOM e interações baseadas em XPath, que podem quebrar facilmente quando o layout do site muda; o Skyvern, porém, analisa em tempo real os itens na viewport e cria um plano de interação para executar a tarefa
- Vantagens:
- Pode funcionar até em sites novos e mapear elementos visuais para as ações necessárias sem código personalizado.
- É resiliente a mudanças no layout do site e não usa XPath ou seletores predefinidos.
- Um único fluxo de trabalho pode ser aplicado a vários sites, e o sistema consegue resolver problemas por meio de interação mesmo em situações complexas.
Como funciona
- Sistema de agentes: o Skyvern usa vários agentes para entender sites, planejar tarefas e executá-las.
- Agente de elementos interativos: analisa o HTML do site e extrai elementos com os quais é possível interagir.
- Agente de navegação: planeja a navegação necessária para concluir a tarefa.
- Agente de extração de dados: extrai dados do site.
- Agente de senha: preenche formulários de senha.
- Agente de 2FA: preenche formulários de 2FA.
- Agente de preenchimento automático dinâmico: preenche formulários com autocompletar dinâmico.
Skyvern Cloud
- Versão em nuvem: a versão gerenciada em nuvem do Skyvern permite automatizar fluxos de trabalho em larga escala executando várias instâncias do Skyvern em paralelo sem precisar gerenciar infraestrutura. Além disso, inclui mecanismos para evitar detecção de bots, rede de proxies e recursos para resolver CAPTCHA.
Tarefas e fluxos de trabalho no Skyvern
- Tarefa: bloco básico de construção do Skyvern, que instrui a navegar em sites para atingir um objetivo específico.
- Fluxo de trabalho: conecta várias tarefas e as organiza como uma única unidade de trabalho. Por exemplo, é possível automatizar o processo de compra de produtos em uma loja de e-commerce.
1 comentários
Comentários do Hacker News
Há interesse no anúncio do recurso de "uso do computador" do Claude, da Anthropic, e perguntas sobre o diferencial do Skyvern
Menciona-se que recentemente surgiram muitos wrappers de IA usando Playwright
Há preocupações, no vídeo de exemplo do Skyvern, com a grande quantidade de prompts e com o uso de dados em texto simples
Considera-se que a frequência de redesigns de sites está sendo exagerada
Menciona-se o risco de startups baseadas em LLMs de terceiros
Há parabéns pela adoção da licença open source AGPL no Skyvern e perguntas sobre planos de integração com LangChain
Explica-se o conceito de "automação de navegador"
Levantam-se perguntas sobre casos de uso e consequências de longo prazo de ferramentas de automação de workflow com LLM
Há preocupação sobre se o Skyvern está apenas adicionando outra camada de complexidade sobre processos já complexos
Há uma pergunta sobre alguém já ter executado o Skyvern na modal.com
Há uma pergunta sobre o desempenho no WebArena e no VisualWebArena
Há uma pergunta sobre a possibilidade de a Cloudflare bloquear o Skyvern
Há uma pergunta sobre experiências de uso do Skyvern em sites de companhias aéreas