- Automatiza o navegador convertendo comandos em linguagem natural em interações no navegador (código Selenium)
- Tem como objetivo automatizar tarefas simples, repetitivas, demoradas e que exigem pouco esforço cognitivo, em nome do usuário
- Foi projetado para facilitar a automação de fluxos de trabalho na web e executá-los no navegador, oferecendo um mecanismo que converte consultas em linguagem natural em código Selenium
Principais recursos
- Processamento de linguagem natural: entende instruções em linguagem natural para realizar interações no navegador
- Integração com Selenium: integra-se de forma fluida ao Selenium para automatizar navegadores web
- Open source: construído com base em projetos open source como transformers e llama-index, utilizando modelos open source para garantir transparência e alinhamento com os interesses dos usuários
- Suporte a modelos locais para privacidade e controle: oferece suporte a modelos locais como
Gemma-7b, permitindo que o usuário tenha controle total do assistente de IA e preserve a privacidade
- Tecnologias avançadas de IA: usa embeddings locais (
bge-small-en-v1.5) para executar RAG e extrair as partes mais relevantes do HTML; em seguida, aproveita Few-shot learning e Chain of Thought para derivar o código Selenium mais relevante para executar a tarefa, sem precisar ajustar finamente o LLM (Nous-Hermes-2-Mixtral-8x7B-DPO) para geração de código
Primeiros passos
- É possível experimentar o LaVague em um notebook do Colab.
Roadmap
- Embora seja um projeto inicial, pode evoluir para popularizar modelos de IA transparentes e alinhados, capazes de agir na internet em nome dos usuários.
- As principais áreas de exploração incluem ajustar finamente modelos locais para que se tornem especialistas em Text2Action, melhorar a busca para usar apenas trechos de código relevantes na geração de código e oferecer suporte a outros motores de navegador (por exemplo, playwright) ou outros frameworks de automação.
Opinião do GN⁺
- O LaVague tem potencial para economizar tempo e aumentar a produtividade ao automatizar tarefas repetitivas dos usuários. Isso pode ser especialmente útil para tarefas como entrada repetitiva de dados ou preenchimento de formulários.
- Por ser desenvolvido com base em open source, oferece transparência e possibilidade de modificação tanto para usuários quanto para desenvolvedores. Isso pode ajudar a promover inovação orientada pela comunidade e a construir confiança dos usuários.
- A tecnologia de automação abordada pelo LaVague já se integra a ferramentas familiares para muitas empresas e desenvolvedores, como o Selenium, o que facilita sua adoção em fluxos de trabalho existentes.
- A automação com IA exige alta precisão e eficiência. Técnicas como Few-shot learning e Chain of Thought, oferecidas pelo LaVague, podem ajudar a minimizar erros ao lidar com tarefas complexas.
- A adoção dessas tecnologias exige atenção à privacidade do usuário e à segurança dos dados. O suporte a modelos locais pode ser uma forma de mitigar essas preocupações, mas os usuários ainda devem monitorar com cuidado como seus dados estão sendo processados.
2 comentários
Parece bem legal poder testar isso em ambiente de notebook. Ainda bem que a integração com o Playwright está no roadmap,,
Opiniões no Hacker News
Opinião sobre tentar novas ferramentas
Experiência ao esvaziar o Google Photos
Opinião sobre ferramentas de automação de navegador como o TaxyAI
Experiência com testes em Selenium
Preocupação com ignorar instruções de automação em sites
Opinião sobre o impacto potencial da automação
Interesse na compatibilidade com modelos
Impacto sobre votação online
Importância de benchmarks que mostrem taxa de sucesso
Interesse no projeto