Navegação na web com GPT-4 Vision e Vimium
(github.com/ishan0102)vimGPT: oferecendo um playground para modelos multimodais
Visão geral
- O uso de grandes modelos de linguagem (LLMs) para navegação na web está sendo explorado por várias startups e projetos open source.
- Houve interesse em um projeto que experimenta se a navegação na web é possível usando apenas as capacidades visuais do GPT-4V.
- Há uma dificuldade para o modelo identificar o alvo que deseja clicar sem um DOM textual do navegador.
Configuração
- Instalar os requisitos de Python:
pip install -r requirements.txt - É necessário baixar o Vimium localmente e carregar manualmente a extensão ao executar o Playwright:
./setup.sh
Ideia
- Quando for lançado, está sendo considerado o uso da Assistant API para busca automática de contexto.
- Há a possibilidade de desenvolver uma versão especial do Vimium que sobreponha elementos de forma seletiva com base no contexto.
- O problema de falha de reconhecimento do modelo em baixa resolução pode ser melhorado com o uso de imagens em alta resolução.
- É possível ajustar finamente o LLaVa ou o CogVLM para torná-lo mais rápido e barato.
- Há planos de usar a Vision API se ela passar a oferecer suporte ao modo JSON, mas por enquanto é necessário depender de um método de prompting mais rudimentar.
- Está sendo considerada uma forma em que a Vision API retorna instruções gerais, e isso é formalizado por uma API em modo JSON.
- Também está sendo considerada a adição de conversão de fala para texto com Whisper ou outro modelo para eliminar a entrada de texto e aumentar a acessibilidade.
- Há o desejo de fazer isso funcionar no navegador do próprio usuário, e não em um navegador artificial.
- São fornecidos frames conforme a ativação do Vimium, caso o modelo não consiga ver o que está sob os retângulos amarelos.
- Além da entrada por imagem, é fornecida como entrada a árvore de acessibilidade do Chrome para apresentar o layout de elementos interativos que podem ser mapeados para bindings do Vimium.
Materiais de referência
Opinião do GN⁺
O ponto mais importante deste artigo é a tentativa de revolucionar a experiência de navegação na web usando grandes modelos de linguagem como o GPT-4V. Oferecer, por meio da extensão Vimium, uma forma de o modelo interagir com a web é uma abordagem interessante, com potencial para melhorar a acessibilidade e a interatividade na web. Para entusiastas de tecnologia e desenvolvedores de software, esse tipo de experimento oferece insights sobre o futuro da inteligência artificial e a evolução das interfaces web, tornando o tema bastante atraente.
1 comentários
Comentários no Hacker News
É difícil acreditar que isso agora seja possível:
navigate,type,clickedone.navigatedeve ir para a URL especificada, etypeeclickprocessam uma string como entrada.donecomo chave, e a resposta deve ser obrigatoriamente apenas em formato JSON.No meu trabalho, há muita gente copiando dados manualmente por causa da enorme dívida técnica:
Saudação do criador:
Opinião de que o vim é uma "implementação" adequada para o ChatGPT:
Discussão sobre tarefas de screenshot e navegação usando GPT-4 Vision:
Relato de experimento pela interface do ChatGPT:
Pergunta sobre o impacto dessas ferramentas em rastreamento na web ou publicidade:
Dá para criar um piloto automático para o navegador:
Opinião positiva de que o GPT-4V trouxe uma nova perspectiva para web scraping:
Relato de uso real: