- Perguntas que surgem ao automatizar interações na web com GPT-4(V)
- Como mapear a resposta do LLM para elementos da web?
- Como marcar a página para que o LLM entenda melhor seu espaço de trabalho?
- Como fornecer uma “captura de tela” para um LLM somente de texto?
- Tarsier é um utilitário de visão para agentes web multimodais
- Funciona anexando visualmente “tags” aos elementos interativos da página por meio de IDs como [1]
- Com isso, fornece um mapeamento entre elementos e IDs para que o GPT-4(V) possa executar tarefas
- Elementos interativos são definidos como botões, links ou campos de entrada exibidos na página
- Pode fornecer uma representação textual da página
- Ou seja, permite interações mais profundas mesmo em LLMs que não são multimodais
- Isso é importante considerando os problemas de desempenho dos modelos atuais de visão e linguagem
- Também fornece um utilitário de OCR que converte capturas de tela de páginas em uma string com estrutura de espaços em branco que LLMs sem visão conseguem entender
- Serviços de OCR compatíveis
- Atualmente, apenas o Google Cloud Vision é compatível, com suporte ao Amazon Textract e ao Microsoft Azure Computer Vision planejado
Ainda não há comentários.