Tarsier - utilitário de visão para agentes de interação web

xguru · 2023-11-16T10:03:01+09:00

Perguntas que surgem ao automatizar interações na web com GPT-4(V) Como mapear a resposta do LLM para elementos da web? Como marcar a página para que o LLM entenda melhor seu espaço de trabalho? Como fornecer uma “captura de tela” para um LLM somente de texto? Tarsier é um utilitário de visão para agentes web multimodais Funciona anexando visualmente “tags” aos elementos interativos da página por meio de IDs como [1] Com isso, fornece um mapeamento entre elementos e IDs para que o GPT-4(V) possa executar tarefas Elementos interativos são definidos como botões, links ou campos de entrada exibidos na página Pode fornecer uma representação textual da página Ou seja, permite interações mais profundas mesmo em LLMs que não são multimodais Isso é importante considerando os problemas de desempenho dos modelos atuais de visão e linguagem Também fornece um utilitário de OCR que converte capturas de tela de páginas em uma string com estrutura de espaços em branco que LLMs sem visão conseguem entender Serviços de OCR compatíveis Atualmente, apenas o Google Cloud Vision é compatível, com suporte ao Amazon Textract e ao Microsoft Azure Computer Vision planejado

(github.com/reworkd)

6 pontos por xguru 2023-11-16 | Ainda não há comentários. | Compartilhar no WhatsApp

Perguntas que surgem ao automatizar interações na web com GPT-4(V)
- Como mapear a resposta do LLM para elementos da web?
- Como marcar a página para que o LLM entenda melhor seu espaço de trabalho?
- Como fornecer uma “captura de tela” para um LLM somente de texto?
Tarsier é um utilitário de visão para agentes web multimodais
- Funciona anexando visualmente “tags” aos elementos interativos da página por meio de IDs como [1]
- Com isso, fornece um mapeamento entre elementos e IDs para que o GPT-4(V) possa executar tarefas
- Elementos interativos são definidos como botões, links ou campos de entrada exibidos na página
- Pode fornecer uma representação textual da página
  - Ou seja, permite interações mais profundas mesmo em LLMs que não são multimodais
  - Isso é importante considerando os problemas de desempenho dos modelos atuais de visão e linguagem
- Também fornece um utilitário de OCR que converte capturas de tela de páginas em uma string com estrutura de espaços em branco que LLMs sem visão conseguem entender
Serviços de OCR compatíveis
- Atualmente, apenas o Google Cloud Vision é compatível, com suporte ao Amazon Textract e ao Microsoft Azure Computer Vision planejado

Tarsier - utilitário de visão para agentes de interação web

Leituras relacionadas

Ainda não há comentários.