6 pontos por xguru 2023-11-16 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Perguntas que surgem ao automatizar interações na web com GPT-4(V)
    • Como mapear a resposta do LLM para elementos da web?
    • Como marcar a página para que o LLM entenda melhor seu espaço de trabalho?
    • Como fornecer uma “captura de tela” para um LLM somente de texto?
  • Tarsier é um utilitário de visão para agentes web multimodais
    • Funciona anexando visualmente “tags” aos elementos interativos da página por meio de IDs como [1]
    • Com isso, fornece um mapeamento entre elementos e IDs para que o GPT-4(V) possa executar tarefas
    • Elementos interativos são definidos como botões, links ou campos de entrada exibidos na página
    • Pode fornecer uma representação textual da página
      • Ou seja, permite interações mais profundas mesmo em LLMs que não são multimodais
      • Isso é importante considerando os problemas de desempenho dos modelos atuais de visão e linguagem
    • Também fornece um utilitário de OCR que converte capturas de tela de páginas em uma string com estrutura de espaços em branco que LLMs sem visão conseguem entender
  • Serviços de OCR compatíveis
    • Atualmente, apenas o Google Cloud Vision é compatível, com suporte ao Amazon Textract e ao Microsoft Azure Computer Vision planejado

Ainda não há comentários.

Ainda não há comentários.