Comparação, com dados reais de rastreamento ocular, de quão bem os VLMs conseguem prever o olhar do usuário
(arxiv.org)Olá. Como sempre tem gente que posta as outras notícias mais rápido do que eu, o Show GN acabou virando meu primeiro post por acaso.
Fiquei curioso para saber se seria possível prever com VLM para onde o usuário olha em uma UI, então fiz o experimento eu mesmo e organizei os resultados em um artigo.
Usando um conjunto de dados chamado UEyes, comparei os resultados de predição de olhar dos VLMs com dados reais de rastreamento ocular.
Também entrei em contato com o primeiro autor do UEyes (cs.HC) 1 para pedir endorsement no arXiv, e ele aceitou gentilmente.
paper: https://arxiv.org/abs/2604.26352
github: https://github.com/dunward/uigaze
Ainda não há comentários.