Modelos de linguagem com visão não lidam bem com tarefas visuais
Resumo
- Modelos de linguagem com visão (VLMs) apresentam alto desempenho em aplicações de processamento de imagem e texto, mas falham em 7 tarefas visuais que são muito fáceis para humanos.
- Este estudo mostra que as capacidades de percepção visual dos VLMs são limitadas.
Task 1: Contagem de interseções de linhas
- Imagem: geração de 150 gráficos de linhas 2D com dois segmentos de reta que se cruzam
- Pergunta: "Quantas vezes as linhas azul e vermelha se cruzam?"
- Resultado: os modelos não conseguem contar corretamente as interseções
Task 2: Dois círculos
- Imagem: geração de 672 imagens contendo dois círculos com tamanhos, distâncias e orientações variados
- Pergunta: "Os dois círculos estão em contato?" ou "Os dois círculos se sobrepõem?"
- Resultado: os modelos falham de forma consistente em pequenas distâncias
Task 3: Letras circuladas
- Imagem: geração de imagens em que cada letra de uma palavra é cercada por um círculo vermelho
- Pergunta: "Qual letra está cercada por um círculo?"
- Resultado: os modelos tendem a prever letras adjacentes
Task 4: Contagem de formas sobrepostas
- Imagem: geração de imagens com círculos e pentágonos sobrepostos, como no logotipo olímpico
- Pergunta: "Quantas formas há na imagem?"
- Resultado: os modelos não conseguem contar corretamente o número de formas
Task 5: Contagem de retângulos aninhados
- Imagem: geração de imagens contendo retângulos aninhados
- Pergunta: "Quantos retângulos há no total na imagem?"
- Resultado: os modelos não conseguem contar corretamente o número de retângulos aninhados
Task 6: Contagem de linhas e colunas em grades
- Imagem: geração de imagens contendo grades com texto e grades vazias
- Pergunta: "Quantas linhas e colunas há na grade?"
- Resultado: o desempenho melhorou em grades com texto, mas os modelos falham em grades vazias
Task 7: Rastreamento de caminho de uma única cor
- Imagem: geração de imagens contendo mapas de linhas de metrô
- Pergunta: "Quantos caminhos de uma única cor existem de A até C?"
- Resultado: os modelos não conseguem contar corretamente o número de caminhos
Resumo do GN⁺
- Este estudo mostra que as capacidades de percepção visual dos modelos de linguagem com visão (VLMs) são limitadas.
- Os VLMs falham de forma consistente em tarefas visuais que são fáceis para humanos.
- Isso sugere que são necessárias mais pesquisas para melhorar as capacidades de percepção visual dos VLMs.
- Outros projetos com funções semelhantes incluem o GPT-4 da OpenAI e o Gemini-1.5 Pro do Google.
1 comentários
Comentários do Hacker News
Acho que a conclusão está errada
Compartilhamento de experiência com Captcha
Problemas dos VLMs para contar objetos e reconhecer relações espaciais
Críticas ao desempenho dos modelos SOTA atuais
Opinião sobre a forma como os VLMs processam imagens
Acho que o título "Vision language models are blind" é exagerado
Entendimento sobre como os modelos interpretam dados de entrada
Opinião sobre o nível do GPT-4
A IA tem dificuldade para ler imagens de cronogramas escolares