2 pontos por GN⁺ 2024-07-11 | 1 comentários | Compartilhar no WhatsApp

Modelos de linguagem com visão não lidam bem com tarefas visuais

Resumo

  • Modelos de linguagem com visão (VLMs) apresentam alto desempenho em aplicações de processamento de imagem e texto, mas falham em 7 tarefas visuais que são muito fáceis para humanos.
  • Este estudo mostra que as capacidades de percepção visual dos VLMs são limitadas.

Task 1: Contagem de interseções de linhas

  • Imagem: geração de 150 gráficos de linhas 2D com dois segmentos de reta que se cruzam
  • Pergunta: "Quantas vezes as linhas azul e vermelha se cruzam?"
  • Resultado: os modelos não conseguem contar corretamente as interseções

Task 2: Dois círculos

  • Imagem: geração de 672 imagens contendo dois círculos com tamanhos, distâncias e orientações variados
  • Pergunta: "Os dois círculos estão em contato?" ou "Os dois círculos se sobrepõem?"
  • Resultado: os modelos falham de forma consistente em pequenas distâncias

Task 3: Letras circuladas

  • Imagem: geração de imagens em que cada letra de uma palavra é cercada por um círculo vermelho
  • Pergunta: "Qual letra está cercada por um círculo?"
  • Resultado: os modelos tendem a prever letras adjacentes

Task 4: Contagem de formas sobrepostas

  • Imagem: geração de imagens com círculos e pentágonos sobrepostos, como no logotipo olímpico
  • Pergunta: "Quantas formas há na imagem?"
  • Resultado: os modelos não conseguem contar corretamente o número de formas

Task 5: Contagem de retângulos aninhados

  • Imagem: geração de imagens contendo retângulos aninhados
  • Pergunta: "Quantos retângulos há no total na imagem?"
  • Resultado: os modelos não conseguem contar corretamente o número de retângulos aninhados

Task 6: Contagem de linhas e colunas em grades

  • Imagem: geração de imagens contendo grades com texto e grades vazias
  • Pergunta: "Quantas linhas e colunas há na grade?"
  • Resultado: o desempenho melhorou em grades com texto, mas os modelos falham em grades vazias

Task 7: Rastreamento de caminho de uma única cor

  • Imagem: geração de imagens contendo mapas de linhas de metrô
  • Pergunta: "Quantos caminhos de uma única cor existem de A até C?"
  • Resultado: os modelos não conseguem contar corretamente o número de caminhos

Resumo do GN⁺

  • Este estudo mostra que as capacidades de percepção visual dos modelos de linguagem com visão (VLMs) são limitadas.
  • Os VLMs falham de forma consistente em tarefas visuais que são fáceis para humanos.
  • Isso sugere que são necessárias mais pesquisas para melhorar as capacidades de percepção visual dos VLMs.
  • Outros projetos com funções semelhantes incluem o GPT-4 da OpenAI e o Gemini-1.5 Pro do Google.

1 comentários

 
GN⁺ 2024-07-11
Comentários do Hacker News
  • Acho que a conclusão está errada

    • A analogia com a "visão de uma pessoa míope" é exagerada
    • Há exemplos de o GPT-4v executar bem tarefas visuais detalhadas
    • Grandes modelos de GenAI têm bom desempenho quando treinados com muitos dados
    • As evidências apresentadas pelos autores são insuficientes
  • Compartilhamento de experiência com Captcha

    • O GPT-4o ajudou a resolver um problema com a porta da garagem
    • Identificou uma instalação incorreta na foto, mas não percebeu uma porca faltando
  • Problemas dos VLMs para contar objetos e reconhecer relações espaciais

    • O Set of Marks da Microsoft pode ajudar
    • Fornecer rótulos que se possa "dizer" contribui para melhorar o desempenho
  • Críticas ao desempenho dos modelos SOTA atuais

    • Falham em tarefas fáceis para humanos
    • Ex.: contar quantas vezes linhas se cruzam, detectar sobreposição de círculos etc.
  • Opinião sobre a forma como os VLMs processam imagens

    • Humanos conseguem focar em áreas de interesse, mas os VLMs processam a imagem inteira na mesma resolução
    • Curiosidade sobre como treinar modelos com dados de interação
  • Acho que o título "Vision language models are blind" é exagerado

    • A forma como os VLMs processam entradas de imagem é diferente
    • Podem perder detalhes em baixa resolução
    • Como exemplo, a resposta do Sonnet 3.5 estava em geral correta, mas tinha alguns erros
  • Entendimento sobre como os modelos interpretam dados de entrada

    • LLMs e modelos multimodais carecem de capacidade de raciocínio concreto
    • Ex.: o ChatGPT resume bem textos, mas conta mal o número de palavras
    • O problema central no desenvolvimento de AGI é combinar inteligência de alto nível com inteligência de baixo nível
  • Opinião sobre o nível do GPT-4

    • Citação da fala de Mira Murati de que o GPT-4 está no nível do ensino médio
  • A IA tem dificuldade para ler imagens de cronogramas escolares

    • Quando se pergunta sobre datas específicas, acerta algumas, mas deixa passar outras ou inventa novas datas
    • Remover ruído melhora um pouco o desempenho, mas ainda não é confiável