3 pontos por GN⁺ 2025-03-13 | 1 comentários | Compartilhar no WhatsApp
  • Entre 10.000 fotos armazenadas no blog, cerca de 9.000 estavam sem alt-text
  • Para resolver isso, foram testados 12 LLMs (modelos de linguagem de grande porte); 10 rodando localmente e 2 modelos em nuvem (GPT-4, Claude 3.5 Sonnet)
  • Escrever alt-text é uma tarefa importante para melhorar a acessibilidade de pessoas com deficiência visual, mas fazer isso manualmente gera uma carga grande
  • O objetivo foi testar a precisão dos modelos de IA na geração de alt-text e verificar se modelos locais podem ser uma alternativa prática

Modelos de IA testados

  • Modelos locais (10)
    • 9 modelos rodaram em um MacBook Pro (32GB de RAM)
    • 1 modelo rodou em um equipamento mais potente de um amigo
  • Modelos em nuvem (2)
    • GPT-4o (OpenAI)
    • Claude 3.5 Sonnet (Anthropic)

Principais comparações de desempenho

  • Modelos em nuvem (GPT-4o, Claude 3.5 Sonnet)

    • Geraram os alt-texts mais precisos
    • Têm excelente nível de detalhe e capturam bem até a atmosfera da imagem
    • Nota de avaliação: A
  • Modelos locais com melhor desempenho

    • Llama 3.2 Vision 11B
      • Bom reconhecimento de objetos e boa compreensão de contexto
      • Nota de avaliação: B
    • Llama 3.2 Vision 90B
      • Mostrou precisão um pouco maior que o modelo 11B, mas exige mais RAM para rodar
      • Nota de avaliação: B
    • MiniCPM-V
      • Mesmo sendo um modelo relativamente leve, apresentou desempenho forte
      • Nota de avaliação: B
  • Modelos com desempenho fraco

    • Modelos mais antigos, como VIT-GPT2, GIT e BLIP, tendem a reconhecer objetos de forma imprecisa e gerar frases repetitivas
    • Nota de avaliação: D~F

Como os modelos de IA analisam imagens

  • Codificação visual (Vision Encoding)
    • A imagem é dividida em pequenos patches, que depois são convertidos em dados numéricos (embeddings)
    • O modelo filtra as partes mais relevantes (por exemplo, os objetos principais) e remove elementos menos importantes (por exemplo, um fundo simples)
  • Codificação de linguagem (Language Encoding)
    • Com base nas informações fornecidas pelo codificador visual, o modelo gera texto em linguagem natural
    • O texto é gerado na forma de descrição da imagem ou resposta a perguntas

Imagens de teste e resultados

  • Cruzamento de Shibuya (Tóquio)

    • GPT-4o, Claude: "cruzamento de Shibuya lotado de letreiros de neon e multidões" → nota A
    • LLaVA 13B: "cena de pessoas atravessando o cruzamento de Shibuya" → nota A
    • Llama 3.2 Vision 11B: "movimentada paisagem urbana noturna de Tóquio, com outdoors e multidões" → nota C
    • VIT-GPT2: "paisagem urbana noturna com prédios altos e semáforos" → nota F (impreciso)
  • Museu Isabella Stewart Gardner (Boston)

    • Claude: "sala em estilo vitoriano, lustre e molduras douradas" → nota B
    • Llama 3.2 Vision 11B: "molduras douradas e fundo decorativo" → nota A
    • BLIP-2 OPT: "sala com quadros e molduras pendurados na parede" → nota C
    • VIT-GPT2: "sala de estar com velas e um vaso diante de um espelho" → nota F (impreciso)
  • Wakeboard (Vermont, EUA)

    • GPT-4o: "duas pessoas em um barco observando um praticante de wakeboard" → nota A
    • Llama 3.2 Vision 90B: "duas pessoas em um barco assistindo ao wakeboard" → nota A
    • BLIP-2 FLAN: "alguém em um barco observando surfe" → nota C
    • VIT-GPT2: "duas pessoas em pé em um barco segurando uma prancha de surfe" → nota E (impreciso)

Resultados da avaliação

  • Modelos em nuvem (GPT-4o, Claude 3.5 Sonnet): nota A
    • Forneceram as descrições mais precisas e capturaram até a atmosfera da cena
  • Melhores modelos locais (Llama 11B, Llama 90B, MiniCPM-V): nota B
    • A precisão ainda fica um pouco abaixo dos modelos em nuvem, mas o uso prático é viável
  • Modelos mais antigos (VIT-GPT2, GIT, BLIP etc.): nota D~F
    • Apresentaram expressões repetitivas e alucinações (hallucination)

Pontos a considerar daqui para frente

Se o alt-text não for perfeito, ainda é melhor do que não ter nenhum?

  • Mesmo um alt-text de nível B pode ser melhor do que não ter nada
  • No entanto, informações imprecisas (por exemplo, adicionar objetos inexistentes) podem confundir usuários com deficiência visual

Opções para os próximos passos

  • Combinar saídas de IA
    • Combinar vários modelos para gerar a descrição mais precisa
  • Esperar por upgrades
    • Usar o melhor modelo local disponível agora e atualizar para modelos novos em 6 a 12 meses
  • Usar modelos em nuvem
    • Usar modelos em nuvem pela precisão, mas custo e privacidade de dados são questões importantes
  • Abordagem híbrida
    • Fazer uma revisão humana do alt-text gerado por IA para complementar o resultado (mas aplicar isso a 9.000 imagens não é realista)
  • No momento, a escolha mais razoável parece ser usar modelos locais e atualizar depois para modelos mais avançados

1 comentários

 
quilt8703 2025-03-14

Costumo adicionar texto alternativo às imagens que posto no Twitter e em outros lugares, e já pensei que, se passasse isso para a IA, talvez ficasse mais fácil para eu publicar meus posts. Não tenho certeza se um LLM é realmente necessário; parecia que uma tecnologia como o CLIP já seria suficiente.

Um dos motivos de eu não ter feito isso é que esse tipo de tarefa pode muito bem ser incorporado a recursos de leitores de tela, e achei que o mais certo seria eu acrescentar pelo menos um pouco mais do contexto que uma pessoa pode fornecer. Claro, o principal motivo era a preguiça mesmo.