Comparação da geração de alt-text para imagens com LLMs locais

(dri.es)

3 pontos por GN⁺ 2025-03-13 | 1 comentários | Compartilhar no WhatsApp

Entre 10.000 fotos armazenadas no blog, cerca de 9.000 estavam sem alt-text
Para resolver isso, foram testados 12 LLMs (modelos de linguagem de grande porte); 10 rodando localmente e 2 modelos em nuvem (GPT-4, Claude 3.5 Sonnet)
Escrever alt-text é uma tarefa importante para melhorar a acessibilidade de pessoas com deficiência visual, mas fazer isso manualmente gera uma carga grande
O objetivo foi testar a precisão dos modelos de IA na geração de alt-text e verificar se modelos locais podem ser uma alternativa prática

Modelos de IA testados

Modelos locais (10)
- 9 modelos rodaram em um MacBook Pro (32GB de RAM)
- 1 modelo rodou em um equipamento mais potente de um amigo
Modelos em nuvem (2)
- GPT-4o (OpenAI)
- Claude 3.5 Sonnet (Anthropic)

Principais comparações de desempenho

Modelos em nuvem (GPT-4o, Claude 3.5 Sonnet)
- Geraram os alt-texts mais precisos
- Têm excelente nível de detalhe e capturam bem até a atmosfera da imagem
- Nota de avaliação: A
Modelos locais com melhor desempenho
Publicidade
- Llama 3.2 Vision 11B
  - Bom reconhecimento de objetos e boa compreensão de contexto
  - Nota de avaliação: B
- Llama 3.2 Vision 90B
  - Mostrou precisão um pouco maior que o modelo 11B, mas exige mais RAM para rodar
  - Nota de avaliação: B
- MiniCPM-V
  - Mesmo sendo um modelo relativamente leve, apresentou desempenho forte
  - Nota de avaliação: B
Modelos com desempenho fraco
- Modelos mais antigos, como VIT-GPT2, GIT e BLIP, tendem a reconhecer objetos de forma imprecisa e gerar frases repetitivas
- Nota de avaliação: D~F

Como os modelos de IA analisam imagens

Codificação visual (Vision Encoding)
- A imagem é dividida em pequenos patches, que depois são convertidos em dados numéricos (embeddings)
- O modelo filtra as partes mais relevantes (por exemplo, os objetos principais) e remove elementos menos importantes (por exemplo, um fundo simples)
Codificação de linguagem (Language Encoding)
- Com base nas informações fornecidas pelo codificador visual, o modelo gera texto em linguagem natural
- O texto é gerado na forma de descrição da imagem ou resposta a perguntas

Imagens de teste e resultados

Cruzamento de Shibuya (Tóquio)
- GPT-4o, Claude: "cruzamento de Shibuya lotado de letreiros de neon e multidões" → nota A
- LLaVA 13B: "cena de pessoas atravessando o cruzamento de Shibuya" → nota A
- Llama 3.2 Vision 11B: "movimentada paisagem urbana noturna de Tóquio, com outdoors e multidões" → nota C
- VIT-GPT2: "paisagem urbana noturna com prédios altos e semáforos" → nota F (impreciso)
Museu Isabella Stewart Gardner (Boston)
- Claude: "sala em estilo vitoriano, lustre e molduras douradas" → nota B
- Llama 3.2 Vision 11B: "molduras douradas e fundo decorativo" → nota A
- BLIP-2 OPT: "sala com quadros e molduras pendurados na parede" → nota C
- VIT-GPT2: "sala de estar com velas e um vaso diante de um espelho" → nota F (impreciso)
Publicidade
Wakeboard (Vermont, EUA)
- GPT-4o: "duas pessoas em um barco observando um praticante de wakeboard" → nota A
- Llama 3.2 Vision 90B: "duas pessoas em um barco assistindo ao wakeboard" → nota A
- BLIP-2 FLAN: "alguém em um barco observando surfe" → nota C
- VIT-GPT2: "duas pessoas em pé em um barco segurando uma prancha de surfe" → nota E (impreciso)

Resultados da avaliação

Modelos em nuvem (GPT-4o, Claude 3.5 Sonnet): nota A
- Forneceram as descrições mais precisas e capturaram até a atmosfera da cena
Melhores modelos locais (Llama 11B, Llama 90B, MiniCPM-V): nota B
- A precisão ainda fica um pouco abaixo dos modelos em nuvem, mas o uso prático é viável
Modelos mais antigos (VIT-GPT2, GIT, BLIP etc.): nota D~F
- Apresentaram expressões repetitivas e alucinações (hallucination)

Pontos a considerar daqui para frente

Se o `alt`-text não for perfeito, ainda é melhor do que não ter nenhum?

Mesmo um alt-text de nível B pode ser melhor do que não ter nada
No entanto, informações imprecisas (por exemplo, adicionar objetos inexistentes) podem confundir usuários com deficiência visual

Opções para os próximos passos

Combinar saídas de IA
- Combinar vários modelos para gerar a descrição mais precisa
Esperar por upgrades
- Usar o melhor modelo local disponível agora e atualizar para modelos novos em 6 a 12 meses
Usar modelos em nuvem
- Usar modelos em nuvem pela precisão, mas custo e privacidade de dados são questões importantes
Abordagem híbrida
- Fazer uma revisão humana do alt-text gerado por IA para complementar o resultado (mas aplicar isso a 9.000 imagens não é realista)

No momento, a escolha mais razoável parece ser usar modelos locais e atualizar depois para modelos mais avançados

1 comentários

quilt8703 2025-03-14

Costumo adicionar texto alternativo às imagens que posto no Twitter e em outros lugares, e já pensei que, se passasse isso para a IA, talvez ficasse mais fácil para eu publicar meus posts. Não tenho certeza se um LLM é realmente necessário; parecia que uma tecnologia como o CLIP já seria suficiente.

Um dos motivos de eu não ter feito isso é que esse tipo de tarefa pode muito bem ser incorporado a recursos de leitores de tela, e achei que o mais certo seria eu acrescentar pelo menos um pouco mais do contexto que uma pessoa pode fornecer. Claro, o principal motivo era a preguiça mesmo.