- Entre 10.000 fotos armazenadas no blog, cerca de 9.000 estavam sem
alt-text - Para resolver isso, foram testados 12 LLMs (modelos de linguagem de grande porte); 10 rodando localmente e 2 modelos em nuvem (GPT-4, Claude 3.5 Sonnet)
- Escrever
alt-texté uma tarefa importante para melhorar a acessibilidade de pessoas com deficiência visual, mas fazer isso manualmente gera uma carga grande - O objetivo foi testar a precisão dos modelos de IA na geração de
alt-texte verificar se modelos locais podem ser uma alternativa prática
Modelos de IA testados
- Modelos locais (10)
- 9 modelos rodaram em um MacBook Pro (32GB de RAM)
- 1 modelo rodou em um equipamento mais potente de um amigo
- Modelos em nuvem (2)
- GPT-4o (OpenAI)
- Claude 3.5 Sonnet (Anthropic)
Principais comparações de desempenho
-
Modelos em nuvem (GPT-4o, Claude 3.5 Sonnet)
- Geraram os
alt-texts mais precisos - Têm excelente nível de detalhe e capturam bem até a atmosfera da imagem
- Nota de avaliação: A
- Geraram os
-
Modelos locais com melhor desempenho
- Llama 3.2 Vision 11B
- Bom reconhecimento de objetos e boa compreensão de contexto
- Nota de avaliação: B
- Llama 3.2 Vision 90B
- Mostrou precisão um pouco maior que o modelo 11B, mas exige mais RAM para rodar
- Nota de avaliação: B
- MiniCPM-V
- Mesmo sendo um modelo relativamente leve, apresentou desempenho forte
- Nota de avaliação: B
- Llama 3.2 Vision 11B
-
Modelos com desempenho fraco
- Modelos mais antigos, como VIT-GPT2, GIT e BLIP, tendem a reconhecer objetos de forma imprecisa e gerar frases repetitivas
- Nota de avaliação: D~F
Como os modelos de IA analisam imagens
- Codificação visual (Vision Encoding)
- A imagem é dividida em pequenos patches, que depois são convertidos em dados numéricos (embeddings)
- O modelo filtra as partes mais relevantes (por exemplo, os objetos principais) e remove elementos menos importantes (por exemplo, um fundo simples)
- Codificação de linguagem (Language Encoding)
- Com base nas informações fornecidas pelo codificador visual, o modelo gera texto em linguagem natural
- O texto é gerado na forma de descrição da imagem ou resposta a perguntas
Imagens de teste e resultados
-
Cruzamento de Shibuya (Tóquio)
- GPT-4o, Claude: "cruzamento de Shibuya lotado de letreiros de neon e multidões" → nota A
- LLaVA 13B: "cena de pessoas atravessando o cruzamento de Shibuya" → nota A
- Llama 3.2 Vision 11B: "movimentada paisagem urbana noturna de Tóquio, com outdoors e multidões" → nota C
- VIT-GPT2: "paisagem urbana noturna com prédios altos e semáforos" → nota F (impreciso)
-
Museu Isabella Stewart Gardner (Boston)
- Claude: "sala em estilo vitoriano, lustre e molduras douradas" → nota B
- Llama 3.2 Vision 11B: "molduras douradas e fundo decorativo" → nota A
- BLIP-2 OPT: "sala com quadros e molduras pendurados na parede" → nota C
- VIT-GPT2: "sala de estar com velas e um vaso diante de um espelho" → nota F (impreciso)
-
Wakeboard (Vermont, EUA)
- GPT-4o: "duas pessoas em um barco observando um praticante de wakeboard" → nota A
- Llama 3.2 Vision 90B: "duas pessoas em um barco assistindo ao wakeboard" → nota A
- BLIP-2 FLAN: "alguém em um barco observando surfe" → nota C
- VIT-GPT2: "duas pessoas em pé em um barco segurando uma prancha de surfe" → nota E (impreciso)
Resultados da avaliação
- Modelos em nuvem (GPT-4o, Claude 3.5 Sonnet): nota A
- Forneceram as descrições mais precisas e capturaram até a atmosfera da cena
- Melhores modelos locais (Llama 11B, Llama 90B, MiniCPM-V): nota B
- A precisão ainda fica um pouco abaixo dos modelos em nuvem, mas o uso prático é viável
- Modelos mais antigos (VIT-GPT2, GIT, BLIP etc.): nota D~F
- Apresentaram expressões repetitivas e alucinações (
hallucination)
- Apresentaram expressões repetitivas e alucinações (
Pontos a considerar daqui para frente
Se o alt-text não for perfeito, ainda é melhor do que não ter nenhum?
- Mesmo um
alt-text de nível B pode ser melhor do que não ter nada - No entanto, informações imprecisas (por exemplo, adicionar objetos inexistentes) podem confundir usuários com deficiência visual
Opções para os próximos passos
- Combinar saídas de IA
- Combinar vários modelos para gerar a descrição mais precisa
- Esperar por upgrades
- Usar o melhor modelo local disponível agora e atualizar para modelos novos em 6 a 12 meses
- Usar modelos em nuvem
- Usar modelos em nuvem pela precisão, mas custo e privacidade de dados são questões importantes
- Abordagem híbrida
- Fazer uma revisão humana do
alt-text gerado por IA para complementar o resultado (mas aplicar isso a 9.000 imagens não é realista)
- Fazer uma revisão humana do
- No momento, a escolha mais razoável parece ser usar modelos locais e atualizar depois para modelos mais avançados
1 comentários
Costumo adicionar texto alternativo às imagens que posto no Twitter e em outros lugares, e já pensei que, se passasse isso para a IA, talvez ficasse mais fácil para eu publicar meus posts. Não tenho certeza se um LLM é realmente necessário; parecia que uma tecnologia como o CLIP já seria suficiente.
Um dos motivos de eu não ter feito isso é que esse tipo de tarefa pode muito bem ser incorporado a recursos de leitores de tela, e achei que o mais certo seria eu acrescentar pelo menos um pouco mais do contexto que uma pessoa pode fornecer. Claro, o principal motivo era a preguiça mesmo.