19 pontos por xguru 2023-10-30 | 2 comentários | Compartilhar no WhatsApp
  • Comparação de 3 modelos com o mesmo prompt nos aspectos de precisão do tema, precisão de estilo, coesão e ética

Fotografia: Humanos

  • Atualmente, na área de fotografia, o Midjourney está na liderança, mas o Firefly 2 vem logo atrás por uma pequena margem
  • Se você quer headshots menos estilizados e mais naturais, vale considerar o Firefly 2 daqui para frente
  • Para uso fotográfico, é melhor não usar o DALL-E 3

Fotografia: Humanos estilizados

  • Recentemente, tenho criado muitas imagens estilizadas de pessoas
  • Como esses prompts foram especialmente ajustados para o Midjourney, pode haver um certo viés
  • Mas há alguns pontos principais:
    • O Midjourney funciona melhor quando recebe prompts mais complexos e mostra forte coesão
    • O Midjourney se destaca na geração de combinações complexas de mídia, composição e iluminação
    • O DALL-E parece ter dificuldade para incorporar iluminação adequada para pessoas não brancas, o que reduz a precisão dos resultados
    • O Firefly gera os resultados mais diversos quando diversidade não é explicitamente exigida
    • Ao tentar substituir fotografias mais criativas, tanto o Firefly quanto o DALL-E 3 podem ter dificuldade para atingir o nível desejado de qualidade e coesão

Fotografia: Objetos

  • Acho que o Midjourney, no geral, entrega a coesão de objetos mais realista
  • Firefly e DALL-E estão alcançando, mas as preferências de estilo desses modelos sem dúvida influenciam os resultados

Ilustração

  • Em termos de ilustração, todos avançaram bastante, mas para obter resultados mais nuanced, o Midjourney ainda é a melhor escolha
  • Mas é melhor experimentar vários modelos e ajustá-los ao seu estilo próprio

Tipografia

  • Só recentemente passou a ser possível gerar palavras corretas
  • Entre todos os testes realizados, apenas o DALL-E 3 renderizou palavras fielmente como entidades completas
  • Neste caso específico, a palavra era "design", e a consistência foi mantida de forma constante em todos os experimentos

Conclusão

  • O cenário está certamente mudando, mas os pontos principais que eu destacaria são:
  • A Adobe está claramente reduzindo a diferença no campo da fotografia e se tornando uma concorrente forte
  • O DALL-E 3 é o único gerador capaz de criar tipografia de forma razoavelmente boa, excluindo o Ideogram
    • O DALL-E 3 se destaca na criação de ilustrações e, combinado com sua capacidade de gerar palavras, acho que tem potencial para se tornar um "gerador de imagens para clipart" em termos de escala e estilo generalizado
    • É adequado para imagens básicas ou para gerar imagens durante outras atividades (via ChatGPT), mas não parece que vá se tornar tão cedo uma ferramenta de design altamente sofisticada
  • O Midjourney continua produzindo as fotos mais realistas e coesas.
    • Em termos de controle criativo, o Midjourney é incomparável

2 comentários

 
hhkkkk 2023-10-30

Por que tiraram o StableDiffusion?
Foi por causa do Midjourney?

 
kuroneko 2023-10-30

Quando experimentei o DALL-E 3, fiquei muito impressionado com a forma como ele conseguia representar letras com clareza.
Mas parece que, em termos de qualidade, o Midjourney ainda é o melhor.