3 pontos por GN⁺ 2024-10-15 | 1 comentários | Compartilhar no WhatsApp
  • O FLUX roda mais rápido no Replicate, e o código otimizado foi publicado como código aberto para que qualquer pessoa possa verificá-lo e melhorá-lo
  • O segredo do ganho de velocidade
    • O modelo FLUX é mantido em colaboração com a Black Forest Labs, e foram realizados dois trabalhos principais de otimização
      • Otimização do modelo: melhora de desempenho com torch.compile e kernels de atenção do CuDNN
      • A adição de uma nova API HTTP síncrona melhora significativamente a velocidade dos modelos de imagem
    • A quantização do flux-fp8-api causa pequenas mudanças na saída, mas não afeta significativamente a qualidade
    • Os métodos de otimização são divulgados de forma transparente, e os usuários podem desativar as otimizações
  • A velocidade do código aberto
    • Modelos de código aberto costumam ser lentos por padrão, e muitas vezes os provedores de modelos os otimizam e os oferecem como APIs proprietárias
    • Todas as melhorias do FLUX são publicadas como código aberto para desenvolver modelos ainda mais rápidos em colaboração com a comunidade
  • Como usar o FLUX
    • Além de rodar o FLUX no Replicate, há várias outras possibilidades de uso
      • É possível fazer fine-tuning do FLUX com dados do usuário
      • É possível modificar o código e implantar versões personalizadas
      • É possível testar o modelo em um novo playground e comparar os resultados

Resumo do GN⁺

  • O FLUX oferece a qualquer pessoa a oportunidade de usar um modelo otimizado por meio da melhora de desempenho no Replicate e da abertura do código
  • O esforço para resolver o problema de velocidade no código aberto possibilita o desenvolvimento de modelos mais rápidos em colaboração com a comunidade
  • As várias possibilidades de uso do FLUX oferecem aos usuários a oportunidade de criar soluções personalizadas
  • Outros projetos com funcionalidades semelhantes incluem TensorFlow e PyTorch

1 comentários

 
GN⁺ 2024-10-15
Comentários do Hacker News
  • Há a opinião de que modelos de texto para imagem são ineficientes e que seria melhor processá-los dividindo o trabalho em várias etapas. Cada etapa poderia ser treinada de forma independente, permitindo modularização, e isso tornaria a edição de imagens mais fácil

    • Por exemplo, explica que seria mais fácil gerar uma imagem em que "o objeto x está ao lado do objeto y, com o texto foo acima"
    • Menciona que poderia existir um modelo final de renderização separado do prompt, permitindo ajustar o estilo artístico ou o nível de realismo
  • Enfatiza que software não comercial não é open source, explicando que, se o autor original parar de fazer manutenção, outras pessoas não podem continuar ou teriam de trabalhar de graça

    • Open source oferece uma licença que permite a todos continuar o desenvolvimento quando o autor original para de trabalhar
    • Apenas o FLUX.1 [schnell] é open source (Apache2); o FLUX.1 [dev] é não comercial
  • Sugere que, para usar o FLUX.schnell facilmente, basta inserir um prompt na URL do Pollinations

    • Diz que a velocidade do FLUX é impressionante e explica que ele gera 8.000 imagens a cada 30 minutos com apenas três GPUs L40S
  • Diz que gosta de usar o FLUX para gerar imagens com fundo branco para usar no Substack

    • Explica que isso é bom porque permite transmitir algo visual junto com o texto
  • Menciona que o FLUX é líder entre os sistemas de geração com hospedagem local em termos de aderência ao prompt, mas que é incômodo o fato de a profundidade de campo rasa aparecer sempre

  • Afirma que cancelou a assinatura do Midjourney e está considerando Replicate e Ideogram

  • Demonstra curiosidade sobre os dados de treinamento do FLUX 1.1, explicando que as imagens geradas parecem fotos pessoais

    • Questiona se os dados de treinamento vieram de postagens públicas no Facebook, Snapchat, Vkontakte etc.
  • Acredita que o modelo FLUX 1.1 pro provavelmente não usou dados de treinamento muito diferentes dos modelos abertos anteriores

  • Menciona a página de comparação do FLUX e explica que a versão rápida mostra imagens completamente diferentes do modelo original

  • Menciona a controvérsia sobre open source nos modelos da Meta e explica que, no caso do FLUX, apenas o FLUX schnell é open source

    • Diz que o modelo Llama da Meta tem uma licença mais permissiva e é mais fácil de ajustar do que o FLUX schnell
  • Argumenta que a comunidade open source deveria apoiar projetos como o OpenFLUX

  • Questiona por que ainda não conseguiram resolver o problema de as mãos continuarem parecendo estranhas