8 pontos por GN⁺ 2024-08-02 | 1 comentários | Compartilhar no WhatsApp
  • O maior modelo open source SOTA de texto-para-imagem desenvolvido pela Black Forest Labs
    • A equipe original que desenvolveu o Stable Diffusion
  • Com 12B de parâmetros, expande os limites da criatividade e do desempenho, oferecendo recursos de geração de imagem semelhantes ao Midjourney

Disponível em 3 modelos

  • FLUX.1 [dev]: modelo base disponibilizado como open source sob licença não comercial. A comunidade pode construir sobre ele
  • FLUX.1 [schnell]: versão destilada do modelo base, operando até 10 vezes mais rápido. Licença Apache 2.
  • FLUX.1 [pro]: versão proprietária disponível apenas via API

Principais características

  • Qualidade de imagem aprimorada: capaz de gerar visuais impressionantes em alta resolução
  • Anatomia humana avançada e fotorrealismo: capaz de gerar imagens muito realistas e anatomicamente precisas
  • Melhor aderência ao prompt: capaz de gerar imagens mais precisas e relevantes com base na entrada
  • Velocidade excepcional: a velocidade e eficiência do Flux Schnell o tornam ideal para aplicações de alta demanda

Integração com a fal

  • Ao integrar o mecanismo de inferência de ponta da fal, os modelos Flux podem rodar até 2 vezes mais rápido do que com eager torch
  • Tempo de processamento rápido com manutenção de qualidade e detalhes excelentes

Resumo do GN⁺

  • Flux é o mais recente modelo de texto-para-imagem desenvolvido pela Black Forest Labs e estabelece um novo padrão de criatividade e desempenho
  • Por meio de diferentes variantes do modelo, oferece soluções sob medida para diversos casos de uso
  • Com qualidade de imagem aprimorada e expressividade realista, é adequado para aplicações de alta demanda
  • Com o mecanismo de inferência da fal, é possível executar o modelo de forma ainda mais rápida e eficiente
  • Outros projetos com funcionalidades semelhantes incluem DALL-E e Midjourney

1 comentários

 
GN⁺ 2024-08-02
Comentários no Hacker News
  • burkay from fal.ai: o modelo não foi criado pela fal, e sim pela Black Forest Labs

    • a fal.ai executa o modelo em um mecanismo de inferência otimizado, fazendo com que ele rode muito rápido
    • é possível testar o modelo no playground
    • o modelo [schnell] está disponível como open source no Hugging Face sob licença Apache
    • a renderização de texto é muito rápida e excelente, e há um codificador de texto que consegue lidar melhor com texto e posicionamento
    • quando a renderização de texto melhora, as marcas d'água de texto dos dados de treinamento aparecem com mais clareza
    • link fornecido para testar o modelo
      • FLUX.1 [schnell]: Apache 2.0, pesos abertos, destilação por etapas
      • FLUX.1 [dev]: não comercial, pesos abertos, destilação guiada (requer login)
      • FLUX.1 [pro]: código fechado, SOTA, dados brutos (disponível apenas via API)
  • Outro usuário: a maioria das comparações não testa corretamente o novo modelo

    • atualmente, a melhor aderência a prompts no mercado é a do DALL-E 3, mas ele ainda falha em conceitos complexos e tem muita censura
    • ao comparar Flux e DALL-E 3, o Flux se mostra impressionante e com ótimo desempenho
    • publicou os resultados da comparação em um blog
  • Outro usuário: testou usando prompts do ideogram, e o Flux gera imagens muito boas

    • já usou o ideogram, mas não gosta dos filtros
    • se puder rodar localmente, ele chega muito perto em qualidade de imagem e aderência ao prompt
    • quando o texto é complexo, ele não consegue escrevê-lo com clareza
    • fornece como exemplo o prompt de uma imagem do ideogram
    • parou de usar modelos de difusão estável há muito tempo, porque a tecnologia ficou complexa demais e perdeu a graça
    • quer um sistema como o ideogram, mas que possa rodar localmente e sem filtros
    • este modelo é muito bom
  • Outro usuário: sempre que vê um novo modelo, verifica se ele consegue criar diagramas de engenharia

    • este modelo ainda não lida bem com diagramas de engenharia
    • espera que alguma empresa de IA resolva o problema dos diagramas de engenharia
    • é bem provável que isso ainda não esteja incluído no conjunto de dados de treinamento atual
    • quer criar um conjunto de dados sintético/benchmark
  • Outro usuário: o processo de cadastro é incômodo

    • criar uma conta no Github estava dando erro naquele momento, então foram necessárias duas tentativas e dois navegadores
  • Outro usuário: startups financiadas por capital de risco continuam lançando modelos gratuitos sem ter um modelo de negócios

    • apoia open source, mas se preocupa se isso será sustentável no longo prazo
  • Outro usuário: qualidade impressionante

  • Outro usuário: não lida bem com relações espaciais

    • "casa de cabeça para baixo" -> casa comum
    • "cavalo sentado em cima de um cachorro" -> cavalo e cachorro lado a lado
    • "Lockheed Martin F-22 Raptor invertido" -> resultado incorreto