Flux - modelo open source de Text-To-Image com 12B de parâmetros

(blog.fal.ai)

8 pontos por GN⁺ 2024-08-02 | 1 comentários | Compartilhar no WhatsApp

O maior modelo open source SOTA de texto-para-imagem desenvolvido pela Black Forest Labs
- A equipe original que desenvolveu o Stable Diffusion
Com 12B de parâmetros, expande os limites da criatividade e do desempenho, oferecendo recursos de geração de imagem semelhantes ao Midjourney

Disponível em 3 modelos

FLUX.1 [dev]: modelo base disponibilizado como open source sob licença não comercial. A comunidade pode construir sobre ele
FLUX.1 [schnell]: versão destilada do modelo base, operando até 10 vezes mais rápido. Licença Apache 2.
FLUX.1 [pro]: versão proprietária disponível apenas via API

Principais características

Qualidade de imagem aprimorada: capaz de gerar visuais impressionantes em alta resolução
Anatomia humana avançada e fotorrealismo: capaz de gerar imagens muito realistas e anatomicamente precisas
Melhor aderência ao prompt: capaz de gerar imagens mais precisas e relevantes com base na entrada
Velocidade excepcional: a velocidade e eficiência do Flux Schnell o tornam ideal para aplicações de alta demanda

Integração com a fal

Ao integrar o mecanismo de inferência de ponta da fal, os modelos Flux podem rodar até 2 vezes mais rápido do que com eager torch
Tempo de processamento rápido com manutenção de qualidade e detalhes excelentes

Resumo do GN⁺

Flux é o mais recente modelo de texto-para-imagem desenvolvido pela Black Forest Labs e estabelece um novo padrão de criatividade e desempenho
Por meio de diferentes variantes do modelo, oferece soluções sob medida para diversos casos de uso
Com qualidade de imagem aprimorada e expressividade realista, é adequado para aplicações de alta demanda
Com o mecanismo de inferência da fal, é possível executar o modelo de forma ainda mais rápida e eficiente
Outros projetos com funcionalidades semelhantes incluem DALL-E e Midjourney

1 comentários

GN⁺ 2024-08-02

Comentários no Hacker News

burkay from fal.ai: o modelo não foi criado pela fal, e sim pela Black Forest Labs
- a fal.ai executa o modelo em um mecanismo de inferência otimizado, fazendo com que ele rode muito rápido
- é possível testar o modelo no playground
- o modelo [schnell] está disponível como open source no Hugging Face sob licença Apache
- a renderização de texto é muito rápida e excelente, e há um codificador de texto que consegue lidar melhor com texto e posicionamento
- quando a renderização de texto melhora, as marcas d'água de texto dos dados de treinamento aparecem com mais clareza
- link fornecido para testar o modelo
  - FLUX.1 [schnell]: Apache 2.0, pesos abertos, destilação por etapas
  - FLUX.1 [dev]: não comercial, pesos abertos, destilação guiada (requer login)
  - FLUX.1 [pro]: código fechado, SOTA, dados brutos (disponível apenas via API)
Outro usuário: a maioria das comparações não testa corretamente o novo modelo
- atualmente, a melhor aderência a prompts no mercado é a do DALL-E 3, mas ele ainda falha em conceitos complexos e tem muita censura
- ao comparar Flux e DALL-E 3, o Flux se mostra impressionante e com ótimo desempenho
- publicou os resultados da comparação em um blog
Outro usuário: testou usando prompts do ideogram, e o Flux gera imagens muito boas
- já usou o ideogram, mas não gosta dos filtros
- se puder rodar localmente, ele chega muito perto em qualidade de imagem e aderência ao prompt
- quando o texto é complexo, ele não consegue escrevê-lo com clareza
- fornece como exemplo o prompt de uma imagem do ideogram
- parou de usar modelos de difusão estável há muito tempo, porque a tecnologia ficou complexa demais e perdeu a graça
- quer um sistema como o ideogram, mas que possa rodar localmente e sem filtros
- este modelo é muito bom
Outro usuário: sempre que vê um novo modelo, verifica se ele consegue criar diagramas de engenharia
- este modelo ainda não lida bem com diagramas de engenharia
- espera que alguma empresa de IA resolva o problema dos diagramas de engenharia
- é bem provável que isso ainda não esteja incluído no conjunto de dados de treinamento atual
- quer criar um conjunto de dados sintético/benchmark
Outro usuário: o processo de cadastro é incômodo
- criar uma conta no Github estava dando erro naquele momento, então foram necessárias duas tentativas e dois navegadores
Outro usuário: startups financiadas por capital de risco continuam lançando modelos gratuitos sem ter um modelo de negócios
- apoia open source, mas se preocupa se isso será sustentável no longo prazo
Outro usuário: qualidade impressionante
Outro usuário: não lida bem com relações espaciais
- "casa de cabeça para baixo" -> casa comum
- "cavalo sentado em cima de um cachorro" -> cavalo e cachorro lado a lado
- "Lockheed Martin F-22 Raptor invertido" -> resultado incorreto

Flux - modelo open source de Text-To-Image com 12B de parâmetros

Disponível em 3 modelos

Principais características

Integração com a fal

Resumo do GN⁺

Leituras relacionadas

1 comentários

Comentários no Hacker News