Qwen VLo - De 'entender' o mundo para 'descrevê-lo'

(qwenlm.github.io)

1 pontos por GN⁺ 2025-06-29 | 1 comentários | Compartilhar no WhatsApp

O Qwen VLo é um modelo multimodal unificado de compreensão e geração que oferece não apenas entendimento de imagens, mas também geração de imagens de alta qualidade
Os usuários podem dar comandos criativos em linguagem natural e gerar e editar diretamente vários tipos de imagem, como transformação de estilo e mudança de fundo
Suporta vários idiomas, permitindo que usuários do mundo todo o utilizem com facilidade, sem barreiras linguísticas
Adota um método de geração progressiva que melhora e otimiza continuamente as imagens, oferecendo melhor qualidade visual e alto nível de controle
Ainda está em fase de prévia e pode haver instabilidade em alguns recursos, mas o modelo segue em aprimoramento contínuo

Introdução

O avanço dos grandes modelos multimodais continua expandindo constantemente os limites da tecnologia
Desde o QwenVL até o Qwen2.5 VL, o foco vinha sendo reforçar a compreensão de conteúdo visual; agora, o Qwen VLo surge como um novo modelo multimodal que abrange tanto compreensão quanto geração
O Qwen VLo vai além de apenas "entender" o mundo e, com base nesse entendimento, consegue também "gerar" imagens detalhadas
Esse modelo conecta na prática a fronteira entre percepção e criação
No momento, ele está disponível em versão preview no Qwen Chat, onde é possível criar imagens com comandos como "gerar um desenho fofo de gato" e também fazer edições após enviar uma imagem, com instruções como "colocar um chapéu no gato".

Processo de geração criativa

Como pode ser visto no vídeo de demonstração da geração de imagens do Qwen VLo, o modelo usa um método de geração progressiva
Ele constrói a imagem gradualmente do canto superior esquerdo ao canto inferior direito, refinando continuamente suas previsões para alcançar resultados consistentes e harmoniosos
Esse mecanismo de geração melhora a qualidade visual e ajuda o usuário a controlar o processo criativo com mais flexibilidade e precisão.

Da compreensão à criatividade: capacidades aprimoradas de geração multimodal

Principais melhorias do Qwen VLo

Compreensão e reprodução precisas de conteúdo
- Modelos multimodais anteriores apresentavam inconsistências semânticas durante a geração, como interpretar incorretamente um carro ou perder sua estrutura
- O Qwen VLo aumentou sua capacidade de capturar detalhes e mantém alta consistência semântica
- Por exemplo, ao solicitar a mudança de cor em uma foto de carro, ele preserva o modelo e a estrutura reais do veículo e altera apenas a cor de forma natural, produzindo um resultado realista
Suporte a edição baseada em comandos abertos
- O usuário pode inserir em linguagem natural comandos criativos livres, como "deixe esta imagem no estilo de Van Gogh", "como uma foto do século XIX" ou "adicione um céu limpo"
- Além de transformação de estilo, reconstrução de cena e ajustes detalhados, também é possível realizar com comandos simples tarefas clássicas de visão computacional em deep learning, como mapa de profundidade, segmentação e estimativa de bordas
- Também é possível executar de uma só vez comandos compostos, como modificação de objetos + edição de texto + mudança de fundo
Suporte a comandos multilíngues
- O Qwen VLo oferece suporte a interações em chinês, inglês e outros idiomas
- Isso proporciona facilidade de uso global sem barreiras linguísticas

Casos de uso de demonstração

O Qwen VLo materializa a imaginação com base na compreensão, como um artista humano. Ele permite troca de fundo, adição de sujeitos, mudança de estilo, grandes edições baseadas em comandos abertos e também respostas para detecção/segmentação.

Em especial, com a funcionalidade de regeneração baseada em compreensão, ele suporta transformações amplas de estilo criativo, como quadrinhos → foto realista e pessoa específica → balão.

Com sua avançada capacidade de interpretar imagens e comandos, o modelo executa comandos complexos de uma vez só, realizando tarefas de várias etapas em uma única execução, como criação de pôsteres e combinação de vários objetos

Além disso, o Qwen VLo também oferece suporte a funções de anotação/marcação sobre informações existentes, como detecção, segmentação e edge detection.

O recurso de processamento com múltiplas imagens de entrada também está em preparação (lançamento oficial futuro)
Além de entrada de texto + imagem, também suporta geração de texto → imagem (imagens gerais, pôsteres com mistura de chinês e inglês etc.)
Suporte à geração de imagens em formatos com proporções horizontais/verticais muito longas (até 4:1, 1:3 etc.) (previsto para lançamento oficial)
O modelo também pode voltar a compreender/analisar imagens que ele próprio gerou para identificar raças de cães e gatos, entre outras tarefas

Como usar

O Qwen VLo, com aprendizado e geração em resolução dinâmica, permite usar livremente a resolução e a proporção das imagens de entrada e saída. Assim, é possível criar imagens no tamanho desejado, como pôsteres, ilustrações, web banners e capas para redes sociais, sem ficar preso a formatos fixos.

Mecanismo de geração: geração progressiva do canto superior esquerdo para o inferior direito (Progressive generation)
Em trabalhos que exigem controle fino, como anúncios ou painéis de quadrinhos com textos longos, é possível fazer microajustes no processo em tempo real

Limitações

O Qwen VLo está em fase de preview e ainda apresenta algumas limitações. Durante a geração, podem ocorrer falta de precisão, inconsistência com o original, descumprimento de instruções e instabilidade na compreensão da imagem. O modelo segue recebendo melhorias contínuas e atualizações de estabilização.

Próximos passos

À medida que os grandes modelos multimodais passam a ter entrada e saída bidirecionais de texto e visão, novas formas de expressão e interação estão se abrindo
No futuro, os modelos poderão transmitir ideias não apenas com respostas em texto, mas também com conteúdos visuais como diagramas, linhas auxiliares e destaques.

As funções avançadas de geração também serão usadas para verificar e melhorar a própria capacidade de compreensão do modelo
Por exemplo, ao gerar diretamente resultados intermediários como mapas de segmentação e mapas de detecção, ele poderá demonstrar e complementar sua própria compreensão
Essa direção de pesquisa segue sendo explorada continuamente

1 comentários

GN⁺ 2025-06-29

Comentários do Hacker News

É uma pena que a Qwen não tenha liberado os pesos abertos. Até aqui, uma das maiores forças da Qwen era justamente sua estratégia de open weights. Seria ótimo ter um modelo realmente open weight capaz de competir com a geração automática de imagens do 4o. Há muitas linhas de pesquisa interessantes que só são possíveis com acesso direto aos pesos. Se o problema é recuperar o custo de desenvolvimento, vale olhar o modelo de lançamento do Flux Kontext Dev da BFL. Eles liberam os pesos gratuitamente para pesquisadores e indivíduos, enquanto startups compram uma licença comercial por um preço razoável
- As imagens da Qwen claramente mostram que foram treinadas com resultados da OpenAI. Dá para perceber só pelo tom alaranjado das imagens (exemplo 1, exemplo 2, exemplo 3). Fico até curioso se eles tentaram coletar dados próprios. No fim, seguem a OAI exatamente e ainda escondem tudo atrás de uma API. Não só são fechados como a OAI, como também entregam desempenho inferior. É difícil entender essa estratégia
- Se a proposta é enfatizar open weights, mas ao mesmo tempo sugerir pesos separados para pesquisadores e indivíduos, e startups tendo que comprar licença comercial, isso já parece bem distante de pesos realmente abertos. Assim como em "open source", deveria existir a liberdade de usar como quiser para que o termo tenha sentido de verdade. Caso contrário, a palavra "open" pode acabar perdendo o significado
- Não acho que seja possível recuperar dezenas de milhões de dólares em investimento, custo de GPU e salários de engenheiros só com a cobrança por geração de imagens
- Parece que a era dos open weights vindos da China acabou de repente. A Alibaba parou de divulgar o Qwen, a Tencent também interrompeu a abertura do Hunyuan, e a Bytedance fechou o Seedream. Continua evidente que o treinamento ainda se apoia em modelos ocidentais. Na verdade, acho mais inteligente abrir 100% e monetizar com infraestrutura e serviços
A imagem é comprimida em 256 tokens antes de ser passada ao modelo de linguagem. Por exemplo, ao pedir para adicionar um chapéu, ele redesenha o rosto inteiro. Objetos individuais não ficam armazenados separadamente, e até o personagem urso existe só temporariamente. Tudo é guardado em um único espaço latente fundido, e depois reamostrado sob novas condições. Basta ajustar um pouco o prompt para a imagem inteira mudar. Ou seja, ele recria a cena toda a cada vez, o que parece bom para vários tipos de uso
- No Flux Kontext, gostei do fato de os detalhes serem melhor preservados, como em um modelo multimodal. Já no GPT-Image-1, ele vai bem em mudanças globais de estilo como "transformar em estilo Ghibli", mas não preserva bem os detalhes em alterações finas, como adicionar óculos a uma imagem fotorrealista
Ao ver o exemplo de edição da imagem do urso, notei que muita coisa mudou além do que foi pedido. Pediu-se apenas para trocar o fundo, mas o urso também mudou bastante; quando pediram para transformar o urso em um balão, surgiram alterações aleatórias, como o desaparecimento do piso de blocos ou das sementes da melancia. Fico curioso se isso é algo que se resolve com prompts melhores ou se é uma limitação da arquitetura do modelo
- Os dois. Dá para melhorar um pouco o resultado com otimização de prompt, mas a causa fundamental está na estrutura do modelo e no método de treinamento, ou seja, nas limitações da arquitetura e da metodologia
Tentei gerar uma imagem de um pelicano andando de bicicleta e também uma imagem de acordeão. Ele é fraco em detalhes finos, como dedos ou o preto das teclas sendo representados errado. A velocidade de geração é bem rápida link do exemplo
- Parece que deixaram passar o ponto principal do teste do Simon: o formato SVG. A imagem do pelicano andando de bicicleta já é uma tarefa fácil desde o Stable Diffusion 2/3. O desafio não está em imagem em pixels, mas em SVG, onde são necessários raciocínio lógico e precisão
Nos exemplos de modificação de imagem, como edição e mudança de estilo, notei um leve tom amarelado. Isso também aparece no GPT Image 1, mas não no Flux Kontext. Fiquei curioso sobre o motivo
Todas as imagens passam uma sensação de uncanny valley. As cores e as sombras parecem estranhas
- Os resultados, no geral, são grosseiros. Fora pesquisa, é difícil imaginar casos de uso reais para esse tipo de imagem
Como pesquisador de machine learning e alguém com formação em física, me incomoda usar palavras como "entender" e "explicar" para esse tipo de modelo. Na prática isso não ajuda e só gera confusão. Em física usamos matemática por causa da precisão, e programação também é extremamente específica. Na vida, somos afetados por incontáveis detalhes, mas o modelo não consegue captar essas sutilezas. Eu gostaria muito que lessem "Relativity of Wrong" do Asimov (link). Se quisermos dizer que um modelo realmente "entendeu", ele precisaria gerar resultados inéditos, como descoberta, inferência ou redefinição de conceitos. Humanos fazem pensamento contrafactual (link) naturalmente, mas os modelos modernos de ML não. Erros como o número de dedos na imagem do OP ou a disposição errada das teclas no teclado são exemplos típicos. À primeira vista parece plausível, mas quanto mais se olha, mais o estranhamento aparece — um caso clássico de uncanny valley
- Para quem realmente está construindo coisas, esse tipo de debate soa cansativo. Só o fato de terem explicado os conceitos de entrada e saída de forma fácil de entender já tem valor suficiente. Lendo a documentação de lançamento, dá para ver que a Qwen antes atuava como VLM em tarefas de "entendimento/identificação/percepção" e agora expandiu suas capacidades para "geração/descrição/desenho". Não precisa de mais alarmismo nem de dar significado excessivo a isso
Queria saber como desligar a função de leitura automática em voz alta. Quando entro no site, eu gostaria que ele simplesmente ficasse parado e só funcionasse quando eu interagisse manualmente. No Firefox, o vídeo começou a reproduzir em tela cheia automaticamente e, de repente, a leitura começou também (no iOS)
- Configurações > Configurações do site > Bloquear reprodução automática de áudio e vídeo. No Firefox para Android isso existe. No iOS ou no desktop também há opções parecidas, e também dá para bloquear completamente pedidos de permissão de notificações
Fico curioso se existe algum relatório técnico sobre a arquitetura de geração de imagens no estilo do 4o. Também queria entender melhor outros modelos que geram imagens de forma parecida
Pessoalmente, acho que o machine learning avançou muito mais no lado de "descrever" do que no de "entender"
- Fico curioso sobre qual é a base para dizer que humanos entendem melhor o mundo. Humanos reagem emocionalmente a muita coisa no mundo, mas emoção por si só não gera entendimento. A própria ideia de "entender" também é, no fim, um critério bastante subjetivo