- Janus-Pro: versão aprimorada de um modelo unificado de compreensão e geração multimodal
- Modelo que evolui o Janus original, incluindo as seguintes melhorias
- estratégia de treinamento otimizada
- expansão dos dados de treinamento
- ampliação para um tamanho de modelo maior
- Objetivo: melhorar o desempenho em compreensão multimodal e geração de texto para imagem, além de reforçar a estabilidade da geração
Principais melhorias de desempenho
Compreensão multimodal
- O Janus-Pro registrou a pontuação máxima de 79,2 no benchmark de compreensão multimodal MMBench
- Alcançou desempenho superior aos modelos anteriores (Janus, TokenFlow, MetaMorph)
- Separa a codificação visual para reduzir conflitos entre compreensão e geração
Geração de texto para imagem
- No benchmark GenEval, superou DALL-E 3 (67%) e SD3-Medium (74%) com 80% de precisão
- Obteve 84,19 pontos no DPG-Bench, com desempenho superior ao de todos os outros modelos
Estrutura do modelo e melhorias
Arquitetura do modelo
- Separa a codificação visual entre compreensão multimodal e geração
- Usa o encoder SigLIP para extrair características semânticas de alta dimensão
- O decoder de imagem converte imagens em IDs e as conecta como entrada do LLM
Estratégia de treinamento otimizada
- Treinamento em etapas: melhora as ineficiências da estratégia anterior de 3 etapas
- aplicação de um tempo de treinamento mais longo com dados do ImageNet (Stage I)
- foco do treinamento apenas em dados de texto-imagem (Stage II)
- Ajuste da proporção de dados: reduz a proporção de dados de texto-imagem e reforça o desempenho de compreensão multimodal
Expansão de dados e do modelo
- Expansão de dados:
- adição de 90 milhões de amostras para compreensão multimodal
- reforço dos dados de geração de texto para imagem com 70 milhões de dados sintéticos de estética
- Escalonamento do modelo:
- ampliação de 1.5B para 7B, melhorando significativamente a eficiência de treinamento e o desempenho
Experimentos e avaliação
Comparação de desempenho
- O Janus-Pro-7B apresentou o melhor desempenho em comparação com modelos do mesmo porte
- superou grandes modelos como o TokenFlow-XL (13B) tanto em compreensão multimodal quanto em geração
- Houve melhora tanto na estabilidade das imagens geradas quanto na qualidade estética
Limitações
- A baixa resolução (384 × 384) é limitada para tarefas detalhadas, como OCR
- Falta de detalhes finos na geração de texto para imagem
Conclusão
- O Janus-Pro representa um avanço importante em estratégia de treinamento, dados e tamanho de modelo
- Alcançou desempenho de ponta tanto em compreensão multimodal quanto em geração de texto para imagem
- No futuro, pretende resolver tarefas mais detalhadas por meio do aumento da resolução
Ainda não há comentários.