5 pontos por GN⁺ 2025-01-28 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Janus-Pro: versão aprimorada de um modelo unificado de compreensão e geração multimodal
  • Modelo que evolui o Janus original, incluindo as seguintes melhorias
    • estratégia de treinamento otimizada
    • expansão dos dados de treinamento
    • ampliação para um tamanho de modelo maior
  • Objetivo: melhorar o desempenho em compreensão multimodal e geração de texto para imagem, além de reforçar a estabilidade da geração

Principais melhorias de desempenho

Compreensão multimodal

  • O Janus-Pro registrou a pontuação máxima de 79,2 no benchmark de compreensão multimodal MMBench
  • Alcançou desempenho superior aos modelos anteriores (Janus, TokenFlow, MetaMorph)
  • Separa a codificação visual para reduzir conflitos entre compreensão e geração

Geração de texto para imagem

  • No benchmark GenEval, superou DALL-E 3 (67%) e SD3-Medium (74%) com 80% de precisão
  • Obteve 84,19 pontos no DPG-Bench, com desempenho superior ao de todos os outros modelos

Estrutura do modelo e melhorias

Arquitetura do modelo

  • Separa a codificação visual entre compreensão multimodal e geração
  • Usa o encoder SigLIP para extrair características semânticas de alta dimensão
  • O decoder de imagem converte imagens em IDs e as conecta como entrada do LLM

Estratégia de treinamento otimizada

  • Treinamento em etapas: melhora as ineficiências da estratégia anterior de 3 etapas
    • aplicação de um tempo de treinamento mais longo com dados do ImageNet (Stage I)
    • foco do treinamento apenas em dados de texto-imagem (Stage II)
  • Ajuste da proporção de dados: reduz a proporção de dados de texto-imagem e reforça o desempenho de compreensão multimodal

Expansão de dados e do modelo

  • Expansão de dados:
    • adição de 90 milhões de amostras para compreensão multimodal
    • reforço dos dados de geração de texto para imagem com 70 milhões de dados sintéticos de estética
  • Escalonamento do modelo:
    • ampliação de 1.5B para 7B, melhorando significativamente a eficiência de treinamento e o desempenho

Experimentos e avaliação

Comparação de desempenho

  • O Janus-Pro-7B apresentou o melhor desempenho em comparação com modelos do mesmo porte
    • superou grandes modelos como o TokenFlow-XL (13B) tanto em compreensão multimodal quanto em geração
  • Houve melhora tanto na estabilidade das imagens geradas quanto na qualidade estética

Limitações

  • A baixa resolução (384 × 384) é limitada para tarefas detalhadas, como OCR
  • Falta de detalhes finos na geração de texto para imagem

Conclusão

  • O Janus-Pro representa um avanço importante em estratégia de treinamento, dados e tamanho de modelo
  • Alcançou desempenho de ponta tanto em compreensão multimodal quanto em geração de texto para imagem
  • No futuro, pretende resolver tarefas mais detalhadas por meio do aumento da resolução

Ainda não há comentários.

Ainda não há comentários.