DeepSeek revela o Janus Pro, modelo de geração de texto para imagem [PDF]

(github.com/deepseek-ai)

5 pontos por GN⁺ 2025-01-28 | Ainda não há comentários. | Compartilhar no WhatsApp

Janus-Pro: versão aprimorada de um modelo unificado de compreensão e geração multimodal
Modelo que evolui o Janus original, incluindo as seguintes melhorias
- estratégia de treinamento otimizada
- expansão dos dados de treinamento
- ampliação para um tamanho de modelo maior
Objetivo: melhorar o desempenho em compreensão multimodal e geração de texto para imagem, além de reforçar a estabilidade da geração

Principais melhorias de desempenho

Compreensão multimodal

O Janus-Pro registrou a pontuação máxima de 79,2 no benchmark de compreensão multimodal MMBench
Alcançou desempenho superior aos modelos anteriores (Janus, TokenFlow, MetaMorph)
Separa a codificação visual para reduzir conflitos entre compreensão e geração

Geração de texto para imagem

No benchmark GenEval, superou DALL-E 3 (67%) e SD3-Medium (74%) com 80% de precisão
Obteve 84,19 pontos no DPG-Bench, com desempenho superior ao de todos os outros modelos

Estrutura do modelo e melhorias

Arquitetura do modelo

Separa a codificação visual entre compreensão multimodal e geração
Usa o encoder SigLIP para extrair características semânticas de alta dimensão
O decoder de imagem converte imagens em IDs e as conecta como entrada do LLM

Estratégia de treinamento otimizada

Treinamento em etapas: melhora as ineficiências da estratégia anterior de 3 etapas
- aplicação de um tempo de treinamento mais longo com dados do ImageNet (Stage I)
- foco do treinamento apenas em dados de texto-imagem (Stage II)
Ajuste da proporção de dados: reduz a proporção de dados de texto-imagem e reforça o desempenho de compreensão multimodal

Expansão de dados e do modelo

Expansão de dados:
- adição de 90 milhões de amostras para compreensão multimodal
- reforço dos dados de geração de texto para imagem com 70 milhões de dados sintéticos de estética
Escalonamento do modelo:
- ampliação de 1.5B para 7B, melhorando significativamente a eficiência de treinamento e o desempenho

Experimentos e avaliação

Comparação de desempenho

O Janus-Pro-7B apresentou o melhor desempenho em comparação com modelos do mesmo porte
- superou grandes modelos como o TokenFlow-XL (13B) tanto em compreensão multimodal quanto em geração
Houve melhora tanto na estabilidade das imagens geradas quanto na qualidade estética

Limitações

A baixa resolução (384 × 384) é limitada para tarefas detalhadas, como OCR
Falta de detalhes finos na geração de texto para imagem

Conclusão

O Janus-Pro representa um avanço importante em estratégia de treinamento, dados e tamanho de modelo
Alcançou desempenho de ponta tanto em compreensão multimodal quanto em geração de texto para imagem
No futuro, pretende resolver tarefas mais detalhadas por meio do aumento da resolução

Ainda não há comentários.

Ainda não há comentários.