OmniHuman - modelo que gera vídeos realistas a partir de uma única foto

xguru · 2025-02-13T10:28:01+09:00

Pesquisadores da ByteDance desenvolveram um sistema de IA que "gera vídeos de pessoas falando, cantando e se movendo naturalmente usando uma única foto" Superando a limitação dos modelos de IA anteriores, que só conseguiam animar o rosto ou a parte superior do corpo, ele pode gerar "vídeos que refletem movimentos do corpo inteiro" É o primeiro modelo unificado a "usar entrada de áudio, vídeo ou uma combinação dos dois" para animar movimentos humanos de forma realista Principais características Geração de vídeo baseada em uma única imagem Com apenas uma foto da pessoa, é possível gerar vídeos naturais que refletem movimentos do corpo inteiro Suporte a entradas multimodais Suporta entrada por áudio, vídeo ou pela combinação dos dois Em comparação com modelos anteriores, houve grande melhora na expressividade dos gestos Capaz de processar imagens em qualquer proporção Suporta diversas proporções de imagem, como fotos verticais de pessoas, retratos de meio corpo e fotos de corpo inteiro Compatibilidade com vários estilos e tipos de dados de entrada Pode refletir diversos estilos, como quadrinhos, personagens artificiais, animais e poses complexas Expressão corporal natural de acordo com o estilo musical Pode gerar movimentos adaptados a tons agudos, graves e diversos gêneros musicais Capacidade de imitar movimentos com base em vídeo Suporte a video driving, reproduzindo fielmente os movimentos de uma pessoa específica

(omnihuman-lab.github.io)

20 pontos por xguru 2025-02-13 | 2 comentários | Compartilhar no WhatsApp

Pesquisadores da ByteDance desenvolveram um sistema de IA que "gera vídeos de pessoas falando, cantando e se movendo naturalmente usando uma única foto"
Superando a limitação dos modelos de IA anteriores, que só conseguiam animar o rosto ou a parte superior do corpo, ele pode gerar "vídeos que refletem movimentos do corpo inteiro"
É o primeiro modelo unificado a "usar entrada de áudio, vídeo ou uma combinação dos dois" para animar movimentos humanos de forma realista
Principais características
- Geração de vídeo baseada em uma única imagem
  - Com apenas uma foto da pessoa, é possível gerar vídeos naturais que refletem movimentos do corpo inteiro
- Suporte a entradas multimodais
  - Suporta entrada por áudio, vídeo ou pela combinação dos dois
  - Em comparação com modelos anteriores, houve grande melhora na expressividade dos gestos
- Capaz de processar imagens em qualquer proporção
  - Suporta diversas proporções de imagem, como fotos verticais de pessoas, retratos de meio corpo e fotos de corpo inteiro
- Compatibilidade com vários estilos e tipos de dados de entrada
  - Pode refletir diversos estilos, como quadrinhos, personagens artificiais, animais e poses complexas
- Expressão corporal natural de acordo com o estilo musical
  - Pode gerar movimentos adaptados a tons agudos, graves e diversos gêneros musicais
- Capacidade de imitar movimentos com base em vídeo
  - Suporte a video driving, reproduzindo fielmente os movimentos de uma pessoa específica

2 comentários

dhy0613 2025-02-13

Uau, se a China entrar em guerra, não vai faltar vídeo de propaganda manipulado, com certeza.

colus001 2025-02-13

Uau... isso é muito legal, hein?

OmniHuman - modelo que gera vídeos realistas a partir de uma única foto

Leituras relacionadas

2 comentários