SHARP - uma abordagem para sintetizar vistas fotorrealistas a partir de uma única imagem

(apple.github.io)

5 pontos por GN⁺ 2025-12-17 | 1 comentários | Compartilhar no WhatsApp

O SHARP apresentado pela Apple é uma tecnologia que estima uma representação gaussiana 3D a partir de uma única foto para sintetizar novos pontos de vista fotorrealistas
O processamento é feito em menos de 1 segundo com uma única passagem feedforward de rede neural em uma GPU padrão, com renderização em tempo real
A representação 3D gerada é uma representação métrica com escala absoluta, que suporta movimento real de câmera
Mostra desempenho de generalização zero-shot em vários conjuntos de dados, com redução de 25–34% em LPIPS e de 21–43% em DISTS em comparação com modelos anteriores
Melhora a velocidade de síntese em 1000 vezes em relação ao estado anterior, estabelecendo um novo padrão para síntese de vistas 3D a partir de uma única imagem

Visão geral do SHARP

SHARP (Sharp Monocular View Synthesis) é uma abordagem para realizar síntese de vistas 3D fotorrealistas a partir de uma única imagem
- Estima por regressão os parâmetros da representação gaussiana 3D da cena a partir de uma única foto de entrada
- Esse processo é concluído em menos de 1 segundo em uma GPU padrão
A representação gaussiana 3D gerada oferece renderização em tempo real e produz imagens em alta resolução em pontos de vista próximos
- Alcança velocidade de renderização de mais de 100 quadros por segundo
- Mantém estruturas detalhadas e nitidez nos detalhes

Características técnicas

A representação 3D do SHARP é uma representação métrica que inclui escala absoluta, refletindo o movimento real da câmera
O processamento é feito com apenas uma passagem feedforward da rede neural, entregando resultados rápidos sem processo complexo de otimização
Por meio de generalização zero-shot, mantém desempenho estável mesmo em conjuntos de dados não vistos no treinamento

Desempenho e comparação

Alcança estado da arte (state of the art) em vários conjuntos de dados
- Melhoria de 25–34% na métrica LPIPS e de 21–43% na métrica DISTS
- Tempo de síntese 1000 vezes menor em comparação com o melhor modelo anterior
Esses ganhos melhoram ao mesmo tempo a eficiência e a qualidade da síntese de vistas 3D baseada em uma única imagem

Resultados visuais

O SHARP usa fotos do Unsplash como exemplo para visualizar a representação 3D gerada a partir de uma única imagem de entrada
- Os resultados de renderização em pontos de vista próximos mantêm detalhes nítidos e estruturas finas
- A renderização em tempo real permite uma transição natural entre pontos de vista

Fonte da pesquisa

O artigo foi publicado no arXiv:2512.10685
- Título: Sharp Monocular View Synthesis in Less Than a Second
- Pesquisadores: Lars Mescheder e outros 12 autores
- Instituição: Apple

1 comentários

GN⁺ 2025-12-17

Comentários do Hacker News

“Unsplash > Gen3C > The fly video” é realmente um vídeo de pesadelo
Se quiser ver com os próprios olhos, pode consultar este link
- As empresas provavelmente vão ver esse tipo de resultado horrível e tentar evoluir ainda mais rápido, mas eu ainda espero que continuem existindo vídeos realistas
  No fim, parece que as pessoas vão perder suas relações com a realidade e ficar presas a um traje de entretenimento virtual
  Com sorte, talvez ainda reste alguma tentativa de encontrar pessoas ‘reais’ em meio à realidade aumentada, mas já dependemos demais da tecnologia
  Mesmo com o avanço da tecnologia, fico em dúvida se isso vai trazer bons resultados para os humanos
- Me lembra os velhos tempos da IA, quando “tudo virava cabeça de cachorro”, e por isso até parece bonito
- “san check, 1d10” — uma piada dizendo que o vídeo é tão perturbador que precisaria de um teste de sanidade, como em memes de jogos de terror
- “Seth Brundle has entered the chat.” — uma referência ao protagonista do filme The Fly, comparando o clima mutante do vídeo
Consegui fazer algo funcionar no Apple Silicon
Há também um pequeno GIF de demonstração no repositório GitHub do ml-sharp
Estou tentando aproximar o Gaussian splat sem reimplementá-lo do zero, mas, sinceramente, está pesado
- Achei interessante que os artefatos de banding do GIF façam as chamas parecerem estar piscando de verdade
  Foi impressionante como a IA reconheceu a estrutura de uma foto dentro da foto e manteve só a parte do fogo em 2D
- Sinceramente, os resultados de exemplo não impressionam muito. Se você olhar os 20% inferiores, a qualidade cai
“O que exatamente isso faz?”
- É uma tecnologia que separa pessoas ou objetos do fundo em fotos antigas, como em documentários históricos, e dá a eles um movimento tridimensional
  Esse software faz isso em menos de 1 segundo e cria um modelo 3D
  O Gaussian splatting é especialmente legal
- Ele simula um efeito de paralaxe como se estivesse mudando o ângulo da câmera a partir de uma única imagem 2D
  Também separa bem as pessoas e consegue lidar com cenas com vários objetos
  O princípio é parecido com o efeito do modo retrato
- Ele transforma uma única foto em uma cena 3D grosseira, e ao mover levemente a câmera você pode ver um novo ponto de vista
  “Photorealistic” significa manter a textura e a iluminação reais
  É parecido com o recurso Spatial Scene do app Fotos da Apple — vídeo de demonstração
- Ele infere uma representação 3D oculta a partir de uma única foto e gera uma imagem realista de um ponto de vista um pouco diferente
- Basicamente, usa estimativa de profundidade (depth estimation) para dividir a cena em vários planos e preenche as partes ocultas com inpainting
  Depois move cada plano para implementar a paralaxe — parecido com o efeito de profundidade de fundo em jogos 2D de rolagem lateral
Chama atenção o fato de quase não haver rostos humanos nos exemplos
Pela minha experiência até agora, esses modelos costumam fazer as pessoas parecerem recortes de papel 2D quando vistas em relevo
Não sei se esse modelo realmente consegue representar isso com sensação de volume, mas a ausência de rostos humanos é sugestiva
- A Apple está usando o modelo Depth Pro para estimativa de profundidade, e dizem que ele lida muito bem com rostos
  Depth Pro GitHub / explicação no LearnOpenCV
Foi feito pela Apple, mas é só para GPU CUDA documentação relacionada
- Curiosamente, o próprio modelo da Apple não roda em MPS
  Parece que vamos ter de esperar alguns anos
- A saída em Gaussian splat pode ser gerada também na CPU
  Entre os repositórios de IA que usei até agora, este foi um dos mais fáceis de executar
- A versão modificada está aqui
- Essa limitação vale apenas para renderização de vídeo
  O modelo em si funciona em GPU, CPU e MPS
- O modelo funciona sem CUDA
  Você pode obter um arquivo .ply como resultado e colocá-lo no visualizador SparkJS
  O CUDA só é necessário para renderizar vídeo de rolagem lateral
O ponto principal é que ele “gera uma representação 3D realista a partir de uma única foto em menos de 1 segundo”
O recurso Spatial Scene do app Fotos da Apple também funciona de forma parecida
vídeo de demonstração
- Mas o resultado às vezes cria um espaço borrado e pouco natural
  Houve épocas em que o preenchimento sensível ao conteúdo do Photoshop era até melhor
Existe algum arquivo de exemplo de Gaussian splat?
- Publiquei os resultados dos meus testes neste repositório
  Mas há só um exemplo, então é difícil generalizar
Os resultados são impressionantes, mas passam uma sensação afiada demais e artificial
- Pessoalmente, gosto tanto dos resultados do TMPI quanto do SHARP
  Só que o TMPI sempre sai mais claro, então não sei qual dos dois está mais correto

SHARP - uma abordagem para sintetizar vistas fotorrealistas a partir de uma única imagem

Visão geral do SHARP

Características técnicas

Desempenho e comparação

Resultados visuais

Fonte da pesquisa

Leituras relacionadas

1 comentários

Comentários do Hacker News