Apple lança modelo open source que converte fotos 2D instantaneamente em visualizações 3D

(github.com/apple)

6 pontos por GN⁺ 2025-12-28 | 1 comentários | Compartilhar no WhatsApp

SHARP é um modelo que recebe uma única imagem como entrada e a converte em uma representação gaussiana 3D, gerando visualizações 3D realistas
Prevê os parâmetros da cena 3D com uma única inferência de rede neural em menos de 1 segundo em uma GPU padrão
A representação 3D gerada permite renderização em tempo real e oferece suporte a movimento de câmera métrico com escala absoluta
Em vários datasets, alcança melhorias de 25–34% em LPIPS e 21–43% em DISTS, além de uma velocidade de síntese centenas de vezes maior em comparação com modelos anteriores
Foi lançado como open source, permitindo que desenvolvedores executem diretamente predição e renderização via CLI e integrem com diversos renderizadores 3D

Visão geral do SHARP

SHARP (Sharp Monocular View Synthesis) é uma abordagem para gerar visualizações 3D fotorrealistas a partir de uma única foto
- Com base na imagem de entrada, estima por regressão os parâmetros da representação gaussiana 3D
- Alcança tempo de processamento inferior a 1 segundo em uma GPU padrão com apenas um único forward pass
A representação gaussiana 3D gerada pode ser renderizada em tempo real e fornece imagens em alta resolução de pontos de vista próximos
A representação possui uma estrutura métrica com escala absoluta, permitindo movimento real de câmera

Desempenho e generalização

Nos experimentos, o SHARP demonstrou desempenho de generalização zero-shot em diversos datasets
Em comparação com o modelo anterior de melhor desempenho, reduz LPIPS em 25–34% e DISTS em 21–43%
O tempo de síntese foi reduzido em três ordens de grandeza, ou seja, cerca de 1000 vezes mais rápido que antes

Instalação e execução

Pode ser executado em ambiente Python 3.13, com dependências instaladas via pip install -r requirements.txt
Na interface de linha de comando (CLI), a predição pode ser feita da seguinte forma
- sharp predict -i 입력경로 -o 출력경로
- Na primeira execução, o checkpoint do modelo é baixado automaticamente e armazenado no cache local
- Em caso de download manual, é possível especificá-lo com a opção -c
O resultado é salvo como um arquivo .ply no formato 3D Gaussian Splat (3DGS), compatível com renderizadores públicos de 3DGS

Recursos de renderização

Em ambiente com GPU CUDA, é possível fazer renderização de vídeo ao longo da trajetória da câmera
- Use a opção --render para executar predição e renderização ao mesmo tempo
- Ou execute a renderização separadamente usando o resultado intermediário (.ply)
Segue o sistema de coordenadas do OpenCV (x para a direita, y para baixo, z para frente), e ao usar renderizadores externos é necessário corrigir escala e rotação

Avaliação e materiais de referência

Os resultados de avaliação quantitativa e qualitativa estão incluídos no artigo
Na página do projeto é possível ver exemplos de vídeos comparativos

Licença e citação

O código e o modelo podem ser usados de acordo com os termos dos arquivos LICENSE e LICENSE_MODEL, respectivamente
Para citar a pesquisa, consulte o artigo no arXiv “Sharp Monocular View Synthesis in Less Than a Second (2025)”
A base de código foi construída com base em várias contribuições open source

1 comentários

GN⁺ 2025-12-28

Comentários do Hacker News

O projeto SHARP da Apple voltou a ganhar destaque no HN
A discussão relacionada já tinha aparecido em um tópico anterior
- Recompartilharam o post apresentado com o título “SHARP, an approach to photorealistic view synthesis from a single image”
- Apontaram que o guia de instalação no GitHub ligado a IA não funciona direito. Em geral, ele parte do pressuposto de que o ambiente de desenvolvimento já está configurado, o que aumenta bastante a barreira de entrada para iniciantes
Os materiais oficiais do SHARP podem ser vistos na página do projeto e no artigo (arXiv)
- Um usuário comentou que o vídeo de demonstração do Bradley é bem mais impressionante do que a página oficial
- Outro usuário disse que todos os autores parecem ser estrangeiros e manifestou curiosidade sobre as mudanças na composição da força de trabalho em STEM
A licença do modelo diz explicitamente “somente para fins de pesquisa”, então na prática não é open source
- No README também não há menção de que seja open source; apenas que foi construído sobre base open source
- Foi apontado que a influência da Meta ao distorcer o significado de “open source” acabou criando uma tendência de tratar simplesmente pesos publicados = open source
- Um usuário disse que “pesos talvez nem sejam objeto de copyright”, então o ponto central seria a eficácia legal que a Apple realmente consegue impor
- A licença principal não explicita restrições, o que parece ter gerado confusão
- Um usuário afirmou que vai “pesquisar se dá para criar um produto lucrativo com isso”
Um usuário disse que já fez um fork do projeto para renderizar em MPS e compartilhou seu repositório no GitHub
- Outro usuário agradeceu, dizendo que “parece ótimo”
Alguém deixou um comentário em tom de piada dizendo que seria “um grande dia para o pornô em VR”
- Em resposta, outro usuário explicou que na prática as limitações de qualidade de conteúdo VR são bem claras.
  O modelo só faz inferência em um eixo, a resolução é limitada a 768px + 2 camadas, e o processamento em tempo real também é impossível
  Acrescentou que, neste ano, as inovações maiores aconteceram mais no lado de edição de imagem e modelos de vídeo
- Outro usuário brincou que a expressão “Gaussian splat” soa como algo completamente diferente
Foi observado que “toda vez que uma grande empresa libera um modelo, a discussão sobre a definição de open source se repete”, destacando que a noção de ‘código-fonte’ de modelos de IA é diferente da de software
A análise é que a Apple parece querer ganhar credibilidade acadêmica sem abrir mão das opções comerciais
- Outro usuário comentou que “é uma pena a discussão sobre licença ocupar o topo quando a tecnologia em si é impressionante”,
  avaliando que a verdadeira força da Apple está em permitir vivenciar fotos antigas em VR
- Outro usuário brincou que a expressão “which isn’t unsurprising” é complicada demais
- A piada continuou com algo como “não ser surpreendente é surpreendente”
Comentaram que as pessoas costumam tirar várias fotos do mesmo objeto, o que na prática acaba fornecendo dados de imagem estereoscópica
- Outro usuário acrescentou que os quadros do Live Photo também poderiam ser aproveitados
Um usuário disse que odeia Conda e por isso está hesitando em testar
- Outro recomendou o pixi e compartilhou comandos de instalação detalhados, dizendo que na verdade basta ter Python 3.13 e uv, mesmo sem Conda
- Outro usuário concordou, dizendo que “isso não é uma aversão irracional”
Um usuário comentou que, durante as férias, está experimentando projetos relacionados como StereoCrafter e GeometryCrafter;
ao aplicar isso a vídeo, fica muito mais difícil e computacionalmente pesado por causa do problema de consistência temporal (temporal consistency),
mas disse que testou espacializar um antigo vídeo caseiro da época da Guerra da Coreia e o resultado funcionou surpreendentemente bem
Link do StereoCrafter, link do GeometryCrafter
- Outro usuário respondeu que “gostaria muito de ver esse exemplo”

Apple lança modelo open source que converte fotos 2D instantaneamente em visualizações 3D

Visão geral do SHARP

Desempenho e generalização

Instalação e execução

Recursos de renderização

Avaliação e materiais de referência

Licença e citação

Leituras relacionadas

1 comentários

Comentários do Hacker News