- SHARP é um modelo que recebe uma única imagem como entrada e a converte em uma representação gaussiana 3D, gerando visualizações 3D realistas
- Prevê os parâmetros da cena 3D com uma única inferência de rede neural em menos de 1 segundo em uma GPU padrão
- A representação 3D gerada permite renderização em tempo real e oferece suporte a movimento de câmera métrico com escala absoluta
- Em vários datasets, alcança melhorias de 25–34% em LPIPS e 21–43% em DISTS, além de uma velocidade de síntese centenas de vezes maior em comparação com modelos anteriores
- Foi lançado como open source, permitindo que desenvolvedores executem diretamente predição e renderização via CLI e integrem com diversos renderizadores 3D
Visão geral do SHARP
- SHARP (Sharp Monocular View Synthesis) é uma abordagem para gerar visualizações 3D fotorrealistas a partir de uma única foto
- Com base na imagem de entrada, estima por regressão os parâmetros da representação gaussiana 3D
- Alcança tempo de processamento inferior a 1 segundo em uma GPU padrão com apenas um único forward pass
- A representação gaussiana 3D gerada pode ser renderizada em tempo real e fornece imagens em alta resolução de pontos de vista próximos
- A representação possui uma estrutura métrica com escala absoluta, permitindo movimento real de câmera
Desempenho e generalização
- Nos experimentos, o SHARP demonstrou desempenho de generalização zero-shot em diversos datasets
- Em comparação com o modelo anterior de melhor desempenho, reduz LPIPS em 25–34% e DISTS em 21–43%
- O tempo de síntese foi reduzido em três ordens de grandeza, ou seja, cerca de 1000 vezes mais rápido que antes
Instalação e execução
- Pode ser executado em ambiente Python 3.13, com dependências instaladas via
pip install -r requirements.txt
- Na interface de linha de comando (CLI), a predição pode ser feita da seguinte forma
sharp predict -i 입력경로 -o 출력경로
- Na primeira execução, o checkpoint do modelo é baixado automaticamente e armazenado no cache local
- Em caso de download manual, é possível especificá-lo com a opção
-c
- O resultado é salvo como um arquivo
.ply no formato 3D Gaussian Splat (3DGS), compatível com renderizadores públicos de 3DGS
Recursos de renderização
- Em ambiente com GPU CUDA, é possível fazer renderização de vídeo ao longo da trajetória da câmera
- Use a opção
--render para executar predição e renderização ao mesmo tempo
- Ou execute a renderização separadamente usando o resultado intermediário (
.ply)
- Segue o sistema de coordenadas do OpenCV (x para a direita, y para baixo, z para frente), e ao usar renderizadores externos é necessário corrigir escala e rotação
Avaliação e materiais de referência
- Os resultados de avaliação quantitativa e qualitativa estão incluídos no artigo
- Na página do projeto é possível ver exemplos de vídeos comparativos
Licença e citação
- O código e o modelo podem ser usados de acordo com os termos dos arquivos LICENSE e LICENSE_MODEL, respectivamente
- Para citar a pesquisa, consulte o artigo no arXiv “Sharp Monocular View Synthesis in Less Than a Second (2025)”
- A base de código foi construída com base em várias contribuições open source
1 comentários
Comentários do Hacker News
O projeto SHARP da Apple voltou a ganhar destaque no HN
A discussão relacionada já tinha aparecido em um tópico anterior
Os materiais oficiais do SHARP podem ser vistos na página do projeto e no artigo (arXiv)
A licença do modelo diz explicitamente “somente para fins de pesquisa”, então na prática não é open source
Um usuário disse que já fez um fork do projeto para renderizar em MPS e compartilhou seu repositório no GitHub
Alguém deixou um comentário em tom de piada dizendo que seria “um grande dia para o pornô em VR”
O modelo só faz inferência em um eixo, a resolução é limitada a 768px + 2 camadas, e o processamento em tempo real também é impossível
Acrescentou que, neste ano, as inovações maiores aconteceram mais no lado de edição de imagem e modelos de vídeo
Foi observado que “toda vez que uma grande empresa libera um modelo, a discussão sobre a definição de open source se repete”, destacando que a noção de ‘código-fonte’ de modelos de IA é diferente da de software
A análise é que a Apple parece querer ganhar credibilidade acadêmica sem abrir mão das opções comerciais
avaliando que a verdadeira força da Apple está em permitir vivenciar fotos antigas em VR
Comentaram que as pessoas costumam tirar várias fotos do mesmo objeto, o que na prática acaba fornecendo dados de imagem estereoscópica
Um usuário disse que odeia Conda e por isso está hesitando em testar
uv, mesmo sem CondaUm usuário comentou que, durante as férias, está experimentando projetos relacionados como StereoCrafter e GeometryCrafter;
ao aplicar isso a vídeo, fica muito mais difícil e computacionalmente pesado por causa do problema de consistência temporal (temporal consistency),
mas disse que testou espacializar um antigo vídeo caseiro da época da Guerra da Coreia e o resultado funcionou surpreendentemente bem
Link do StereoCrafter, link do GeometryCrafter