6 pontos por GN⁺ 2025-12-28 | 1 comentários | Compartilhar no WhatsApp
  • SHARP é um modelo que recebe uma única imagem como entrada e a converte em uma representação gaussiana 3D, gerando visualizações 3D realistas
  • Prevê os parâmetros da cena 3D com uma única inferência de rede neural em menos de 1 segundo em uma GPU padrão
  • A representação 3D gerada permite renderização em tempo real e oferece suporte a movimento de câmera métrico com escala absoluta
  • Em vários datasets, alcança melhorias de 25–34% em LPIPS e 21–43% em DISTS, além de uma velocidade de síntese centenas de vezes maior em comparação com modelos anteriores
  • Foi lançado como open source, permitindo que desenvolvedores executem diretamente predição e renderização via CLI e integrem com diversos renderizadores 3D

Visão geral do SHARP

  • SHARP (Sharp Monocular View Synthesis) é uma abordagem para gerar visualizações 3D fotorrealistas a partir de uma única foto
    • Com base na imagem de entrada, estima por regressão os parâmetros da representação gaussiana 3D
    • Alcança tempo de processamento inferior a 1 segundo em uma GPU padrão com apenas um único forward pass
  • A representação gaussiana 3D gerada pode ser renderizada em tempo real e fornece imagens em alta resolução de pontos de vista próximos
  • A representação possui uma estrutura métrica com escala absoluta, permitindo movimento real de câmera

Desempenho e generalização

  • Nos experimentos, o SHARP demonstrou desempenho de generalização zero-shot em diversos datasets
  • Em comparação com o modelo anterior de melhor desempenho, reduz LPIPS em 25–34% e DISTS em 21–43%
  • O tempo de síntese foi reduzido em três ordens de grandeza, ou seja, cerca de 1000 vezes mais rápido que antes

Instalação e execução

  • Pode ser executado em ambiente Python 3.13, com dependências instaladas via pip install -r requirements.txt
  • Na interface de linha de comando (CLI), a predição pode ser feita da seguinte forma
    • sharp predict -i 입력경로 -o 출력경로
    • Na primeira execução, o checkpoint do modelo é baixado automaticamente e armazenado no cache local
    • Em caso de download manual, é possível especificá-lo com a opção -c
  • O resultado é salvo como um arquivo .ply no formato 3D Gaussian Splat (3DGS), compatível com renderizadores públicos de 3DGS

Recursos de renderização

  • Em ambiente com GPU CUDA, é possível fazer renderização de vídeo ao longo da trajetória da câmera
    • Use a opção --render para executar predição e renderização ao mesmo tempo
    • Ou execute a renderização separadamente usando o resultado intermediário (.ply)
  • Segue o sistema de coordenadas do OpenCV (x para a direita, y para baixo, z para frente), e ao usar renderizadores externos é necessário corrigir escala e rotação

Avaliação e materiais de referência

  • Os resultados de avaliação quantitativa e qualitativa estão incluídos no artigo
  • Na página do projeto é possível ver exemplos de vídeos comparativos

Licença e citação

  • O código e o modelo podem ser usados de acordo com os termos dos arquivos LICENSE e LICENSE_MODEL, respectivamente
  • Para citar a pesquisa, consulte o artigo no arXiv “Sharp Monocular View Synthesis in Less Than a Second (2025)”
  • A base de código foi construída com base em várias contribuições open source

1 comentários

 
GN⁺ 2025-12-28
Comentários do Hacker News
  • O projeto SHARP da Apple voltou a ganhar destaque no HN
    A discussão relacionada já tinha aparecido em um tópico anterior

    • Recompartilharam o post apresentado com o título “SHARP, an approach to photorealistic view synthesis from a single image”
    • Apontaram que o guia de instalação no GitHub ligado a IA não funciona direito. Em geral, ele parte do pressuposto de que o ambiente de desenvolvimento já está configurado, o que aumenta bastante a barreira de entrada para iniciantes
  • Os materiais oficiais do SHARP podem ser vistos na página do projeto e no artigo (arXiv)

    • Um usuário comentou que o vídeo de demonstração do Bradley é bem mais impressionante do que a página oficial
    • Outro usuário disse que todos os autores parecem ser estrangeiros e manifestou curiosidade sobre as mudanças na composição da força de trabalho em STEM
  • A licença do modelo diz explicitamente “somente para fins de pesquisa”, então na prática não é open source

    • No README também não há menção de que seja open source; apenas que foi construído sobre base open source
    • Foi apontado que a influência da Meta ao distorcer o significado de “open source” acabou criando uma tendência de tratar simplesmente pesos publicados = open source
    • Um usuário disse que “pesos talvez nem sejam objeto de copyright”, então o ponto central seria a eficácia legal que a Apple realmente consegue impor
    • A licença principal não explicita restrições, o que parece ter gerado confusão
    • Um usuário afirmou que vai “pesquisar se dá para criar um produto lucrativo com isso”
  • Um usuário disse que já fez um fork do projeto para renderizar em MPS e compartilhou seu repositório no GitHub

    • Outro usuário agradeceu, dizendo que “parece ótimo”
  • Alguém deixou um comentário em tom de piada dizendo que seria “um grande dia para o pornô em VR”

    • Em resposta, outro usuário explicou que na prática as limitações de qualidade de conteúdo VR são bem claras.
      O modelo só faz inferência em um eixo, a resolução é limitada a 768px + 2 camadas, e o processamento em tempo real também é impossível
      Acrescentou que, neste ano, as inovações maiores aconteceram mais no lado de edição de imagem e modelos de vídeo
    • Outro usuário brincou que a expressão “Gaussian splat” soa como algo completamente diferente
  • Foi observado que “toda vez que uma grande empresa libera um modelo, a discussão sobre a definição de open source se repete”, destacando que a noção de ‘código-fonte’ de modelos de IA é diferente da de software
    A análise é que a Apple parece querer ganhar credibilidade acadêmica sem abrir mão das opções comerciais

    • Outro usuário comentou que “é uma pena a discussão sobre licença ocupar o topo quando a tecnologia em si é impressionante”,
      avaliando que a verdadeira força da Apple está em permitir vivenciar fotos antigas em VR
    • Outro usuário brincou que a expressão “which isn’t unsurprising” é complicada demais
    • A piada continuou com algo como “não ser surpreendente é surpreendente”
  • Comentaram que as pessoas costumam tirar várias fotos do mesmo objeto, o que na prática acaba fornecendo dados de imagem estereoscópica

    • Outro usuário acrescentou que os quadros do Live Photo também poderiam ser aproveitados
  • Um usuário disse que odeia Conda e por isso está hesitando em testar

    • Outro recomendou o pixi e compartilhou comandos de instalação detalhados, dizendo que na verdade basta ter Python 3.13 e uv, mesmo sem Conda
    • Outro usuário concordou, dizendo que “isso não é uma aversão irracional”
  • Um usuário comentou que, durante as férias, está experimentando projetos relacionados como StereoCrafter e GeometryCrafter;
    ao aplicar isso a vídeo, fica muito mais difícil e computacionalmente pesado por causa do problema de consistência temporal (temporal consistency),
    mas disse que testou espacializar um antigo vídeo caseiro da época da Guerra da Coreia e o resultado funcionou surpreendentemente bem
    Link do StereoCrafter, link do GeometryCrafter

    • Outro usuário respondeu que “gostaria muito de ver esse exemplo”