24 pontos por xguru 2024-10-07 | 5 comentários | Compartilhar no WhatsApp
  • A equipe de pesquisa em IA da Apple desenvolveu um novo modelo, o Depth Pro, que pode avançar significativamente a forma como máquinas percebem profundidade
  • Ele pode trazer inovação para diversos setores, de realidade aumentada a carros autônomos

Principais características do Depth Pro

  • Gera mapas de profundidade 3D detalhados a partir de uma única imagem 2D em altíssima velocidade, sem depender dos dados de câmera antes necessários
  • Representa um grande salto na área de estimativa de profundidade monocular (monocular depth estimation)
  • Pode ser amplamente aplicado em áreas nas quais a percepção espacial em tempo real é essencial

Estimativa de profundidade rápida e precisa mesmo sem metadados

  • A estimativa de profundidade monocular tradicionalmente era uma tarefa difícil por exigir múltiplas imagens ou metadados como distância focal
  • No entanto, o Depth Pro contorna essas exigências e gera mapas de profundidade em alta resolução em 0,3 segundo em uma GPU padrão
  • Ele produz mapas de 2,25 megapixels com nitidez excepcional, capturando detalhes finos como cabelos ou plantas, que outros métodos costumam deixar passar
  • Os pesquisadores explicam que "essas características foram possibilitadas por diversas contribuições técnicas, incluindo um eficiente vision transformer multiescala para previsão densa"
  • Essa arquitetura consegue processar ao mesmo tempo o contexto geral da imagem e os detalhes finos, representando um salto enorme em relação aos modelos anteriores, mais lentos e menos precisos

O diferencial do metric depth e do zero-shot learning

  • O que realmente diferencia o Depth Pro é sua capacidade de "metric depth", que permite estimar tanto profundidade relativa quanto absoluta
  • Isso significa que o modelo pode fornecer medições reais, algo essencial para aplicações como realidade aumentada (AR), nas quais objetos virtuais precisam ser posicionados com precisão no espaço físico
  • O Depth Pro também não exige treinamento extensivo em datasets específicos de domínio para fazer previsões precisas, algo chamado de "zero-shot learning"
  • Isso torna o modelo altamente versátil, permitindo aplicá-lo a diferentes imagens sem os dados específicos de câmera normalmente exigidos em modelos de estimativa de profundidade
  • Os autores explicam que "o Depth Pro gera mapas de metric depth em escala absoluta para imagens arbitrárias do mundo real sem metadados como parâmetros intrínsecos da câmera"
  • Essa flexibilidade abre várias possibilidades, desde melhorar experiências de AR até aprimorar a detecção e o desvio de obstáculos em carros autônomos

Casos de uso reais

  • No comércio eletrônico, seria possível mostrar ao consumidor, pela câmera do smartphone, como um móvel ficaria no ambiente
  • Em carros autônomos, a geração em tempo real de mapas de profundidade em alta resolução a partir de uma única câmera pode contribuir para melhorar a percepção do ambiente e a segurança
  • Os pesquisadores enfatizam que "idealmente, nesse regime zero-shot, deve-se gerar mapas de metric depth que reproduzam com precisão a forma dos objetos, a disposição da cena e a escala absoluta", destacando o potencial de reduzir o tempo e o custo do treinamento tradicional de modelos de IA

Enfrentando os desafios da estimativa de profundidade

  • Um dos problemas mais difíceis na estimativa de profundidade é lidar com o fenômeno conhecido como "flying pixels"
    • "Flying pixels" são pixels que parecem estar flutuando no ar devido a erros no mapeamento de profundidade
  • O Depth Pro enfrenta esse problema diretamente, sendo especialmente eficaz em aplicações como reconstrução 3D ou ambientes virtuais, nas quais a precisão é crítica
  • Além disso, o Depth Pro apresenta desempenho excelente no rastreamento de bordas, superando modelos anteriores na capacidade de descrever com nitidez os objetos e seus contornos
  • Os pesquisadores afirmam que o Depth Pro "supera outros sistemas em precisão de borda por fatores multiplicativos", o que é crucial para aplicações que exigem segmentação precisa de objetos, como image matting ou imagens médicas

Open source e escalabilidade

  • A Apple disponibilizou o Depth Pro como open source para acelerar a adoção da tecnologia
  • O código e os pesos do modelo pré-treinado estão disponíveis no GitHub, permitindo que desenvolvedores e pesquisadores experimentem e aprimorem a tecnologia com facilidade
  • A empresa incentiva a exploração do potencial da tecnologia em áreas como robótica, manufatura e saúde

O futuro da percepção de profundidade em IA

  • O Depth Pro estabelece um novo padrão de velocidade e precisão no campo da estimativa de profundidade monocular
  • Sua capacidade de gerar mapas de profundidade de alta qualidade em tempo real a partir de uma única imagem deve ter grande impacto em vários setores que dependem de percepção espacial
  • Com seu lançamento em open source, o Depth Pro tende a se tornar uma tecnologia central em diferentes setores, de veículos autônomos à realidade aumentada

5 comentários

 
plaaat0102 2024-10-07

Sei lá... dá a sensação de que deveria estar escrito Meta em vez de Apple...

 
savvykang 2024-10-07
 
is9117 2024-10-07

Pelo que sei, na Tesla AI eles estão resolvendo esse problema de percepção de profundidade implementando um modelo de occupancy network com uso de multi-view e NeRF. Fico curioso para ver como empresas comerciais vão aplicar esse modelo e continuar aprimorando-o.

 
nemorize 2024-10-07

uau..

 
eususu 2024-10-07

Quando os LLMs estavam super em alta, a Apple estava quieta e eu fiquei pensando no que diabos ela estava fazendo, mas pelo visto estava cavando esse caminho aqui.