- A equipe de pesquisa em IA da Apple desenvolveu um novo modelo, o Depth Pro, que pode avançar significativamente a forma como máquinas percebem profundidade
- Ele pode trazer inovação para diversos setores, de realidade aumentada a carros autônomos
Principais características do Depth Pro
- Gera mapas de profundidade 3D detalhados a partir de uma única imagem 2D em altíssima velocidade, sem depender dos dados de câmera antes necessários
- Representa um grande salto na área de estimativa de profundidade monocular (monocular depth estimation)
- Pode ser amplamente aplicado em áreas nas quais a percepção espacial em tempo real é essencial
Estimativa de profundidade rápida e precisa mesmo sem metadados
- A estimativa de profundidade monocular tradicionalmente era uma tarefa difícil por exigir múltiplas imagens ou metadados como distância focal
- No entanto, o Depth Pro contorna essas exigências e gera mapas de profundidade em alta resolução em 0,3 segundo em uma GPU padrão
- Ele produz mapas de 2,25 megapixels com nitidez excepcional, capturando detalhes finos como cabelos ou plantas, que outros métodos costumam deixar passar
- Os pesquisadores explicam que "essas características foram possibilitadas por diversas contribuições técnicas, incluindo um eficiente vision transformer multiescala para previsão densa"
- Essa arquitetura consegue processar ao mesmo tempo o contexto geral da imagem e os detalhes finos, representando um salto enorme em relação aos modelos anteriores, mais lentos e menos precisos
O diferencial do metric depth e do zero-shot learning
- O que realmente diferencia o Depth Pro é sua capacidade de "metric depth", que permite estimar tanto profundidade relativa quanto absoluta
- Isso significa que o modelo pode fornecer medições reais, algo essencial para aplicações como realidade aumentada (AR), nas quais objetos virtuais precisam ser posicionados com precisão no espaço físico
- O Depth Pro também não exige treinamento extensivo em datasets específicos de domínio para fazer previsões precisas, algo chamado de "zero-shot learning"
- Isso torna o modelo altamente versátil, permitindo aplicá-lo a diferentes imagens sem os dados específicos de câmera normalmente exigidos em modelos de estimativa de profundidade
- Os autores explicam que "o Depth Pro gera mapas de metric depth em escala absoluta para imagens arbitrárias do mundo real sem metadados como parâmetros intrínsecos da câmera"
- Essa flexibilidade abre várias possibilidades, desde melhorar experiências de AR até aprimorar a detecção e o desvio de obstáculos em carros autônomos
Casos de uso reais
- No comércio eletrônico, seria possível mostrar ao consumidor, pela câmera do smartphone, como um móvel ficaria no ambiente
- Em carros autônomos, a geração em tempo real de mapas de profundidade em alta resolução a partir de uma única câmera pode contribuir para melhorar a percepção do ambiente e a segurança
- Os pesquisadores enfatizam que "idealmente, nesse regime zero-shot, deve-se gerar mapas de metric depth que reproduzam com precisão a forma dos objetos, a disposição da cena e a escala absoluta", destacando o potencial de reduzir o tempo e o custo do treinamento tradicional de modelos de IA
Enfrentando os desafios da estimativa de profundidade
- Um dos problemas mais difíceis na estimativa de profundidade é lidar com o fenômeno conhecido como "flying pixels"
- "Flying pixels" são pixels que parecem estar flutuando no ar devido a erros no mapeamento de profundidade
- O Depth Pro enfrenta esse problema diretamente, sendo especialmente eficaz em aplicações como reconstrução 3D ou ambientes virtuais, nas quais a precisão é crítica
- Além disso, o Depth Pro apresenta desempenho excelente no rastreamento de bordas, superando modelos anteriores na capacidade de descrever com nitidez os objetos e seus contornos
- Os pesquisadores afirmam que o Depth Pro "supera outros sistemas em precisão de borda por fatores multiplicativos", o que é crucial para aplicações que exigem segmentação precisa de objetos, como image matting ou imagens médicas
Open source e escalabilidade
- A Apple disponibilizou o Depth Pro como open source para acelerar a adoção da tecnologia
- O código e os pesos do modelo pré-treinado estão disponíveis no GitHub, permitindo que desenvolvedores e pesquisadores experimentem e aprimorem a tecnologia com facilidade
- A empresa incentiva a exploração do potencial da tecnologia em áreas como robótica, manufatura e saúde
O futuro da percepção de profundidade em IA
- O Depth Pro estabelece um novo padrão de velocidade e precisão no campo da estimativa de profundidade monocular
- Sua capacidade de gerar mapas de profundidade de alta qualidade em tempo real a partir de uma única imagem deve ter grande impacto em vários setores que dependem de percepção espacial
- Com seu lançamento em open source, o Depth Pro tende a se tornar uma tecnologia central em diferentes setores, de veículos autônomos à realidade aumentada
5 comentários
Sei lá... dá a sensação de que deveria estar escrito Meta em vez de Apple...
Lembra o Microsoft Photosynth (2006)
Pelo que sei, na Tesla AI eles estão resolvendo esse problema de percepção de profundidade implementando um modelo de occupancy network com uso de multi-view e NeRF. Fico curioso para ver como empresas comerciais vão aplicar esse modelo e continuar aprimorando-o.
uau..
Quando os LLMs estavam super em alta, a Apple estava quieta e eu fiquei pensando no que diabos ela estava fazendo, mas pelo visto estava cavando esse caminho aqui.