Apple apresenta o Depth Pro: modelo de IA que redefine as regras da visão 3D

xguru · 2024-10-07T09:51:02+09:00

A equipe de pesquisa em IA da Apple desenvolveu um novo modelo, o Depth Pro, que pode avançar significativamente a forma como máquinas percebem profundidade Ele pode trazer inovação para diversos setores, de realidade aumentada a carros autônomos Principais características do Depth Pro Gera mapas de profundidade 3D detalhados a partir de uma única imagem 2D em altíssima velocidade, sem depender dos dados de câmera antes necessários Representa um grande salto na área de estimativa de profundidade monocular (monocular depth estimation) Pode ser amplamente aplicado em áreas nas quais a percepção espacial em tempo real é essencial Estimativa de profundidade rápida e precisa mesmo sem metadados A estimativa de profundidade monocular tradicionalmente era uma tarefa difícil por exigir múltiplas imagens ou metadados como distância focal No entanto, o Depth Pro contorna essas exigências e gera mapas de profundidade em alta resolução em 0,3 segundo em uma GPU padrão Ele produz mapas de 2,25 megapixels com nitidez excepcional, capturando detalhes finos como cabelos ou plantas, que outros métodos costumam deixar passar Os pesquisadores explicam que "essas características foram possibilitadas por diversas contribuições técnicas, incluindo um eficiente vision transformer multiescala para previsão densa" Essa arquitetura consegue processar ao mesmo tempo o contexto geral da imagem e os detalhes finos, representando um salto enorme em relação aos modelos anteriores, mais lentos e menos precisos O diferencial do metric depth e do zero-shot learning O que realmente diferencia o Depth Pro é sua capacidade de "metric depth", que permite estimar tanto profundidade relativa quanto absoluta Isso significa que o modelo pode fornecer medições reais, algo essencial para aplicações como realidade aumentada (AR), nas quais objetos virtuais precisam ser posicionados com precisão no espaço físico O Depth Pro também não exige treinamento extensivo em datasets específicos de domínio para fazer previsões precisas, algo chamado de "zero-shot learning" Isso torna o modelo altamente versátil, permitindo aplicá-lo a diferentes imagens sem os dados específicos de câmera normalmente exigidos em modelos de estimativa de profundidade Os autores explicam que "o Depth Pro gera mapas de metric depth em escala absoluta para imagens arbitrárias do mundo real sem metadados como parâmetros intrínsecos da câmera" Essa flexibilidade abre várias possibilidades, desde melhorar experiências de AR até aprimorar a detecção e o desvio de obstáculos em carros autônomos Casos de uso reais No comércio eletrônico, seria possível mostrar ao consumidor, pela câmera do smartphone, como um móvel ficaria no ambiente Em carros autônomos, a geração em tempo real de mapas de profundidade em alta resolução a partir de uma única câmera pode contribuir para melhorar a percepção do ambiente e a segurança Os pesquisadores enfatizam que "idealmente, nesse regime zero-shot, deve-se gerar mapas de metric depth que reproduzam com precisão a forma dos objetos, a disposição da cena e a escala absoluta", destacando o potencial de reduzir o tempo e o custo do treinamento tradicional de modelos de IA Enfrentando os desafios da estimativa de profundidade Um dos problemas mais difíceis na estimativa de profundidade é lidar com o fenômeno conhecido como "flying pixels" "Flying pixels" são pixels que parecem estar flutuando no ar devido a erros no mapeamento de profundidade O Depth Pro enfrenta esse problema diretamente, sendo especialmente eficaz em aplicações como reconstrução 3D ou ambientes virtuais, nas quais a precisão é crítica Além disso, o Depth Pro apresenta desempenho excelente no rastreamento de bordas, superando modelos anteriores na capacidade de descrever com nitidez os objetos e seus contornos Os pesquisadores afirmam que o Depth Pro "supera outros sistemas em precisão de borda por fatores multiplicativos", o que é crucial para aplicações que exigem segmentação precisa de objetos, como image matting ou imagens médicas Open source e escalabilidade A Apple disponibilizou o Depth Pro como open source para acelerar a adoção da tecnologia O código e os pesos do modelo pré-treinado estão disponíveis no GitHub, permitindo que desenvolvedores e pesquisadores experimentem e aprimorem a tecnologia com facilidade A empresa incentiva a exploração do potencial da tecnologia em áreas como robótica, manufatura e saúde O futuro da percepção de profundidade em IA O Depth Pro estabelece um novo padrão de velocidade e precisão no campo da estimativa de profundidade monocular Sua capacidade de gerar mapas de profundidade de alta qualidade em tempo real a partir de uma única imagem deve ter grande impacto em vários setores que dependem de percepção espacial Com seu lançamento em open source, o Depth Pro tende a se tornar uma tecnologia central em diferentes setores, de veículos autônomos à realidade aumentada

(venturebeat.com)

24 pontos por xguru 2024-10-07 | 5 comentários | Compartilhar no WhatsApp

A equipe de pesquisa em IA da Apple desenvolveu um novo modelo, o Depth Pro, que pode avançar significativamente a forma como máquinas percebem profundidade
Ele pode trazer inovação para diversos setores, de realidade aumentada a carros autônomos

Principais características do Depth Pro

Gera mapas de profundidade 3D detalhados a partir de uma única imagem 2D em altíssima velocidade, sem depender dos dados de câmera antes necessários
Representa um grande salto na área de estimativa de profundidade monocular (monocular depth estimation)
Pode ser amplamente aplicado em áreas nas quais a percepção espacial em tempo real é essencial

Estimativa de profundidade rápida e precisa mesmo sem metadados

A estimativa de profundidade monocular tradicionalmente era uma tarefa difícil por exigir múltiplas imagens ou metadados como distância focal
No entanto, o Depth Pro contorna essas exigências e gera mapas de profundidade em alta resolução em 0,3 segundo em uma GPU padrão
Ele produz mapas de 2,25 megapixels com nitidez excepcional, capturando detalhes finos como cabelos ou plantas, que outros métodos costumam deixar passar
Os pesquisadores explicam que "essas características foram possibilitadas por diversas contribuições técnicas, incluindo um eficiente vision transformer multiescala para previsão densa"
Essa arquitetura consegue processar ao mesmo tempo o contexto geral da imagem e os detalhes finos, representando um salto enorme em relação aos modelos anteriores, mais lentos e menos precisos

O diferencial do metric depth e do zero-shot learning

O que realmente diferencia o Depth Pro é sua capacidade de "metric depth", que permite estimar tanto profundidade relativa quanto absoluta
Isso significa que o modelo pode fornecer medições reais, algo essencial para aplicações como realidade aumentada (AR), nas quais objetos virtuais precisam ser posicionados com precisão no espaço físico
O Depth Pro também não exige treinamento extensivo em datasets específicos de domínio para fazer previsões precisas, algo chamado de "zero-shot learning"
Isso torna o modelo altamente versátil, permitindo aplicá-lo a diferentes imagens sem os dados específicos de câmera normalmente exigidos em modelos de estimativa de profundidade
Os autores explicam que "o Depth Pro gera mapas de metric depth em escala absoluta para imagens arbitrárias do mundo real sem metadados como parâmetros intrínsecos da câmera"
Essa flexibilidade abre várias possibilidades, desde melhorar experiências de AR até aprimorar a detecção e o desvio de obstáculos em carros autônomos

Casos de uso reais

No comércio eletrônico, seria possível mostrar ao consumidor, pela câmera do smartphone, como um móvel ficaria no ambiente
Em carros autônomos, a geração em tempo real de mapas de profundidade em alta resolução a partir de uma única câmera pode contribuir para melhorar a percepção do ambiente e a segurança
Os pesquisadores enfatizam que "idealmente, nesse regime zero-shot, deve-se gerar mapas de metric depth que reproduzam com precisão a forma dos objetos, a disposição da cena e a escala absoluta", destacando o potencial de reduzir o tempo e o custo do treinamento tradicional de modelos de IA

Enfrentando os desafios da estimativa de profundidade

Um dos problemas mais difíceis na estimativa de profundidade é lidar com o fenômeno conhecido como "flying pixels"
- "Flying pixels" são pixels que parecem estar flutuando no ar devido a erros no mapeamento de profundidade
O Depth Pro enfrenta esse problema diretamente, sendo especialmente eficaz em aplicações como reconstrução 3D ou ambientes virtuais, nas quais a precisão é crítica
Além disso, o Depth Pro apresenta desempenho excelente no rastreamento de bordas, superando modelos anteriores na capacidade de descrever com nitidez os objetos e seus contornos
Os pesquisadores afirmam que o Depth Pro "supera outros sistemas em precisão de borda por fatores multiplicativos", o que é crucial para aplicações que exigem segmentação precisa de objetos, como image matting ou imagens médicas

Open source e escalabilidade

A Apple disponibilizou o Depth Pro como open source para acelerar a adoção da tecnologia
O código e os pesos do modelo pré-treinado estão disponíveis no GitHub, permitindo que desenvolvedores e pesquisadores experimentem e aprimorem a tecnologia com facilidade
A empresa incentiva a exploração do potencial da tecnologia em áreas como robótica, manufatura e saúde

O futuro da percepção de profundidade em IA

O Depth Pro estabelece um novo padrão de velocidade e precisão no campo da estimativa de profundidade monocular
Sua capacidade de gerar mapas de profundidade de alta qualidade em tempo real a partir de uma única imagem deve ter grande impacto em vários setores que dependem de percepção espacial
Com seu lançamento em open source, o Depth Pro tende a se tornar uma tecnologia central em diferentes setores, de veículos autônomos à realidade aumentada

5 comentários

plaaat0102 2024-10-07

Sei lá... dá a sensação de que deveria estar escrito Meta em vez de Apple...

savvykang 2024-10-07

Lembra o Microsoft Photosynth (2006)

is9117 2024-10-07

Pelo que sei, na Tesla AI eles estão resolvendo esse problema de percepção de profundidade implementando um modelo de occupancy network com uso de multi-view e NeRF. Fico curioso para ver como empresas comerciais vão aplicar esse modelo e continuar aprimorando-o.

nemorize 2024-10-07

uau..

eususu 2024-10-07

Quando os LLMs estavam super em alta, a Apple estava quieta e eu fiquei pensando no que diabos ela estava fazendo, mas pelo visto estava cavando esse caminho aqui.