3 pontos por GN⁺ 2025-02-21 | 1 comentários | Compartilhar no WhatsApp
  • O Magma é o primeiro modelo fundamental capaz de interpretar entradas multimodais e conectá-las dentro de um ambiente, podendo lidar com interações complexas nos mundos virtual e real.
  • Vai além da simples compreensão de imagens e vídeos, gerando planejamento visual e execução orientados por objetivos para realizar diversas tarefas de agentes de IA.
  • Alcança desempenho de ponta em várias tarefas multimodais, como navegação de UI, manipulação robótica e compreensão de imagens e vídeos, especialmente em entendimento e raciocínio espacial.
  • Método de pré-treinamento escalável: aprende com dados de vídeo não rotulados junto com dados de agentes já existentes, obtendo forte capacidade de generalização e adequação para aplicações reais.
  • Código, modelo e demo de navegação de UI serão divulgados no MSR Forum (2025.02.25).

Objetivo do Magma

  • Inteligência linguística e espaço-temporal:
    • Capacidade de compreender imagens e vídeos com precisão e, com base nisso, transformar objetivos em planos de ação e execução.
  • Operação em ambientes digitais e físicos:
    • Capaz de executar tanto navegação na web (manipulação de UI) quanto manipulação robótica.
    • Uma IA capaz de transitar livremente entre ambientes digitais e físicos como um humano.
  • Para isso, o Magma foi treinado com um novo conjunto de dados e uma estrutura de pré-treinamento que aprende de forma integrada texto, imagem e ação, aproveitando dados de vídeo não rotulados e dados de agentes já existentes.

Método de pré-treinamento do Magma

  • O Magma é treinado por meio de duas abordagens principais.
  • 1️⃣ Uso de dados de treinamento heterogêneos em grande escala
    • Além de dados multimodais existentes, dados de navegação de UI e dados de manipulação robótica, também aprende com grandes volumes de dados de vídeo não rotulados coletados.
    • Remove o movimento da câmera e extrai dados de ações reais, permitindo que o modelo aprenda previsão e planejamento de ações de longo prazo.
  • 2️⃣ Definição de objetivos unificados de pré-treinamento
    • Texto e ação são intrinsecamente diferentes, e conectá-los de forma eficaz é o desafio.
    • Introduz novas técnicas de aprendizado, como Set-of-Mark e Trace-of-Mark, para construir uma forte estrutura de alinhamento entre texto, imagem e ação.
      • Set-of-Mark (SoM): possibilita uma base de ação eficaz nas imagens, prevendo marcas numéricas em botões clicáveis em capturas de tela de UI, em braços robóticos e em vídeos humanos.
      • Trace-of-Mark (ToM): fornece supervisão para manipulação robótica e ações humanas, levando o modelo a entender a dinâmica temporal dos vídeos e prever estados futuros antes de agir.

Como usar o modelo

Uso direto (pode ser usado sem fine-tuning)

O Magma foi projetado para fins de pesquisa e pode ser usado das seguintes formas.

  • Geração de texto baseada em imagem/vídeo: pode gerar descrições e respostas com base nas imagens e textos fornecidos.
  • Planejamento visual (Visual Planning): pode prever trajetórias futuras de ação para atingir objetivos, como mover objetos.
  • Capacidades de agente:
    • Navegação de UI: por exemplo, prever ações de UI como "clicar no botão de busca"
    • Manipulação robótica: previsão de manipulação robótica com 7 graus de liberdade (7 DoF)

Tarefas downstream (com uso de fine-tuning)

O Magma pode receber treinamento adicional para se adequar a tarefas específicas.

  • Legendagem de imagens e QA: pode ser treinado no estilo de modelos multimodais de linguagem de grande porte (LLM), reforçando a compreensão e o raciocínio espacial.
  • Legendagem de vídeos e QA: também pode reforçar a compreensão e o raciocínio temporais sobre dados de vídeo.
  • Navegação de UI: pode ser otimizado para tarefas de navegação de UI na web e em dispositivos móveis, alcançando alto desempenho.
  • Manipulação robótica: com treinamento adicional para controle de robôs, apresenta desempenho superior a modelos existentes de manipulação robótica, como o OpenVLA.

Viés (Bias), riscos (Risks), limitações (Limitations)

  • Este modelo não foi projetado para todas as tarefas downstream.
  • Antes de aplicá-lo a casos de uso específicos, é necessário avaliar e ajustar precisão, segurança e equidade.
  • Especialmente em cenários de alto risco, é necessário cumprir as leis e regulamentações aplicáveis.

1 comentários

 
GN⁺ 2025-02-21
Opiniões no Hacker News
  • Agradecemos o interesse no projeto Magma. Vamos liberar gradualmente o código de inferência, treinamento, avaliação e pré-processamento de dados, e isso deve estar concluído até a próxima terça-feira
  • A velocidade de evolução dos agentes multimodais é impressionante. O OpenVLA foi lançado em junho de 2024 e, na época, era estado da arte. Oito meses depois, em tarefas como "Pick Place Hotdog Sausage", a taxa de sucesso aumentou de 2/10 para 6/10
  • Robôs industriais são eficientes justamente porque não imitam o comportamento humano. Por isso, é difícil entender qual é o sentido de propor ensinar comportamento humano aos robôs. Robôs domésticos provavelmente precisarão de ferramentas eficientes. Serão necessárias novas máquinas, diferentes das lavadoras, fornos e lava-louças que usamos hoje
  • As capacidades multimodais, especialmente a previsão da próxima ação, são impressionantes. Estou acompanhando para ver se esse recurso será disponibilizado como open source no GitHub. Também tenho curiosidade sobre o motivo do nome Magma
  • É um modelo realmente interessante. Estou ansioso para testá-lo. Mas o que eu quero é um modelo de agente multimodal que consiga gerar embeddings para modelos de controle de humanoides, como o Meta motivo. O Meta motivo é um modelo simples treinado com o esqueleto SMPL, e suas capacidades são limitadas por não ter dedos. Poderiam ter usado um modelo mais avançado, como o SMPL-X, mas a falta de dados de movimento abertos com movimentos precisos dos dedos dificulta o treinamento de modelos robustos de manipulação
  • A maioria dos datasets de movimento existentes vem de ambientes acadêmicos de captura de movimento e não é focada em tarefas de manipulação. Acredito que os avanços em HPE 3D a partir de vídeo 2D vão preencher essa lacuna. Se houver acesso a milhares de horas de vídeo, será possível construir um grande dataset de movimento cobrindo várias interações do mundo real
  • Isso permitiria os dois componentes necessários para treinar um modelo de agente que gere embeddings legíveis por modelos de controle capazes de modelar com precisão os movimentos das mãos e das articulações dos dedos. Considerando o rápido avanço do HPE 3D estado da arte a partir de vídeo 2D e o enorme volume de vídeos online, espero que vejamos robôs humanoides com boas habilidades de manipulação em um futuro próximo
  • No vídeo em que limpam uma caneca, a pessoa parece fingir que está lavando o copo, como se não quisesse molhar as mãos. Fico curioso para saber quando o modelo será capaz de captar esse tipo de sutileza
  • Fico me perguntando por que modelos multimodais não geram imagens de forma flexível. Parece que eles repassam isso para outro modelo gerar. Eles não parecem saber muito bem o que há nas imagens que criam, embora consigam editá-las
  • Agentes multimodais são conhecidos por falhar em tarefas de longo prazo. Fico curioso para saber como o Magma se sai nisso
  • Fico me perguntando se existe algum modelo multimodal treinado para raciocínio
  • Fico me perguntando se há pesquisas sobre treinamento incremental. Isso poderia ser usado em robôs como alternativa ao RAG