Magma - modelo fundamental para agentes de IA multimodais

(microsoft.github.io)

3 pontos por GN⁺ 2025-02-21 | 1 comentários | Compartilhar no WhatsApp

O Magma é o primeiro modelo fundamental capaz de interpretar entradas multimodais e conectá-las dentro de um ambiente, podendo lidar com interações complexas nos mundos virtual e real.
Vai além da simples compreensão de imagens e vídeos, gerando planejamento visual e execução orientados por objetivos para realizar diversas tarefas de agentes de IA.
Alcança desempenho de ponta em várias tarefas multimodais, como navegação de UI, manipulação robótica e compreensão de imagens e vídeos, especialmente em entendimento e raciocínio espacial.
Método de pré-treinamento escalável: aprende com dados de vídeo não rotulados junto com dados de agentes já existentes, obtendo forte capacidade de generalização e adequação para aplicações reais.
Código, modelo e demo de navegação de UI serão divulgados no MSR Forum (2025.02.25).

Objetivo do Magma

Inteligência linguística e espaço-temporal:
- Capacidade de compreender imagens e vídeos com precisão e, com base nisso, transformar objetivos em planos de ação e execução.
Operação em ambientes digitais e físicos:
- Capaz de executar tanto navegação na web (manipulação de UI) quanto manipulação robótica.
- Uma IA capaz de transitar livremente entre ambientes digitais e físicos como um humano.
Para isso, o Magma foi treinado com um novo conjunto de dados e uma estrutura de pré-treinamento que aprende de forma integrada texto, imagem e ação, aproveitando dados de vídeo não rotulados e dados de agentes já existentes.

Método de pré-treinamento do Magma

O Magma é treinado por meio de duas abordagens principais.
1️⃣ Uso de dados de treinamento heterogêneos em grande escala
- Além de dados multimodais existentes, dados de navegação de UI e dados de manipulação robótica, também aprende com grandes volumes de dados de vídeo não rotulados coletados.
- Remove o movimento da câmera e extrai dados de ações reais, permitindo que o modelo aprenda previsão e planejamento de ações de longo prazo.
2️⃣ Definição de objetivos unificados de pré-treinamento
- Texto e ação são intrinsecamente diferentes, e conectá-los de forma eficaz é o desafio.
- Introduz novas técnicas de aprendizado, como Set-of-Mark e Trace-of-Mark, para construir uma forte estrutura de alinhamento entre texto, imagem e ação.
  - Set-of-Mark (SoM): possibilita uma base de ação eficaz nas imagens, prevendo marcas numéricas em botões clicáveis em capturas de tela de UI, em braços robóticos e em vídeos humanos.
  - Trace-of-Mark (ToM): fornece supervisão para manipulação robótica e ações humanas, levando o modelo a entender a dinâmica temporal dos vídeos e prever estados futuros antes de agir.

Como usar o modelo

Uso direto (pode ser usado sem fine-tuning)

O Magma foi projetado para fins de pesquisa e pode ser usado das seguintes formas.

Geração de texto baseada em imagem/vídeo: pode gerar descrições e respostas com base nas imagens e textos fornecidos.
Planejamento visual (Visual Planning): pode prever trajetórias futuras de ação para atingir objetivos, como mover objetos.
Capacidades de agente:
- Navegação de UI: por exemplo, prever ações de UI como "clicar no botão de busca"
- Manipulação robótica: previsão de manipulação robótica com 7 graus de liberdade (7 DoF)

Tarefas downstream (com uso de fine-tuning)

O Magma pode receber treinamento adicional para se adequar a tarefas específicas.

Legendagem de imagens e QA: pode ser treinado no estilo de modelos multimodais de linguagem de grande porte (LLM), reforçando a compreensão e o raciocínio espacial.
Legendagem de vídeos e QA: também pode reforçar a compreensão e o raciocínio temporais sobre dados de vídeo.
Navegação de UI: pode ser otimizado para tarefas de navegação de UI na web e em dispositivos móveis, alcançando alto desempenho.
Manipulação robótica: com treinamento adicional para controle de robôs, apresenta desempenho superior a modelos existentes de manipulação robótica, como o OpenVLA.

Viés (Bias), riscos (Risks), limitações (Limitations)

Este modelo não foi projetado para todas as tarefas downstream.
Antes de aplicá-lo a casos de uso específicos, é necessário avaliar e ajustar precisão, segurança e equidade.
Especialmente em cenários de alto risco, é necessário cumprir as leis e regulamentações aplicáveis.

1 comentários

GN⁺ 2025-02-21

Opiniões no Hacker News

Agradecemos o interesse no projeto Magma. Vamos liberar gradualmente o código de inferência, treinamento, avaliação e pré-processamento de dados, e isso deve estar concluído até a próxima terça-feira
A velocidade de evolução dos agentes multimodais é impressionante. O OpenVLA foi lançado em junho de 2024 e, na época, era estado da arte. Oito meses depois, em tarefas como "Pick Place Hotdog Sausage", a taxa de sucesso aumentou de 2/10 para 6/10
Robôs industriais são eficientes justamente porque não imitam o comportamento humano. Por isso, é difícil entender qual é o sentido de propor ensinar comportamento humano aos robôs. Robôs domésticos provavelmente precisarão de ferramentas eficientes. Serão necessárias novas máquinas, diferentes das lavadoras, fornos e lava-louças que usamos hoje
As capacidades multimodais, especialmente a previsão da próxima ação, são impressionantes. Estou acompanhando para ver se esse recurso será disponibilizado como open source no GitHub. Também tenho curiosidade sobre o motivo do nome Magma
É um modelo realmente interessante. Estou ansioso para testá-lo. Mas o que eu quero é um modelo de agente multimodal que consiga gerar embeddings para modelos de controle de humanoides, como o Meta motivo. O Meta motivo é um modelo simples treinado com o esqueleto SMPL, e suas capacidades são limitadas por não ter dedos. Poderiam ter usado um modelo mais avançado, como o SMPL-X, mas a falta de dados de movimento abertos com movimentos precisos dos dedos dificulta o treinamento de modelos robustos de manipulação
A maioria dos datasets de movimento existentes vem de ambientes acadêmicos de captura de movimento e não é focada em tarefas de manipulação. Acredito que os avanços em HPE 3D a partir de vídeo 2D vão preencher essa lacuna. Se houver acesso a milhares de horas de vídeo, será possível construir um grande dataset de movimento cobrindo várias interações do mundo real
Isso permitiria os dois componentes necessários para treinar um modelo de agente que gere embeddings legíveis por modelos de controle capazes de modelar com precisão os movimentos das mãos e das articulações dos dedos. Considerando o rápido avanço do HPE 3D estado da arte a partir de vídeo 2D e o enorme volume de vídeos online, espero que vejamos robôs humanoides com boas habilidades de manipulação em um futuro próximo
No vídeo em que limpam uma caneca, a pessoa parece fingir que está lavando o copo, como se não quisesse molhar as mãos. Fico curioso para saber quando o modelo será capaz de captar esse tipo de sutileza
Fico me perguntando por que modelos multimodais não geram imagens de forma flexível. Parece que eles repassam isso para outro modelo gerar. Eles não parecem saber muito bem o que há nas imagens que criam, embora consigam editá-las
Agentes multimodais são conhecidos por falhar em tarefas de longo prazo. Fico curioso para saber como o Magma se sai nisso
Fico me perguntando se existe algum modelo multimodal treinado para raciocínio
Fico me perguntando se há pesquisas sobre treinamento incremental. Isso poderia ser usado em robôs como alternativa ao RAG