Magma - modelo fundamental para agentes de IA multimodais
(microsoft.github.io)- O Magma é o primeiro modelo fundamental capaz de interpretar entradas multimodais e conectá-las dentro de um ambiente, podendo lidar com interações complexas nos mundos virtual e real.
- Vai além da simples compreensão de imagens e vídeos, gerando planejamento visual e execução orientados por objetivos para realizar diversas tarefas de agentes de IA.
- Alcança desempenho de ponta em várias tarefas multimodais, como navegação de UI, manipulação robótica e compreensão de imagens e vídeos, especialmente em entendimento e raciocínio espacial.
- Método de pré-treinamento escalável: aprende com dados de vídeo não rotulados junto com dados de agentes já existentes, obtendo forte capacidade de generalização e adequação para aplicações reais.
- Código, modelo e demo de navegação de UI serão divulgados no MSR Forum (2025.02.25).
Objetivo do Magma
- Inteligência linguística e espaço-temporal:
- Capacidade de compreender imagens e vídeos com precisão e, com base nisso, transformar objetivos em planos de ação e execução.
- Operação em ambientes digitais e físicos:
- Capaz de executar tanto navegação na web (manipulação de UI) quanto manipulação robótica.
- Uma IA capaz de transitar livremente entre ambientes digitais e físicos como um humano.
- Para isso, o Magma foi treinado com um novo conjunto de dados e uma estrutura de pré-treinamento que aprende de forma integrada texto, imagem e ação, aproveitando dados de vídeo não rotulados e dados de agentes já existentes.
Método de pré-treinamento do Magma
- O Magma é treinado por meio de duas abordagens principais.
- 1️⃣ Uso de dados de treinamento heterogêneos em grande escala
- Além de dados multimodais existentes, dados de navegação de UI e dados de manipulação robótica, também aprende com grandes volumes de dados de vídeo não rotulados coletados.
- Remove o movimento da câmera e extrai dados de ações reais, permitindo que o modelo aprenda previsão e planejamento de ações de longo prazo.
- 2️⃣ Definição de objetivos unificados de pré-treinamento
- Texto e ação são intrinsecamente diferentes, e conectá-los de forma eficaz é o desafio.
- Introduz novas técnicas de aprendizado, como Set-of-Mark e Trace-of-Mark, para construir uma forte estrutura de alinhamento entre texto, imagem e ação.
- Set-of-Mark (SoM): possibilita uma base de ação eficaz nas imagens, prevendo marcas numéricas em botões clicáveis em capturas de tela de UI, em braços robóticos e em vídeos humanos.
- Trace-of-Mark (ToM): fornece supervisão para manipulação robótica e ações humanas, levando o modelo a entender a dinâmica temporal dos vídeos e prever estados futuros antes de agir.
Como usar o modelo
Uso direto (pode ser usado sem fine-tuning)
O Magma foi projetado para fins de pesquisa e pode ser usado das seguintes formas.
- Geração de texto baseada em imagem/vídeo: pode gerar descrições e respostas com base nas imagens e textos fornecidos.
- Planejamento visual (Visual Planning): pode prever trajetórias futuras de ação para atingir objetivos, como mover objetos.
- Capacidades de agente:
- Navegação de UI: por exemplo, prever ações de UI como "clicar no botão de busca"
- Manipulação robótica: previsão de manipulação robótica com 7 graus de liberdade (7 DoF)
Tarefas downstream (com uso de fine-tuning)
O Magma pode receber treinamento adicional para se adequar a tarefas específicas.
- Legendagem de imagens e QA: pode ser treinado no estilo de modelos multimodais de linguagem de grande porte (LLM), reforçando a compreensão e o raciocínio espacial.
- Legendagem de vídeos e QA: também pode reforçar a compreensão e o raciocínio temporais sobre dados de vídeo.
- Navegação de UI: pode ser otimizado para tarefas de navegação de UI na web e em dispositivos móveis, alcançando alto desempenho.
- Manipulação robótica: com treinamento adicional para controle de robôs, apresenta desempenho superior a modelos existentes de manipulação robótica, como o OpenVLA.
Viés (Bias), riscos (Risks), limitações (Limitations)
- Este modelo não foi projetado para todas as tarefas downstream.
- Antes de aplicá-lo a casos de uso específicos, é necessário avaliar e ajustar precisão, segurança e equidade.
- Especialmente em cenários de alto risco, é necessário cumprir as leis e regulamentações aplicáveis.
1 comentários
Opiniões no Hacker News