Muse Spark: o modelo multimodal de raciocínio da Meta que avança rumo à superinteligência pessoal
(ai.meta.com)- Muse Spark, desenvolvido pela Meta Superintelligence Labs, é um modelo multimodal de raciocínio com suporte a uso de ferramentas, cadeia visual de pensamento e colaboração entre múltiplos agentes
- Como primeiro passo rumo à superinteligência pessoal (personal superintelligence), está sendo oferecido a alguns usuários em formato de prévia privada de API no meta.ai e no app Meta AI
- O modelo escala em três eixos — pré-treinamento, aprendizado por reforço e raciocínio em tempo de teste — e alcança desempenho de treinamento mais de 10 vezes mais eficiente que o Llama 4
- Por meio do modo Contemplating, realiza raciocínio avançado com agentes paralelos e entrega capacidades avançadas de pensamento no nível do Gemini Deep Think e do GPT Pro
- A Meta pretende evoluir o Muse Spark para um modelo de superinteligência personalizado que reúna segurança e eficiência
Visão geral do Muse Spark
- Muse Spark é um modelo multimodal de raciocínio desenvolvido pela Meta Superintelligence Labs, com suporte a uso de ferramentas, cadeia visual de pensamento (visual chain of thought) e orquestração de múltiplos agentes
- É apresentado como o primeiro resultado da reconstrução ampla das pesquisas de IA da Meta e como o primeiro passo rumo à superinteligência pessoal (personal superintelligence)
- A empresa está ampliando investimentos em pesquisa, treinamento de modelos e infraestrutura como um todo, como o datacenter Hyperion
- Atualmente está disponível no meta.ai e no app Meta AI, com prévia privada de API para alguns usuários
Funcionalidades para a superinteligência pessoal
- O Muse Spark apresenta desempenho competitivo em percepção multimodal, raciocínio, saúde e tarefas agenticas
- A Meta segue investindo para fechar lacunas de desempenho em algumas áreas, como sistemas agenticos de longo prazo e fluxos de trabalho de programação
- O modo Contemplating opera vários agentes em paralelo para resolver problemas complexos e corresponde aos modos avançados de raciocínio dos modelos de ponta, como Gemini Deep Think e GPT Pro
- Alcançou 58% no Humanity’s Last Exam e 38% no FrontierScience Research
- O modo Contemplating será distribuído gradualmente no meta.ai
Principais áreas de aplicação
- O Muse Spark fornece a base para evoluir para uma superinteligência pessoal capaz de entender e interagir com o mundo do usuário
- Por meio da integração multimodal, combina informação visual e ferramentas, alcançando alto desempenho em problemas visuais de STEM, reconhecimento de entidades e localização
- Ex.: geração de minigames e anotação dinâmica para solucionar problemas com eletrodomésticos
- Na área da saúde, a Meta construiu dados de treinamento em colaboração com mais de 1.000 médicos, possibilitando raciocínio de saúde factual e abrangente
- Também consegue criar displays interativos que explicam visualmente informações de saúde, como os nutrientes de alimentos e os músculos ativados durante exercícios
- Nos prompts de exemplo, foram demonstradas funções de interação visual personalizada, como avaliação de posturas de yoga, visualização de recomendações de dieta e tutoriais de uso de cafeteira
Eixos de escalabilidade
- A escalabilidade do Muse Spark avança com foco em três eixos: pré-treinamento, aprendizado por reforço e raciocínio em tempo de teste
-
Pré-treinamento
- Etapa que forma a base das capacidades multimodais de compreensão, raciocínio e programação do modelo
- Nos últimos 9 meses, a Meta melhorou arquitetura, otimização e curadoria de dados, obtendo grande avanço em eficiência computacional
- Os FLOPs de treinamento necessários para atingir o mesmo desempenho foram reduzidos em mais de 10 vezes em relação ao Llama 4 Maverick, tornando-o mais eficiente que os principais concorrentes
-
Aprendizado por reforço
- Etapa de expansão das capacidades do modelo após o pré-treinamento, na qual a Meta resolveu a instabilidade do RL em larga escala para obter ganhos de desempenho previsíveis
- À medida que o volume de computação de RL (número de passos) cresce, as métricas pass@1 e pass@16 aumentam de forma log-linear, com melhora simultânea em confiabilidade e diversidade
- Houve ganho de precisão também em conjuntos de avaliação não incluídos no treinamento, comprovando capacidade de generalização
-
Raciocínio em tempo de teste
- O modelo foi treinado para executar um processo de “pensamento” antes de responder
- Para usar tokens com eficiência, emprega penalidade de tempo de pensamento (thinking time penalty) e colaboração entre múltiplos agentes
- O treinamento com RL penaliza o tempo de pensamento e, ao mesmo tempo, maximiza a precisão, resultando no fenômeno de “compressão do pensamento (thought compression)”
- Depois de resolver problemas com menos tokens, volta a expandir o raciocínio para reforçar o desempenho
- Com raciocínio paralelo entre múltiplos agentes, obtém melhora de desempenho sem aumentar a latência
Avaliação de segurança
- Como o Muse Spark possui amplas capacidades de raciocínio, inclusive em áreas científicas de duplo uso, foi submetido a ampla avaliação de segurança antes da disponibilização
- A Meta definiu modelos de ameaça, protocolos de avaliação e critérios de lançamento com base no Advanced AI Scaling Framework v2
- Em áreas de alto risco, como armas biológicas e químicas, o modelo apresenta forte comportamento de recusa (refusal), reforçado por filtragem de dados, pós-treinamento voltado à segurança e proteções em nível de sistema
- Em cibersegurança e perda de controle (Loss of Control), não há capacidade autônoma para concretizar cenários de risco
- No resultado geral das avaliações, o Muse Spark permaneceu dentro dos padrões de segurança em todas as categorias de risco de fronteira medidas
- Na avaliação externa da Apollo Research, o Muse Spark foi observado como o modelo com o mais alto nível de consciência de avaliação (evaluation awareness)
- Em algumas situações, reconhece que está sendo avaliado e infere que deve agir com honestidade
- No entanto, o impacto dessa percepção no comportamento real é limitado, com apenas efeitos sutis em algumas avaliações de alinhamento não relacionadas a capacidades de risco
- A Meta não considera isso um fator que impeça o lançamento, apenas indica necessidade de pesquisa adicional
Conclusão
- O Muse Spark está em uma trajetória de escalabilidade previsível e eficiente e deve evoluir para um modelo de superinteligência pessoal mais poderoso
- A Meta pretende continuar lançando modelos cada vez melhores, avançando rumo à era da superinteligência personalizada
1 comentários
Opiniões no Hacker News
Não entendo por que as pessoas estão diminuindo isso. Se esse modelo for parecido com o Opus 4.6 ou um pouco melhor, isso significa que a Meta criou um modelo capaz de competir com as líderes em IA
Claro, deve ter custado caro, mas agora parece que transformar isso em um agente de programação não está tão distante. E, do ponto de vista da Meta, poder usar diretamente um modelo SATA em todo o seu portfólio — IG, WhatsApp, VR etc. — deve ajudar financeiramente no longo prazo
Vi o texto de Simon Willison e dei uma olhada no exemplo dos pelicanos. Também testei diretamente em meta.ai e achei bem interessante. O contêiner Code Interpreter em Python e a ferramenta de análise de imagens container.visual_grounding foram especialmente divertidos
Isso me parece parecido com o boom das ferrovias no século 19. Se várias empresas fizerem IA de nível parecido, o fosso competitivo (moat) desaparece e no fim tudo fica barato. Talvez nem consigam recuperar o investimento
Rodei benchmarks internos e não fiquei nada impressionado. Não está no nível de OpenAI, Anthropic ou Gemini. Também vi muitos erros analíticos em perguntas técnicas
Cliquei no campo “Ask Meta AI…” e em seguida vieram exigência de login e o processo de vincular Facebook/Instagram. Passa uma sensação clássica de dark pattern. A OpenAI lidou muito melhor com isso
Se a Meta realmente voltou a ter um modelo de fronteira, agora fico curioso sobre a direção estratégica dela. Será que abandonou a antiga filosofia de ecossistema aberto?
O llama4 foi fraco, mas se tivessem mantido essa estratégia, parece que estariam muito mais à frente agora. Outras empresas já construíram ecossistemas, a Meta não.
Para voltar ao centro da conversa, precisaria investir algo como 1 bilhão de dólares em projetos como OpenCode para reviver o ecossistema aberto. Caso contrário, vai acabar sendo apenas um modelo interno fechado
Pela primeira vez fiz um teste de raciocínio visual baseado em plantas/desenhos técnicos, e entre ChatGPT, Claude, Gemini e Grok, só o Gemini conseguiu. Mas o Muse Spark fez isso perfeitamente. Extraiu as páginas relevantes do PDF, mostrou inline e deu a resposta certa
Talvez tenha sido sorte por enquanto, mas a primeira impressão foi tão boa que vou continuar testando. Dito isso, a política de uso de dados da Meta é muito agressiva, então não serve para material sensível.
Seria bom se houvesse um plano pago com opção de exclusão do treinamento com dados. A ideia de monetizar com os dados em vez de cobrar pelo serviço gratuito me deixa desconfortável
Este modelo chega perto de GPT 5.4 / Gemini 3.1 Pro / Opus 4.6. Em programação, a OpenAI lidera; em raciocínio textual, o Google; em Humanity’s Last Exam, a Anthropic. Ainda assim, dá para dizer que a Meta voltou a ser um laboratório de fronteira.
Agora é uma corrida de 3,5 cavalos, e o próximo modelo parece promissor. Mais concorrência é algo positivo. Talvez seja hora de tirar o Grok 4.2 da tabela
“Personal” no fim quer dizer que a Meta usa dados pessoais para anúncios
A expressão “visual chain of thought” é interessante. Fico na dúvida se isso quer dizer que o usuário pode ver visualmente o processo de raciocínio, ou se significa que o modelo pensa com base em imagens. Se for a segunda opção, seria realmente revolucionário