1 pontos por GN⁺ 19 일 전 | 1 comentários | Compartilhar no WhatsApp
  • Muse Spark, desenvolvido pela Meta Superintelligence Labs, é um modelo multimodal de raciocínio com suporte a uso de ferramentas, cadeia visual de pensamento e colaboração entre múltiplos agentes
  • Como primeiro passo rumo à superinteligência pessoal (personal superintelligence), está sendo oferecido a alguns usuários em formato de prévia privada de API no meta.ai e no app Meta AI
  • O modelo escala em três eixos — pré-treinamento, aprendizado por reforço e raciocínio em tempo de teste — e alcança desempenho de treinamento mais de 10 vezes mais eficiente que o Llama 4
  • Por meio do modo Contemplating, realiza raciocínio avançado com agentes paralelos e entrega capacidades avançadas de pensamento no nível do Gemini Deep Think e do GPT Pro
  • A Meta pretende evoluir o Muse Spark para um modelo de superinteligência personalizado que reúna segurança e eficiência

Visão geral do Muse Spark

  • Muse Spark é um modelo multimodal de raciocínio desenvolvido pela Meta Superintelligence Labs, com suporte a uso de ferramentas, cadeia visual de pensamento (visual chain of thought) e orquestração de múltiplos agentes
  • É apresentado como o primeiro resultado da reconstrução ampla das pesquisas de IA da Meta e como o primeiro passo rumo à superinteligência pessoal (personal superintelligence)
  • A empresa está ampliando investimentos em pesquisa, treinamento de modelos e infraestrutura como um todo, como o datacenter Hyperion
  • Atualmente está disponível no meta.ai e no app Meta AI, com prévia privada de API para alguns usuários

Funcionalidades para a superinteligência pessoal

  • O Muse Spark apresenta desempenho competitivo em percepção multimodal, raciocínio, saúde e tarefas agenticas
  • A Meta segue investindo para fechar lacunas de desempenho em algumas áreas, como sistemas agenticos de longo prazo e fluxos de trabalho de programação
  • O modo Contemplating opera vários agentes em paralelo para resolver problemas complexos e corresponde aos modos avançados de raciocínio dos modelos de ponta, como Gemini Deep Think e GPT Pro
    • Alcançou 58% no Humanity’s Last Exam e 38% no FrontierScience Research
  • O modo Contemplating será distribuído gradualmente no meta.ai

Principais áreas de aplicação

  • O Muse Spark fornece a base para evoluir para uma superinteligência pessoal capaz de entender e interagir com o mundo do usuário
  • Por meio da integração multimodal, combina informação visual e ferramentas, alcançando alto desempenho em problemas visuais de STEM, reconhecimento de entidades e localização
    • Ex.: geração de minigames e anotação dinâmica para solucionar problemas com eletrodomésticos
  • Na área da saúde, a Meta construiu dados de treinamento em colaboração com mais de 1.000 médicos, possibilitando raciocínio de saúde factual e abrangente
    • Também consegue criar displays interativos que explicam visualmente informações de saúde, como os nutrientes de alimentos e os músculos ativados durante exercícios
  • Nos prompts de exemplo, foram demonstradas funções de interação visual personalizada, como avaliação de posturas de yoga, visualização de recomendações de dieta e tutoriais de uso de cafeteira

Eixos de escalabilidade

  • A escalabilidade do Muse Spark avança com foco em três eixos: pré-treinamento, aprendizado por reforço e raciocínio em tempo de teste
  • Pré-treinamento

    • Etapa que forma a base das capacidades multimodais de compreensão, raciocínio e programação do modelo
    • Nos últimos 9 meses, a Meta melhorou arquitetura, otimização e curadoria de dados, obtendo grande avanço em eficiência computacional
    • Os FLOPs de treinamento necessários para atingir o mesmo desempenho foram reduzidos em mais de 10 vezes em relação ao Llama 4 Maverick, tornando-o mais eficiente que os principais concorrentes
  • Aprendizado por reforço

    • Etapa de expansão das capacidades do modelo após o pré-treinamento, na qual a Meta resolveu a instabilidade do RL em larga escala para obter ganhos de desempenho previsíveis
    • À medida que o volume de computação de RL (número de passos) cresce, as métricas pass@1 e pass@16 aumentam de forma log-linear, com melhora simultânea em confiabilidade e diversidade
    • Houve ganho de precisão também em conjuntos de avaliação não incluídos no treinamento, comprovando capacidade de generalização
  • Raciocínio em tempo de teste

    • O modelo foi treinado para executar um processo de “pensamento” antes de responder
    • Para usar tokens com eficiência, emprega penalidade de tempo de pensamento (thinking time penalty) e colaboração entre múltiplos agentes
    • O treinamento com RL penaliza o tempo de pensamento e, ao mesmo tempo, maximiza a precisão, resultando no fenômeno de “compressão do pensamento (thought compression)”
      • Depois de resolver problemas com menos tokens, volta a expandir o raciocínio para reforçar o desempenho
    • Com raciocínio paralelo entre múltiplos agentes, obtém melhora de desempenho sem aumentar a latência

Avaliação de segurança

  • Como o Muse Spark possui amplas capacidades de raciocínio, inclusive em áreas científicas de duplo uso, foi submetido a ampla avaliação de segurança antes da disponibilização
  • A Meta definiu modelos de ameaça, protocolos de avaliação e critérios de lançamento com base no Advanced AI Scaling Framework v2
  • Em áreas de alto risco, como armas biológicas e químicas, o modelo apresenta forte comportamento de recusa (refusal), reforçado por filtragem de dados, pós-treinamento voltado à segurança e proteções em nível de sistema
  • Em cibersegurança e perda de controle (Loss of Control), não há capacidade autônoma para concretizar cenários de risco
  • No resultado geral das avaliações, o Muse Spark permaneceu dentro dos padrões de segurança em todas as categorias de risco de fronteira medidas
  • Na avaliação externa da Apollo Research, o Muse Spark foi observado como o modelo com o mais alto nível de consciência de avaliação (evaluation awareness)
    • Em algumas situações, reconhece que está sendo avaliado e infere que deve agir com honestidade
    • No entanto, o impacto dessa percepção no comportamento real é limitado, com apenas efeitos sutis em algumas avaliações de alinhamento não relacionadas a capacidades de risco
    • A Meta não considera isso um fator que impeça o lançamento, apenas indica necessidade de pesquisa adicional

Conclusão

  • O Muse Spark está em uma trajetória de escalabilidade previsível e eficiente e deve evoluir para um modelo de superinteligência pessoal mais poderoso
  • A Meta pretende continuar lançando modelos cada vez melhores, avançando rumo à era da superinteligência personalizada

1 comentários

 
GN⁺ 19 일 전
Opiniões no Hacker News
  • Não entendo por que as pessoas estão diminuindo isso. Se esse modelo for parecido com o Opus 4.6 ou um pouco melhor, isso significa que a Meta criou um modelo capaz de competir com as líderes em IA
    Claro, deve ter custado caro, mas agora parece que transformar isso em um agente de programação não está tão distante. E, do ponto de vista da Meta, poder usar diretamente um modelo SATA em todo o seu portfólio — IG, WhatsApp, VR etc. — deve ajudar financeiramente no longo prazo

    • Também dá para entender o ceticismo. Houve antes o caso do benchmark inflado do llama 4. Este modelo também já existia havia alguns meses, mas ao que tudo indica o lançamento foi adiado porque na época ele estava mais no nível do Gemini 2.5 Pro
    • O mercado de agentes de programação já está sendo disputado por Anthropic e OpenAI. A oportunidade que a Meta deveria mirar é, na verdade, a área de IA voltada ao consumidor. A OpenAI logo vai ter de decidir onde concentrar recursos: usuários gratuitos ou empresas
    • Pelos benchmarks, parece um bom modelo, mas em utilidade prática para programação ainda fica abaixo do Opus. A utilidade em tarefas cotidianas de código não é totalmente capturada por benchmarks. Ainda assim, é bom ver mais concorrência
    • Dizer que “supera o Opus 4.6” não é verdade
    • Também há muita gente com uma antipatia básica pela Meta. Seja justa ou não, muita gente simplesmente não gosta da Meta por ser a Meta
  • Vi o texto de Simon Willison e dei uma olhada no exemplo dos pelicanos. Também testei diretamente em meta.ai e achei bem interessante. O contêiner Code Interpreter em Python e a ferramenta de análise de imagens container.visual_grounding foram especialmente divertidos

    • Alexandr Wang mencionou que isso talvez venha a ser lançado como código aberto, então estou animado
    • Parece que as ferramentas disponíveis variam por região. Eu não tenho o recurso visual_grounding e só consegui acessar as funções deste link
    • Queria perguntar ao Simon — entre os modelos que ele já viu até agora, qual fez melhor o “pelicano andando de bicicleta”?
    • É uma pena que no meta.ai só dê para usar com login. Espero que o Openrouter também ofereça suporte em breve. Ainda assim, estou ansioso para testar logo
  • Isso me parece parecido com o boom das ferrovias no século 19. Se várias empresas fizerem IA de nível parecido, o fosso competitivo (moat) desaparece e no fim tudo fica barato. Talvez nem consigam recuperar o investimento

    • Acho que é por isso que a Anthropic mantém os preços de API altos e limita as assinaturas do próprio produto. É uma estratégia mirando o fato de que usuários não técnicos tendem a permanecer por mais tempo
    • De qualquer forma, todas elas estão fortemente ligadas ao governo, então receberão mais apoio do que a lógica de mercado sugeriria. Mesmo que fracassem, isso pode resultar em modelos open-weight. Só que esses modelos também provavelmente ficarão obsoletos em poucos meses
    • Por outro lado, a IA hoje já é tão popular quanto o smartphone e tão disruptiva quanto a máquina a vapor. As empresas de IA estão se tornando as maiores empresas de software do mundo, e há uma oportunidade de trilhões de dólares no mercado
    • O verdadeiro moat está em capacidade computacional e acesso à energia. É por isso que Elon Musk está construindo fábricas de chips. Pode haver muitos modelos no HuggingFace, mas quase ninguém consegue rodá-los de verdade
  • Rodei benchmarks internos e não fiquei nada impressionado. Não está no nível de OpenAI, Anthropic ou Gemini. Também vi muitos erros analíticos em perguntas técnicas

    • Testando mais, há erros demais de matemática básica. Cruzei a validação com o Gemini e praticamente todos os problemas simples apresentaram erros
    • Ainda assim, na área multimodal ele é bem decente. Está num nível utilizável para 3 bilhões de pessoas, mas em ciência ainda fica atrás
    • Na verdade, acho que nem o Gemini está no nível para entrar nessa conversa
  • Cliquei no campo “Ask Meta AI…” e em seguida vieram exigência de login e o processo de vincular Facebook/Instagram. Passa uma sensação clássica de dark pattern. A OpenAI lidou muito melhor com isso

  • Se a Meta realmente voltou a ter um modelo de fronteira, agora fico curioso sobre a direção estratégica dela. Será que abandonou a antiga filosofia de ecossistema aberto?
    O llama4 foi fraco, mas se tivessem mantido essa estratégia, parece que estariam muito mais à frente agora. Outras empresas já construíram ecossistemas, a Meta não.
    Para voltar ao centro da conversa, precisaria investir algo como 1 bilhão de dólares em projetos como OpenCode para reviver o ecossistema aberto. Caso contrário, vai acabar sendo apenas um modelo interno fechado

    • Talvez nem precise de um novo harness aberto. A Anthropic já forneceu isso de graça para a comunidade
  • Pela primeira vez fiz um teste de raciocínio visual baseado em plantas/desenhos técnicos, e entre ChatGPT, Claude, Gemini e Grok, só o Gemini conseguiu. Mas o Muse Spark fez isso perfeitamente. Extraiu as páginas relevantes do PDF, mostrou inline e deu a resposta certa
    Talvez tenha sido sorte por enquanto, mas a primeira impressão foi tão boa que vou continuar testando. Dito isso, a política de uso de dados da Meta é muito agressiva, então não serve para material sensível.
    Seria bom se houvesse um plano pago com opção de exclusão do treinamento com dados. A ideia de monetizar com os dados em vez de cobrar pelo serviço gratuito me deixa desconfortável

  • Este modelo chega perto de GPT 5.4 / Gemini 3.1 Pro / Opus 4.6. Em programação, a OpenAI lidera; em raciocínio textual, o Google; em Humanity’s Last Exam, a Anthropic. Ainda assim, dá para dizer que a Meta voltou a ser um laboratório de fronteira.
    Agora é uma corrida de 3,5 cavalos, e o próximo modelo parece promissor. Mais concorrência é algo positivo. Talvez seja hora de tirar o Grok 4.2 da tabela

    • Usei o Grok Code como principal por um tempo e ele foi muito bom. No fim, LLM depende de contexto de uso e domínio. Em especial, continuo usando o Grok para perguntas de saúde porque outros modelos tendem a se esquivar
    • Mas, ainda assim, esta abordagem da Meta parece ter menos capacidade de raciocínio e de resolver problemas longos. A pontuação em HLE fica abaixo da de Mythos da Anthropic. Mesmo assim, no geral é um avanço positivo
  • “Personal” no fim quer dizer que a Meta usa dados pessoais para anúncios

    • E, fazendo isso, parece até que absorve no modelo a essência mental do usuário
    • Se eu for só um alvo de anúncios, então tanto faz, podem me mandar quantos anúncios quiserem
  • A expressão “visual chain of thought” é interessante. Fico na dúvida se isso quer dizer que o usuário pode ver visualmente o processo de raciocínio, ou se significa que o modelo pensa com base em imagens. Se for a segunda opção, seria realmente revolucionário

    • Mas a maior parte do que vi até hoje em chain of thought parecia mais um raciocínio falso com aparência convincente. Na prática, o processamento interno acontece de outro jeito
    • Na verdade, esse tipo de etapa visual intermediária já aparece no Gemini. Durante tarefas visuais ele às vezes gera diagramas intermediários, e pesquisas de 2024 também já propuseram abordagens como turtle diagram