Meta FAIR divulga 9 novos projetos de pesquisa, modelos e datasets

(ai.meta.com)

1 pontos por GN⁺ 2024-12-14 | 1 comentários | Compartilhar no WhatsApp

A Meta FAIR disponibilizou 9 entregas em forma de código, modelos, datasets e demos para pesquisa avançada em inteligência de máquina, cobrindo agentes, robustez e segurança, e arquiteturas de modelos
Entre os principais lançamentos estão o Meta Motivo para controle de humanoides virtuais, o Meta Video Seal para marca d’água em vídeo, a base de código de Flow Matching, o Explore Theory-of-Mind e o Large Concept Model
O Meta Motivo usa dados de movimento sem rótulos e um novo algoritmo para posicionar estado, movimento e recompensa no mesmo espaço latente, realizando tarefas de controle de corpo inteiro sem treinamento adicional nem planejamento
O Meta Video Seal insere marcas d’água invisíveis e mensagens ocultas opcionais em vídeos, com projeto voltado a resistir a edições comuns como desfoque, recorte e compressão de compartilhamento online
Pesquisadores podem baixar os materiais divulgados para experimentar, integrar e expandir, e a Meta reforça a ciência aberta reprodutível e um ecossistema aberto

Escopo da divulgação da Meta FAIR

A Meta FAIR está disponibilizando pesquisas, código, modelos e datasets mais recentes para a comunidade de pesquisa
Esta divulgação se concentra em três frentes
- Construção de agentes mais capazes
- Robustez e segurança
- Inovação em arquitetura para que os modelos aprendam novas informações com mais eficiência e possam escalar além dos limites atuais
Ao todo, 9 projetos e entregas podem ser baixados e usados imediatamente
A direção é promover pesquisa iterativa por meio de divulgações iniciais e avançar o desenvolvimento de IA com responsabilidade

Meta Motivo: modelo de base comportamental para controle de ações de humanoides virtuais

O Meta Motivo é um modelo baseado em comportamento que controla os movimentos de agentes humanoides virtuais incorporados para executar tarefas complexas
A aprendizagem por reforço não supervisionada tradicional muitas vezes exige datasets refinados de interação ou depende de perdas não supervisionadas que podem produzir políticas pouco alinhadas à tarefa desejada
O Meta Motivo é treinado com um novo algoritmo que aproveita datasets de movimento sem rótulos
- Aprende representações que embutem estado, movimento e recompensa no mesmo espaço latente
- Resolve tarefas de controle de corpo inteiro como rastreamento de movimento, alcance de postura-alvo e otimização de recompensa sem treinamento adicional nem planejamento
O desempenho compete com métodos específicos por tarefa e supera baselines de ponta em aprendizagem por reforço não supervisionada e modelos baseados em planejamento
Também demonstra alta robustez a mudanças de ambiente não vistas durante o treinamento, como gravidade, vento e perturbações diretas
Essa pesquisa pode levar a agentes totalmente incorporados para o metaverso, NPCs mais realistas, democratização da animação de personagens e novas experiências imersivas
Leia o artigo
Experimente a demo
Baixe o código e os modelos

Meta Video Seal: marca d’água em vídeo open source

O Meta Video Seal é um framework de ponta para marca d’água em vídeo baseada em redes neurais
Ele insere uma marca d’água invisível no vídeo e, opcionalmente, também pode incluir uma mensagem oculta
A marca d’água inserida pode ser extraída depois para verificar a origem do vídeo
Foi projetado para resistir a processos comuns de edição e compartilhamento de vídeo
- Desfoque
- Recorte
- Algoritmos de compressão comuns no compartilhamento de conteúdo online
Os modelos do Video Seal serão publicados sob licença permissiva, junto com artigo, código de treinamento, código de inferência e demo
Entregas relacionadas a marca d’água também serão disponibilizadas
- Meta Omni Seal Bench: leaderboard para marca d’água neural em múltiplas modalidades
- Meta Watermark Anything: relançado sob licença permissiva
- Workshop de marca d’água da ICLR 2025
Watermark Anything, Video Seal e Audio Seal são oferecidos em estado pronto para download e integração
Leia o artigo
Experimente a demo
Baixe o código e os modelos do Video Seal
Baixe o código e os modelos do Watermark Anything
Veja o leaderboard do Omni Seal Bench

Guia e base de código de Flow Matching

Flow Matching é um paradigma generativo usado em várias modalidades, como imagem, vídeo, áudio, música e estruturas 3D como proteínas
Internamente na Meta, ele vem substituindo abordagens de difusão existentes em várias aplicações generativas
- Meta Movie Gen
- Meta Audiobox
- Meta Melody Flow
Na indústria, há exemplos como Stable-Diffusion-3, Flux, Fold-Flow e Physical Intelligence Pi_0
Flow Matching é um framework de IA generativa simples, porém flexível, que melhora desempenho e eficiência e facilita a generalização para dados complexos
Os itens divulgados incluem artigo, implementações centrais de Flow Matching contínuo e discreto, e scripts de treinamento atualizados
Leia o artigo
Baixe o código

Explore Theory-of-Mind: geração de dados para raciocínio de teoria da mente

O Meta Explore Theory-of-Mind é um framework de geração adversarial de dados guiada por programa para raciocínio de teoria da mente
Datasets existentes de Theory-of-Mind têm a limitação de focar apenas em avaliação e cobrir um intervalo estreito de interações
Esse framework gera dados de raciocínio ToM diversos, difíceis e escaláveis, utilizáveis tanto para treinamento quanto para avaliação
Ele pode criar histórias robustas e confiáveis para testar os limites de grandes modelos de linguagem
Ao fazer fine-tuning do Llama-3.1 7B, alcançou ganho de 27 pontos de acurácia no benchmark ToMi amplamente usado
Os casos de uso incluem geração de datasets para melhorar LLMs, reforço de cenários orientados a objetivos, coleta de datasets de interação e benchmarks para avaliação de desempenho de LLMs
Leia o artigo
Baixe o código
Baixe o dataset

Large Concept Model: prever conceitos em vez de tokens

O Large Concept Model(LCM) é um paradigma alternativo de treinamento para modelagem de linguagem
Os modelos de linguagem predominantes hoje normalmente operam no nível de token e não realizam raciocínio explicitamente de forma hierárquica
O núcleo do LCM está em separar raciocínio e representação linguística
- A inspiração vem da forma como uma pessoa pode manter a mesma sequência de ideias em uma apresentação, mas escolher palavras diferentes a cada vez
O LCM é treinado para prever o próximo conceito ou ideia de alto nível, e não o próximo token
Os conceitos são representados como frases completas em um espaço de embeddings multimodal e multilíngue
Em tarefas puramente gerativas como sumarização, mostra desempenho melhor ou semelhante ao de LLMs recentes e oferece forte generalização zero-shot para idiomas não vistos
A eficiência computacional também aumenta conforme o contexto de entrada fica mais longo
Leia o artigo
Baixe o código

Dynamic Byte Latent Transformer: modelo em nível de byte sem tokenizador

O Dynamic Byte Latent Transformer é um modelo hierárquico em nível de byte que usa patching dinâmico
Modelos de linguagem tradicionais tokenizam o texto em uma etapa heurística de pré-processamento, o que limita o treinamento de ponta a ponta, dificulta a otimização em produção e pode prejudicar o desempenho em sequências raras de texto
Este modelo opera sobre bytes sem heurísticas de tokenização
Também melhora a eficiência no processamento de sequências longas em treinamento e inferência
Mostra vantagem média de 7 pontos em robustez sobre modelos baseados em tokenizador
Tem força no tratamento de caudas longas de símbolos não vistos e sequências raras
Essa abordagem pode ajudar a avançar o raciocínio em áreas como idiomas de poucos recursos, programação e factualidade
Leia o artigo
Baixe o código

Meta Memory Layers: expansão esparsa de memória para informação factual

O Meta Memory Layers at Scale é uma forma de aumentar a factualidade em benchmarks gerais por meio da expansão de camadas de memória
A memória paramétrica é um repositório de informações factuais armazenado nos pesos da rede neural durante o pré-treinamento e contribui para que LLMs entendam conceitos complexos e nuances linguísticas
À medida que os métodos tradicionais de escalonamento se aproximam dos limites de expansão eficiente, surge a necessidade de novas arquiteturas que aprendam informação com mais eficácia
As Memory Layers adicionam parâmetros extras ao modelo sem aumento de FLOPs, com um mecanismo treinável de consulta chave-valor
Camadas de memória esparsamente ativadas complementam camadas densas feedforward de alto custo computacional e oferecem capacidade dedicada para armazenar e recuperar informação a baixo custo
Modelos de linguagem com camadas de memória aprimoradas superam, em tarefas downstream, os seguintes modelos
- Modelos densos com mais do que o dobro do orçamento computacional
- Modelos MoE com computação e número de parâmetros equivalentes
Ao contrário da noção comum de que arquiteturas de memória esparsa são difíceis de escalar competitivamente, elas foram escaladas com eficiência até 128B parâmetros e um modelo base de 8B, mostrando melhorias com computação semelhante em benchmarks gerais de factualidade
Leia o artigo
Baixe o código

Image Diversity Modeling e EvalGIM

A FAIR vem conduzindo pesquisas para entender o desenvolvimento seguro de modelos de geração de imagem e criar novos métodos
O modelo de geração de imagem desenvolvido nesse processo se baseia em pesquisas anteriores sobre arquitetura de modelos generativos e funções de perda
Esse modelo prioriza a geração de imagens que representem o mundo físico, mantendo qualidade de imagem competitiva com a de modelos de ponta
Especialistas externos podem usar o modelo para pesquisar áreas que melhorem segurança e responsabilidade em modelagem de diversidade de imagens como um todo
Uma caixa de ferramentas abrangente de avaliação para modelos de geração de texto para imagem também será publicada como open source
- Aumenta a facilidade e a reprodutibilidade do benchmarking de geração de imagens
- Promove resultados interpretáveis que ajudam na pesquisa responsável em texto para imagem
Leia o artigo
Baixe o código

Meta CLIP 1.2: encoder visão-linguagem e curadoria de dados

O Meta CLIP 1.2 é um lançamento voltado ao desenvolvimento de encoders visão-linguagem de alto desempenho
A Meta desenvolveu algoritmos para curar e alinhar com eficiência grandes volumes de dados de imagem-texto, permitindo que modelos aprendam conhecimento humano sobre o mundo
Datasets grandes, de alta qualidade e diversos são essenciais para construir modelos fundacionais que aprendam sobre o mundo
O Meta CLIP é o trabalho da Meta para construir esses datasets e modelos fundacionais
Para modelos fundacionais baseados em encoders visão-linguagem seguros e de alta qualidade, a empresa desenvolveu algoritmos de curadoria e alinhamento de dados e aplicou medidas de integridade e proteção de privacidade
Os itens divulgados podem ser usados por pesquisadores e desenvolvedores para avançar a compreensão visão-linguagem
- Algoritmos de dados
- Receitas de treinamento
- Modelos fundacionais treinados com datasets curados
Exemplos de uso incluem codificação visual para MLLMs, embeddings multimodais para busca, classificação zero-shot e ponto de partida para pesquisa de qualidade de dados
Os algoritmos e métodos de treinamento também podem ser usados para criar do zero datasets em larga escala, de alta qualidade e semelhantes a CLIP
Leia o artigo
Baixe o dataset
Baixe o código
Baixe o modelo

1 comentários

GN⁺ 2024-12-14

Comentários do Hacker News

Há muita coisa interessante aqui, e as ideias relacionadas a LLMs chamam atenção em especial.
Um modelo de conceitos grande que lida com conceitos e os prevê, em vez de tokens; um transformador latente dinâmico de bytes, uma alternativa em nível de bytes à tokenização padrão; e uma camada de memória esparsa que expande a hierarquia de memória chave-valor sem aumentar a demanda computacional são apresentados como métodos separados para melhorar qualidade ou eficiência.
Fico curioso para saber quanto a qualidade e a eficiência aumentariam se todos esses métodos fossem combinados, e talvez isso possa ser o Llama 4.
- Eu gostaria que o Llama 4 ou 5 tivesse outra arquitetura.
  Até agora, os Llamas lançados publicamente tinham uma estrutura de inferência quase igual, só com um pipeline de treinamento melhor.
  A desvantagem é que o llamacpp pode não conseguir rodar o novo modelo, e talvez seja necessária uma grande reescrita, exigindo novos programas em C, C++, Go e Rust.
- Fico me perguntando se há uma forma melhor de apresentar esse tipo de conteúdo.
  Estou criando documentos ou demos parecidos; se fosse uma página de documentação, daria para organizar cada seção de forma uniforme com título, conteúdo, link para código e link para artigo.
  Mas esta página em si é um post de blog, então acho que será difícil encontrá-la novamente no ano que vem.
  Há outros exemplos de empresas que mantêm resumos técnicos bem organizados e que continuam fáceis de encontrar também na página inicial?
- É meio irônico que a Meta tenha acabado se tornando a maior organização de IA aberta.
  Claro, não é “open source”, mas ela deixa disponível para uso e também publica as pesquisas abertamente.
Muito legal.
É muito divertido mexer na primeira demo, e parece um jogo em que vence quem consegue fazer o modelo dar um moonwalk.
Minha melhor tentativa provavelmente foi algo como (body_speed_forward < -0.3) * (head_height > 1.0) * (stay_still > 0.2) * (body_speed_vertical < 0.1) * (stay_upright > 0.9).
https://i.imgur.com/O5hGMo5.gif
E “Meta Explore Theory of Mind” é ainda mais interessante.
Cerca de um mês atrás também houve uma thread falando de conceitos como “crença” e de atualizar o modelo de mundo de acordo com isso.
https://news.ycombinator.com/item?id=42035985
Espero que o transformador latente dinâmico de bytes dê certo.
Quero que os tokenizadores desapareçam de vez.
Também é interessante ser uma estrutura hierárquica, mas com apenas dois níveis; empilhar mais níveis parece uma direção natural para trabalhos futuros.
- Sou um dos autores :)
  Acho que é uma boa linha de pesquisa.
  Dito isso, é bastante coisa para fazer de uma vez, e também é preciso ter cuidado com como distribuir o orçamento de FLOPs por toda a hierarquia.
  Com dois níveis, dá para tornar um lado eficiente em FLOPs como codificador de bytes/local, e fazer o outro gastar bastante FLOPs como codificador de patches/global.
  Também precisamos encontrar uma forma de agrupar patches em unidades maiores, mas há muitas direções a seguir a partir daqui.
Pensando no contexto de negócios por trás do que a Meta está fazendo, como ela tem US$ 70 bilhões em caixa, pagar centenas de milhões de dólares a especialistas em IA parece troco.
- É só imaginar que aconteça uma mudança fundamental no mundo da pesquisa em IA.
  A IA pode de repente aumentar muito a produtividade dos programadores, ficar muito boa em detectar vulnerabilidades, chats de IA podem virar um novo grande entretenimento, ou imagens geradas por IA podem se tornar conteúdo amplamente compartilhado no Instagram.
  Se qualquer uma dessas coisas acontecer, o Facebook pode querer ter acesso a modelos de ponta e customizá-los para desenvolvedores ou ferramentas internas, ou para incorporação nos apps.
  Mas, se a única forma de obter esse acesso for assinar contratos de 7 a 9 dígitos com vendedores de modelos como a OpenAI, isso seria terrível.
  Pior ainda: um grande concorrente na área de anúncios poderia começar a oferecer ferramentas poderosas de IA para que anunciantes ajustem criativos para vários formatos.
  Nesse caso, o Facebook ficaria muito para trás e, mesmo pagando milhões de dólares a empresas como a OpenAI, poderia perder bilhões de dólares em participação de publicidade a cada trimestre.
  Se esse pior cenário se concretizar, o Facebook parecerá tolo; e, se qualquer uma dessas possibilidades for plausível, o investimento faz sentido.
  Open source, ou o efeito de tornar a Meta um lugar legal para trabalhar, é um bônus estratégico adicional.
- Acho bom ver isso como “comoditizar os complementos”.
  Se a OpenAI tiver enorme sucesso e se tornar a única opção, poderá cobrar uma enorme renda de monopólio de todos que usam seu serviço.
  Portanto, para outras empresas e para qualquer pessoa que queira usar IA, é vantajoso que o ecossistema de IA tenha muitos concorrentes e os preços se mantenham baixos.
- Para conseguir atrair pesquisadores de ponta em número suficiente, não há alternativa a não ser permitir a publicação de artigos.
- Esses especialistas em IA, para começo de conversa, tiveram papel central em fazer a Meta ganhar US$ 70 bilhões.
- Acho que todos que responderam até agora estão ingenuamente errados.
  O Facebook vende espaço publicitário em vários apps, e para que esse espaço publicitário tenha valor, as pessoas precisam estar nos apps.
  Para que as pessoas estejam nos apps, é preciso conteúdo que as atraia.
  Então é simples: faça qualquer um, pessoa ou empresa, criar conteúdo em massa e barato e compartilhá-lo nos apps.
Recentemente, tive a oportunidade de assistir a uma palestra de Ross Taylor, ex-Meta, no meetup AI Engineer London.
O vídeo completo da palestra também está disponível.
https://www.youtube.com/watch?v=S5l5OvJ01ws
Eu não tinha percebido o quanto a Meta vinha trabalhando em raciocínio e teoria da mente.
- Bom vídeo.
  Ajuda a colocar o o1 em contexto.
  Com OpenAI, Google e Meta publicando nesse ritmo tão rápido, parece que agora é a vez da Anthropic.
Sempre que preciso limpar texto, fico pensando por que simplesmente não treinaram um autoencoder de remoção de ruído em nível de bytes para fazer isso no lugar.
- Ideia interessante.
  Em visão, ele captura de forma eficiente o contexto global e local, então sempre tive curiosidade sobre experimentar U-Net ou hourglass net com dados de texto, mas nunca tentei pessoalmente.
Alguém consegue explicar como colocar marca d'água voluntariamente em vídeos de IA ajuda a tornar a IA mais segura?
- Isso permite que quem oferece serviços de geração de vídeo por IA coloque marca d'água em todos os vídeos que cria
  Então a intenção não é ser voluntário, mas aplicado no nível do serviço
  No fim, podem acabar sobrando apenas os serviços que não seguem as regras atuais das Big Techs
  Por exemplo, como aconteceu com o Grok/X.ai: a qualidade era inferior, mas as pessoas usavam o Grok/X.ai para criar imagens de apoio a Trump
  https://arstechnica.com/information-technology/2024/08/musks...
- Quanto custaria treinar um modelo hoje?
  Acho que, nos próximos anos, isso ficará ao alcance de grandes países ou da maioria dos oligarcas, e talvez já esteja
  Por isso, o mais realista parece ser todos entenderem a marca d'água como algo voluntário
  Hoje, vejo imagens e vídeos como algo que não vale nem o valor dos seus bits como prova de um fato específico
Coisas absurdamente interessantes
Todo mundo está falando de como isso tudo é empolgante, especialmente LCM e o tokenizer que não tokeniza, mas, se alguém assistiu, queria perguntar:
Por que usar o termo “advanced machine intelligence”?
Meu primeiro pensamento foi que talvez fosse para acalmar ou distrair os apocalípticos, mas pode ser só excesso de autoconsciência da minha parte
- O termo vem de um artigo de Yann LeCun de 2022
  AMI era um termo distinto de AGI
  Só que, nos últimos anos, o A foi mudando conforme o contexto: autonomous, advanced, augmented
  [1] https://openreview.net/pdf?id=BZ5a1r-kVsf
- LeCun parece não gostar do termo AGI
- Estou esperando o dia em que essas coisas serão chamadas de Minds :)
- Parece uma resposta a uma pesquisa de mercado recente que mostrou que o público em geral considera coisas rotuladas como “AI” meio fraudulentas e difíceis de confiar
A Meta definitivamente melhorou em imagem e está ajudando a IA a virar uma tecnologia sem fosso defensivo
- A Meta não vende IaaS nem PaaS, mas, se a IA cair nas mãos de mais players além de Google e OpenAI, a adequação da Meta aumenta
  Ao comoditizar a IA, surgem diversos negócios, e esses negócios chegam aos clientes por meio das plataformas da Meta
- Por melhor que seja o trabalho feito com LLMs, ela ainda está destruindo a sociedade com o Facebook
- Não é salvação se você continua cometendo o pecado original
Parece que estou aprendendo umas 10 arquiteturas novas de uma vez

Meta FAIR divulga 9 novos projetos de pesquisa, modelos e datasets

Escopo da divulgação da Meta FAIR

Meta Motivo: modelo de base comportamental para controle de ações de humanoides virtuais

Meta Video Seal: marca d’água em vídeo open source

Guia e base de código de Flow Matching

Explore Theory-of-Mind: geração de dados para raciocínio de teoria da mente

Large Concept Model: prever conceitos em vez de tokens

Dynamic Byte Latent Transformer: modelo em nível de byte sem tokenizador

Meta Memory Layers: expansão esparsa de memória para informação factual

Image Diversity Modeling e EvalGIM

Meta CLIP 1.2: encoder visão-linguagem e curadoria de dados

Leituras relacionadas

1 comentários

Comentários do Hacker News