Meta FAIR divulga novos resultados de pesquisa, modelos e conjuntos de dados

xguru · 2024-06-21T09:46:01+09:00

A Meta Fundamental AI Research (FAIR) divulgou novos resultados de pesquisa Inclui 6 entregas de pesquisa focadas nos temas centrais de inovação, criatividade, eficiência e responsabilidade Meta Chameleon Um modelo de arquitetura unificada que recebe texto e imagens como entrada e pode gerar uma combinação de texto e imagens como saída Como processa texto e imagens usando tokenização em vez de treinamento baseado em diffusion, permite uma abordagem unificada e facilita projeto, manutenção e expansão Os principais componentes dos modelos Chameleon 7B e 34B foram lançados sob licença apenas para pesquisa O modelo de geração de imagens ainda não foi divulgado Multi-Token Prediction Propõe uma nova abordagem que prevê várias palavras de uma vez, em vez do método tradicional de prever uma palavra por vez O desempenho do modelo e a eficiência de treinamento melhoram, e a velocidade também aumenta Foi divulgado um modelo pré-treinado para conclusão de código sob licença não comercial/apenas para pesquisa JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation) Um modelo de geração de música a partir de texto que converte prompts de texto em clipes musicais Pode receber vários tipos de entrada, como acordes ou batidas específicas, permitindo controlar melhor a saída musical gerada Aplica information bottleneck layer e temporal blurring para extrair informações relacionadas a controles específicos Na avaliação, a qualidade de geração foi semelhante à do modelo de referência, mas com muito mais possibilidades de controle O artigo de pesquisa e a página de exemplos foram divulgados, e o código de inferência e os modelos pré-treinados também devem ser lançados futuramente AudioSeal Uma técnica de marca d'água em áudio para detectar fala gerada por IA Consegue localizar com precisão as partes geradas por IA dentro de clipes de áudio mais longos Usa um método de detecção local em vez de algoritmos complexos de decodificação já existentes, melhorando velocidade e eficiência Foi divulgado sob licença comercial, como parte de uma linha de pesquisa para evitar o uso indevido de diversas ferramentas de IA generativa Apoio à divulgação do conjunto de dados PRISM Receber feedback de pessoas diversas é importante para melhorar os LLMs A comunidade de pesquisa vem levantando dúvidas sobre métodos, domínios e objetivos do processo de feedback A Meta apoia a divulgação do conjunto de dados PRISM, que mapeia características sociodemográficas e preferências de 1.500 participantes diversos em 75 países O conjunto de dados mapeia as preferências individuais e o feedback detalhado de cada pessoa sobre 8.011 conversas em tempo real com 21 LLMs A expectativa é incentivar uma participação mais ampla no desenvolvimento de IA e uma abordagem mais inclusiva no design de tecnologia Medição e melhoria das lacunas geográficas em sistemas de geração de texto para imagem É importante que modelos de texto para imagem funcionem bem para todas as pessoas e reflitam a diversidade geográfica e cultural do mundo Foi desenvolvido um indicador automático chamado "DIG In" para avaliar possíveis lacunas geográficas Foram coletadas mais de 65.000 anotações e mais de 20 respostas de pesquisa para estudar como as pessoas reconhecem representações geográficas Descobriu-se que as pessoas reconhecem representações geográficas usando componentes específicos dentro da imagem, e não a imagem inteira Com base nisso, foram exploradas formas de melhorar a diversidade das saídas de modelos de texto para imagem Foi introduzido o Contextualized Vendi Score guidance para aumentar a diversidade representacional das amostras geradas, mantendo a qualidade da imagem e a consistência entre prompt e geração

(ai.meta.com)

3 pontos por xguru 2024-06-21 | Ainda não há comentários. | Compartilhar no WhatsApp

A Meta Fundamental AI Research (FAIR) divulgou novos resultados de pesquisa
Inclui 6 entregas de pesquisa focadas nos temas centrais de inovação, criatividade, eficiência e responsabilidade

Meta Chameleon

Um modelo de arquitetura unificada que recebe texto e imagens como entrada e pode gerar uma combinação de texto e imagens como saída
- Como processa texto e imagens usando tokenização em vez de treinamento baseado em diffusion, permite uma abordagem unificada e facilita projeto, manutenção e expansão
- Os principais componentes dos modelos Chameleon 7B e 34B foram lançados sob licença apenas para pesquisa
- O modelo de geração de imagens ainda não foi divulgado

Multi-Token Prediction

Propõe uma nova abordagem que prevê várias palavras de uma vez, em vez do método tradicional de prever uma palavra por vez
- O desempenho do modelo e a eficiência de treinamento melhoram, e a velocidade também aumenta
- Foi divulgado um modelo pré-treinado para conclusão de código sob licença não comercial/apenas para pesquisa

JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)

Um modelo de geração de música a partir de texto que converte prompts de texto em clipes musicais
- Pode receber vários tipos de entrada, como acordes ou batidas específicas, permitindo controlar melhor a saída musical gerada
- Aplica information bottleneck layer e temporal blurring para extrair informações relacionadas a controles específicos
- Na avaliação, a qualidade de geração foi semelhante à do modelo de referência, mas com muito mais possibilidades de controle
- O artigo de pesquisa e a página de exemplos foram divulgados, e o código de inferência e os modelos pré-treinados também devem ser lançados futuramente

AudioSeal

Uma técnica de marca d'água em áudio para detectar fala gerada por IA
- Consegue localizar com precisão as partes geradas por IA dentro de clipes de áudio mais longos
- Usa um método de detecção local em vez de algoritmos complexos de decodificação já existentes, melhorando velocidade e eficiência
- Foi divulgado sob licença comercial, como parte de uma linha de pesquisa para evitar o uso indevido de diversas ferramentas de IA generativa

Apoio à divulgação do conjunto de dados PRISM

Receber feedback de pessoas diversas é importante para melhorar os LLMs
- A comunidade de pesquisa vem levantando dúvidas sobre métodos, domínios e objetivos do processo de feedback
- A Meta apoia a divulgação do conjunto de dados PRISM, que mapeia características sociodemográficas e preferências de 1.500 participantes diversos em 75 países
- O conjunto de dados mapeia as preferências individuais e o feedback detalhado de cada pessoa sobre 8.011 conversas em tempo real com 21 LLMs
- A expectativa é incentivar uma participação mais ampla no desenvolvimento de IA e uma abordagem mais inclusiva no design de tecnologia

Medição e melhoria das lacunas geográficas em sistemas de geração de texto para imagem

É importante que modelos de texto para imagem funcionem bem para todas as pessoas e reflitam a diversidade geográfica e cultural do mundo
- Foi desenvolvido um indicador automático chamado "DIG In" para avaliar possíveis lacunas geográficas
- Foram coletadas mais de 65.000 anotações e mais de 20 respostas de pesquisa para estudar como as pessoas reconhecem representações geográficas
- Descobriu-se que as pessoas reconhecem representações geográficas usando componentes específicos dentro da imagem, e não a imagem inteira
- Com base nisso, foram exploradas formas de melhorar a diversidade das saídas de modelos de texto para imagem
- Foi introduzido o Contextualized Vendi Score guidance para aumentar a diversidade representacional das amostras geradas, mantendo a qualidade da imagem e a consistência entre prompt e geração