- A Meta Fundamental AI Research (FAIR) divulgou novos resultados de pesquisa
- Inclui 6 entregas de pesquisa focadas nos temas centrais de inovação, criatividade, eficiência e responsabilidade
Meta Chameleon
- Um modelo de arquitetura unificada que recebe texto e imagens como entrada e pode gerar uma combinação de texto e imagens como saída
- Como processa texto e imagens usando tokenização em vez de treinamento baseado em diffusion, permite uma abordagem unificada e facilita projeto, manutenção e expansão
- Os principais componentes dos modelos Chameleon 7B e 34B foram lançados sob licença apenas para pesquisa
- O modelo de geração de imagens ainda não foi divulgado
Multi-Token Prediction
- Propõe uma nova abordagem que prevê várias palavras de uma vez, em vez do método tradicional de prever uma palavra por vez
- O desempenho do modelo e a eficiência de treinamento melhoram, e a velocidade também aumenta
- Foi divulgado um modelo pré-treinado para conclusão de código sob licença não comercial/apenas para pesquisa
JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)
- Um modelo de geração de música a partir de texto que converte prompts de texto em clipes musicais
- Pode receber vários tipos de entrada, como acordes ou batidas específicas, permitindo controlar melhor a saída musical gerada
- Aplica information bottleneck layer e temporal blurring para extrair informações relacionadas a controles específicos
- Na avaliação, a qualidade de geração foi semelhante à do modelo de referência, mas com muito mais possibilidades de controle
- O artigo de pesquisa e a página de exemplos foram divulgados, e o código de inferência e os modelos pré-treinados também devem ser lançados futuramente
AudioSeal
- Uma técnica de marca d'água em áudio para detectar fala gerada por IA
- Consegue localizar com precisão as partes geradas por IA dentro de clipes de áudio mais longos
- Usa um método de detecção local em vez de algoritmos complexos de decodificação já existentes, melhorando velocidade e eficiência
- Foi divulgado sob licença comercial, como parte de uma linha de pesquisa para evitar o uso indevido de diversas ferramentas de IA generativa
Apoio à divulgação do conjunto de dados PRISM
- Receber feedback de pessoas diversas é importante para melhorar os LLMs
- A comunidade de pesquisa vem levantando dúvidas sobre métodos, domínios e objetivos do processo de feedback
- A Meta apoia a divulgação do conjunto de dados PRISM, que mapeia características sociodemográficas e preferências de 1.500 participantes diversos em 75 países
- O conjunto de dados mapeia as preferências individuais e o feedback detalhado de cada pessoa sobre 8.011 conversas em tempo real com 21 LLMs
- A expectativa é incentivar uma participação mais ampla no desenvolvimento de IA e uma abordagem mais inclusiva no design de tecnologia
Medição e melhoria das lacunas geográficas em sistemas de geração de texto para imagem
- É importante que modelos de texto para imagem funcionem bem para todas as pessoas e reflitam a diversidade geográfica e cultural do mundo
- Foi desenvolvido um indicador automático chamado "DIG In" para avaliar possíveis lacunas geográficas
- Foram coletadas mais de 65.000 anotações e mais de 20 respostas de pesquisa para estudar como as pessoas reconhecem representações geográficas
- Descobriu-se que as pessoas reconhecem representações geográficas usando componentes específicos dentro da imagem, e não a imagem inteira
- Com base nisso, foram exploradas formas de melhorar a diversidade das saídas de modelos de texto para imagem
- Foi introduzido o Contextualized Vendi Score guidance para aumentar a diversidade representacional das amostras geradas, mantendo a qualidade da imagem e a consistência entre prompt e geração
Ainda não há comentários.