3 pontos por xguru 2024-06-21 | Ainda não há comentários. | Compartilhar no WhatsApp
  • A Meta Fundamental AI Research (FAIR) divulgou novos resultados de pesquisa
  • Inclui 6 entregas de pesquisa focadas nos temas centrais de inovação, criatividade, eficiência e responsabilidade

Meta Chameleon

  • Um modelo de arquitetura unificada que recebe texto e imagens como entrada e pode gerar uma combinação de texto e imagens como saída
    • Como processa texto e imagens usando tokenização em vez de treinamento baseado em diffusion, permite uma abordagem unificada e facilita projeto, manutenção e expansão
    • Os principais componentes dos modelos Chameleon 7B e 34B foram lançados sob licença apenas para pesquisa
    • O modelo de geração de imagens ainda não foi divulgado

Multi-Token Prediction

  • Propõe uma nova abordagem que prevê várias palavras de uma vez, em vez do método tradicional de prever uma palavra por vez
    • O desempenho do modelo e a eficiência de treinamento melhoram, e a velocidade também aumenta
    • Foi divulgado um modelo pré-treinado para conclusão de código sob licença não comercial/apenas para pesquisa

JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)

  • Um modelo de geração de música a partir de texto que converte prompts de texto em clipes musicais
    • Pode receber vários tipos de entrada, como acordes ou batidas específicas, permitindo controlar melhor a saída musical gerada
    • Aplica information bottleneck layer e temporal blurring para extrair informações relacionadas a controles específicos
    • Na avaliação, a qualidade de geração foi semelhante à do modelo de referência, mas com muito mais possibilidades de controle
    • O artigo de pesquisa e a página de exemplos foram divulgados, e o código de inferência e os modelos pré-treinados também devem ser lançados futuramente

AudioSeal

  • Uma técnica de marca d'água em áudio para detectar fala gerada por IA
    • Consegue localizar com precisão as partes geradas por IA dentro de clipes de áudio mais longos
    • Usa um método de detecção local em vez de algoritmos complexos de decodificação já existentes, melhorando velocidade e eficiência
    • Foi divulgado sob licença comercial, como parte de uma linha de pesquisa para evitar o uso indevido de diversas ferramentas de IA generativa

Apoio à divulgação do conjunto de dados PRISM

  • Receber feedback de pessoas diversas é importante para melhorar os LLMs
    • A comunidade de pesquisa vem levantando dúvidas sobre métodos, domínios e objetivos do processo de feedback
    • A Meta apoia a divulgação do conjunto de dados PRISM, que mapeia características sociodemográficas e preferências de 1.500 participantes diversos em 75 países
    • O conjunto de dados mapeia as preferências individuais e o feedback detalhado de cada pessoa sobre 8.011 conversas em tempo real com 21 LLMs
    • A expectativa é incentivar uma participação mais ampla no desenvolvimento de IA e uma abordagem mais inclusiva no design de tecnologia

Medição e melhoria das lacunas geográficas em sistemas de geração de texto para imagem

  • É importante que modelos de texto para imagem funcionem bem para todas as pessoas e reflitam a diversidade geográfica e cultural do mundo
    • Foi desenvolvido um indicador automático chamado "DIG In" para avaliar possíveis lacunas geográficas
    • Foram coletadas mais de 65.000 anotações e mais de 20 respostas de pesquisa para estudar como as pessoas reconhecem representações geográficas
    • Descobriu-se que as pessoas reconhecem representações geográficas usando componentes específicos dentro da imagem, e não a imagem inteira
    • Com base nisso, foram exploradas formas de melhorar a diversidade das saídas de modelos de texto para imagem
    • Foi introduzido o Contextualized Vendi Score guidance para aumentar a diversidade representacional das amostras geradas, mantendo a qualidade da imagem e a consistência entre prompt e geração

Ainda não há comentários.

Ainda não há comentários.