3 pontos por xguru 2024-11-27 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Modelo de IA de geração de som "Fugatto", capaz de controlar a saída de áudio usando texto
    • Pode realizar várias tarefas, como geração de música, alteração de entonação ou emoção da voz, e adição/remoção de instrumentos em músicas existentes
    • Também pode gerar sons completamente novos, nunca antes ouvidos
  • O Fugatto pode gerar ou transformar música, fala e sons ambientes a partir de texto ou arquivos de áudio
    • Foi projetado para compreender e gerar sons de forma semelhante à humana
    • "Permite aprendizado multitarefa não supervisionado, revelando novo potencial na escala de dados e de modelos"

Vários casos de uso

  • Produção musical: permite experimentar e modificar imediatamente o estilo da música, a voz e os instrumentos
  • Publicidade: personaliza a voz por região e contexto para otimizar campanhas
  • Aprendizado de idiomas: oferece conteúdo de aprendizagem personalizado com a voz escolhida pelo usuário
  • Desenvolvimento de jogos: transforma ou gera novos recursos de áudio conforme a situação do jogo
  • Criação de novos sons: como a "cadeira de abacate" das IAs de geração de imagem
    • Por exemplo, é possível gerar o som de um trompete latindo (bark) como um cachorro ou de um saxofone miando (meow) como um gato
    • Também pode lidar com tarefas não pré-treinadas, como gerar canto de alta qualidade a partir de prompts de texto por meio de ajuste fino e de uma pequena quantidade de dados de música

Oferece Artistic Control (controle artístico) ao usuário

  • Funções de controle orientadas ao usuário
    • Combina várias instruções por meio da tecnologia ComposableART
    • Permite ajustar em detalhe as instruções de texto: por exemplo, combinar um sotaque francês com uma emoção triste
    • Controla a evolução do som com interpolação temporal: por exemplo, gerar uma paisagem chuvosa em que o trovão desaparece gradualmente
  • Oferece ao usuário uma liberdade sem precedentes para criar sons

Características técnicas

  • Modelo de IA generativa treinado com 250 milhões de parâmetros usando sistemas NVIDIA DGX e GPUs H100
  • Reforço ao suporte multilíngue e a diferentes sotaques por meio da colaboração de uma equipe internacional de pesquisa
  • Conjunto de dados de treinamento criado com milhões de amostras de áudio
    • O desempenho foi melhorado por meio de uma nova análise das relações entre os dados
  • A obtenção dos dados de treinamento e a expansão do modelo levaram mais de um ano
  • Eles ficaram surpresos quando conseguiram gerar música com o primeiro prompt de texto e confirmaram o potencial futuro em uma demo que misturava música eletrônica com sons de latidos de cachorro, provocando risadas

Ainda não há comentários.

Ainda não há comentários.