Nvidia revela o Fugatto, modelo flexível de IA para geração de som
(blogs.nvidia.com)- Modelo de IA de geração de som "Fugatto", capaz de controlar a saída de áudio usando texto
- Pode realizar várias tarefas, como geração de música, alteração de entonação ou emoção da voz, e adição/remoção de instrumentos em músicas existentes
- Também pode gerar sons completamente novos, nunca antes ouvidos
- O Fugatto pode gerar ou transformar música, fala e sons ambientes a partir de texto ou arquivos de áudio
- Foi projetado para compreender e gerar sons de forma semelhante à humana
-
"Permite aprendizado multitarefa não supervisionado, revelando novo potencial na escala de dados e de modelos"
Vários casos de uso
- Produção musical: permite experimentar e modificar imediatamente o estilo da música, a voz e os instrumentos
- Publicidade: personaliza a voz por região e contexto para otimizar campanhas
- Aprendizado de idiomas: oferece conteúdo de aprendizagem personalizado com a voz escolhida pelo usuário
- Desenvolvimento de jogos: transforma ou gera novos recursos de áudio conforme a situação do jogo
- Criação de novos sons: como a "cadeira de abacate" das IAs de geração de imagem
- Por exemplo, é possível gerar o som de um trompete latindo (
bark) como um cachorro ou de um saxofone miando (meow) como um gato - Também pode lidar com tarefas não pré-treinadas, como gerar canto de alta qualidade a partir de prompts de texto por meio de ajuste fino e de uma pequena quantidade de dados de música
- Por exemplo, é possível gerar o som de um trompete latindo (
Oferece Artistic Control (controle artístico) ao usuário
- Funções de controle orientadas ao usuário
- Combina várias instruções por meio da tecnologia ComposableART
- Permite ajustar em detalhe as instruções de texto: por exemplo, combinar um sotaque francês com uma emoção triste
- Controla a evolução do som com interpolação temporal: por exemplo, gerar uma paisagem chuvosa em que o trovão desaparece gradualmente
- Oferece ao usuário uma liberdade sem precedentes para criar sons
Características técnicas
- Modelo de IA generativa treinado com 250 milhões de parâmetros usando sistemas NVIDIA DGX e GPUs H100
- Reforço ao suporte multilíngue e a diferentes sotaques por meio da colaboração de uma equipe internacional de pesquisa
- Conjunto de dados de treinamento criado com milhões de amostras de áudio
- O desempenho foi melhorado por meio de uma nova análise das relações entre os dados
- A obtenção dos dados de treinamento e a expansão do modelo levaram mais de um ano
- Eles ficaram surpresos quando conseguiram gerar música com o primeiro prompt de texto e confirmaram o potencial futuro em uma demo que misturava música eletrônica com sons de latidos de cachorro, provocando risadas
Ainda não há comentários.