Nvidia revela o Fugatto, modelo flexível de IA para geração de som

xguru · 2024-11-27T11:20:01+09:00

Modelo de IA de geração de som "Fugatto", capaz de controlar a saída de áudio usando texto Pode realizar várias tarefas, como geração de música, alteração de entonação ou emoção da voz, e adição/remoção de instrumentos em músicas existentes Também pode gerar sons completamente novos, nunca antes ouvidos O Fugatto pode gerar ou transformar música, fala e sons ambientes a partir de texto ou arquivos de áudio Foi projetado para compreender e gerar sons de forma semelhante à humana "Permite aprendizado multitarefa não supervisionado, revelando novo potencial na escala de dados e de modelos" Vários casos de uso Produção musical: permite experimentar e modificar imediatamente o estilo da música, a voz e os instrumentos Publicidade: personaliza a voz por região e contexto para otimizar campanhas Aprendizado de idiomas: oferece conteúdo de aprendizagem personalizado com a voz escolhida pelo usuário Desenvolvimento de jogos: transforma ou gera novos recursos de áudio conforme a situação do jogo Criação de novos sons: como a "cadeira de abacate" das IAs de geração de imagem Por exemplo, é possível gerar o som de um trompete latindo (bark) como um cachorro ou de um saxofone miando (meow) como um gato Também pode lidar com tarefas não pré-treinadas, como gerar canto de alta qualidade a partir de prompts de texto por meio de ajuste fino e de uma pequena quantidade de dados de música Oferece Artistic Control (controle artístico) ao usuário Funções de controle orientadas ao usuário Combina várias instruções por meio da tecnologia ComposableART Permite ajustar em detalhe as instruções de texto: por exemplo, combinar um sotaque francês com uma emoção triste Controla a evolução do som com interpolação temporal: por exemplo, gerar uma paisagem chuvosa em que o trovão desaparece gradualmente Oferece ao usuário uma liberdade sem precedentes para criar sons Características técnicas Modelo de IA generativa treinado com 250 milhões de parâmetros usando sistemas NVIDIA DGX e GPUs H100 Reforço ao suporte multilíngue e a diferentes sotaques por meio da colaboração de uma equipe internacional de pesquisa Conjunto de dados de treinamento criado com milhões de amostras de áudio O desempenho foi melhorado por meio de uma nova análise das relações entre os dados A obtenção dos dados de treinamento e a expansão do modelo levaram mais de um ano Eles ficaram surpresos quando conseguiram gerar música com o primeiro prompt de texto e confirmaram o potencial futuro em uma demo que misturava música eletrônica com sons de latidos de cachorro, provocando risadas

(blogs.nvidia.com)

3 pontos por xguru 2024-11-27 | Ainda não há comentários. | Compartilhar no WhatsApp

Modelo de IA de geração de som "Fugatto", capaz de controlar a saída de áudio usando texto
- Pode realizar várias tarefas, como geração de música, alteração de entonação ou emoção da voz, e adição/remoção de instrumentos em músicas existentes
- Também pode gerar sons completamente novos, nunca antes ouvidos
O Fugatto pode gerar ou transformar música, fala e sons ambientes a partir de texto ou arquivos de áudio
- Foi projetado para compreender e gerar sons de forma semelhante à humana
- "Permite aprendizado multitarefa não supervisionado, revelando novo potencial na escala de dados e de modelos"

Vários casos de uso

Produção musical: permite experimentar e modificar imediatamente o estilo da música, a voz e os instrumentos
Publicidade: personaliza a voz por região e contexto para otimizar campanhas
Aprendizado de idiomas: oferece conteúdo de aprendizagem personalizado com a voz escolhida pelo usuário
Desenvolvimento de jogos: transforma ou gera novos recursos de áudio conforme a situação do jogo
Criação de novos sons: como a "cadeira de abacate" das IAs de geração de imagem
- Por exemplo, é possível gerar o som de um trompete latindo (bark) como um cachorro ou de um saxofone miando (meow) como um gato
- Também pode lidar com tarefas não pré-treinadas, como gerar canto de alta qualidade a partir de prompts de texto por meio de ajuste fino e de uma pequena quantidade de dados de música

Oferece Artistic Control (controle artístico) ao usuário

Funções de controle orientadas ao usuário
- Combina várias instruções por meio da tecnologia ComposableART
- Permite ajustar em detalhe as instruções de texto: por exemplo, combinar um sotaque francês com uma emoção triste
- Controla a evolução do som com interpolação temporal: por exemplo, gerar uma paisagem chuvosa em que o trovão desaparece gradualmente
Oferece ao usuário uma liberdade sem precedentes para criar sons

Características técnicas

Modelo de IA generativa treinado com 250 milhões de parâmetros usando sistemas NVIDIA DGX e GPUs H100
Reforço ao suporte multilíngue e a diferentes sotaques por meio da colaboração de uma equipe internacional de pesquisa
Conjunto de dados de treinamento criado com milhões de amostras de áudio
- O desempenho foi melhorado por meio de uma nova análise das relações entre os dados
A obtenção dos dados de treinamento e a expansão do modelo levaram mais de um ano
Eles ficaram surpresos quando conseguiram gerar música com o primeiro prompt de texto e confirmaram o potencial futuro em uma demo que misturava música eletrônica com sons de latidos de cachorro, provocando risadas

Nvidia revela o Fugatto, modelo flexível de IA para geração de som

Vários casos de uso

Oferece Artistic Control (controle artístico) ao usuário

Características técnicas

Leituras relacionadas

Ainda não há comentários.