Audiobox - o novo modelo fundacional da Meta para geração de áudio

xguru · 2023-12-12T09:40:47+09:00

Gera voz e efeitos sonoros combinando entrada de voz e prompts de texto em linguagem natural Permite criar com facilidade áudios personalizados para diversos casos de uso Aprimora o Voicebox, apresentado no início deste ano, integrando recursos de geração e edição para voz, efeitos sonoros (sons curtos e descontínuos como latidos de cachorro, buzinas de carro e trovões) e soundscapes, além de maximizar o nível de controle para cada caso de uso por meio de vários mecanismos de entrada É possível usar prompts em linguagem natural para descrever o tipo de som ou de voz que se deseja gerar É possível criar soundscapes com prompts como "água corrente de um rio e pássaros cantando" Também é possível gerar a voz desejada com algo como "uma mulher jovem falando em tom agudo e rapidamente" Ao combinar entrada de voz em áudio com prompts de estilo em texto, é possível sintetizar essa voz em qualquer ambiente (por exemplo, "em uma catedral") ou com qualquer emoção (por exemplo, "falando devagar e com tristeza") É o primeiro modelo a oferecer suporte a entrada dupla (prompt de voz e prompt descritivo em texto) para alteração livre do estilo de voz Apresenta desempenho mais de 30% superior ao do Voicebox em termos de similaridade de estilo em vários estilos de voz A Meta está disponibilizando o Audiobox para um grupo seleto de pesquisadores e instituições acadêmicas com histórico na área de pesquisa em voz, apoiando o avanço do estado da arte nesse campo e garantindo diversos parceiros para tratar dos aspectos de IA responsável deste trabalho

(ai.meta.com)

8 pontos por xguru 2023-12-12 | 1 comentários | Compartilhar no WhatsApp

Gera voz e efeitos sonoros combinando entrada de voz e prompts de texto em linguagem natural
- Permite criar com facilidade áudios personalizados para diversos casos de uso
Aprimora o Voicebox, apresentado no início deste ano, integrando recursos de geração e edição para voz, efeitos sonoros (sons curtos e descontínuos como latidos de cachorro, buzinas de carro e trovões) e soundscapes, além de maximizar o nível de controle para cada caso de uso por meio de vários mecanismos de entrada
É possível usar prompts em linguagem natural para descrever o tipo de som ou de voz que se deseja gerar
- É possível criar soundscapes com prompts como "água corrente de um rio e pássaros cantando"
- Também é possível gerar a voz desejada com algo como "uma mulher jovem falando em tom agudo e rapidamente"
Ao combinar entrada de voz em áudio com prompts de estilo em texto, é possível sintetizar essa voz em qualquer ambiente (por exemplo, "em uma catedral") ou com qualquer emoção (por exemplo, "falando devagar e com tristeza")
- É o primeiro modelo a oferecer suporte a entrada dupla (prompt de voz e prompt descritivo em texto) para alteração livre do estilo de voz
Apresenta desempenho mais de 30% superior ao do Voicebox em termos de similaridade de estilo em vários estilos de voz
A Meta está disponibilizando o Audiobox para um grupo seleto de pesquisadores e instituições acadêmicas com histórico na área de pesquisa em voz, apoiando o avanço do estado da arte nesse campo e garantindo diversos parceiros para tratar dos aspectos de IA responsável deste trabalho

1 comentários

xguru 2023-12-12

Meta revela Voicebox, modelo de IA generativa para voz

Audiobox - o novo modelo fundacional da Meta para geração de áudio

Leituras relacionadas

1 comentários