8 pontos por xguru 2023-12-12 | 1 comentários | Compartilhar no WhatsApp
  • Gera voz e efeitos sonoros combinando entrada de voz e prompts de texto em linguagem natural
    • Permite criar com facilidade áudios personalizados para diversos casos de uso
  • Aprimora o Voicebox, apresentado no início deste ano, integrando recursos de geração e edição para voz, efeitos sonoros (sons curtos e descontínuos como latidos de cachorro, buzinas de carro e trovões) e soundscapes, além de maximizar o nível de controle para cada caso de uso por meio de vários mecanismos de entrada
  • É possível usar prompts em linguagem natural para descrever o tipo de som ou de voz que se deseja gerar
    • É possível criar soundscapes com prompts como "água corrente de um rio e pássaros cantando"
    • Também é possível gerar a voz desejada com algo como "uma mulher jovem falando em tom agudo e rapidamente"
  • Ao combinar entrada de voz em áudio com prompts de estilo em texto, é possível sintetizar essa voz em qualquer ambiente (por exemplo, "em uma catedral") ou com qualquer emoção (por exemplo, "falando devagar e com tristeza")
    • É o primeiro modelo a oferecer suporte a entrada dupla (prompt de voz e prompt descritivo em texto) para alteração livre do estilo de voz
  • Apresenta desempenho mais de 30% superior ao do Voicebox em termos de similaridade de estilo em vários estilos de voz
  • A Meta está disponibilizando o Audiobox para um grupo seleto de pesquisadores e instituições acadêmicas com histórico na área de pesquisa em voz, apoiando o avanço do estado da arte nesse campo e garantindo diversos parceiros para tratar dos aspectos de IA responsável deste trabalho