5 pontos por GN⁺ 2024-04-28 | 1 comentários | Compartilhar no WhatsApp

Introdução ao OpenVoice V1

  • As vantagens do OpenVoice são as seguintes:
    • Clonagem precisa de timbre: o OpenVoice consegue reproduzir com precisão o timbre de referência e gerar voz em vários idiomas e sotaques.
    • Controle flexível do estilo de voz: o OpenVoice permite controlar em detalhes o estilo da voz, como emoção e entonação, além de outros parâmetros de estilo como ritmo, pausas e prosódia.
    • Clonagem de voz multilíngue zero-shot: nem o idioma da voz gerada nem o idioma da voz de referência precisam necessariamente estar presentes em um grande conjunto de dados multilíngue de treinamento de locutores.

Introdução ao OpenVoice V2

  • Em abril de 2024, o OpenVoice V2 foi lançado, incluindo todos os recursos da V1 e adicionando os seguintes:
    • Melhor qualidade de áudio: o OpenVoice V2 adota uma estratégia de treinamento diferente que oferece melhor qualidade de áudio.
    • Suporte multilíngue nativo: inglês, espanhol, francês, chinês, japonês e coreano são suportados nativamente no OpenVoice V2.
    • Uso comercial gratuito: desde abril de 2024, V2 e V1 são distribuídos sob a licença MIT, com uso comercial gratuito.

Status de uso do OpenVoice

  • O OpenVoice vem fornecendo o recurso de clonagem de voz instantânea do myshell.ai desde maio de 2023.
  • Até novembro de 2023, o modelo de clonagem de voz havia sido usado dezenas de milhões de vezes por usuários em todo o mundo, e a plataforma testemunhou um crescimento explosivo de usuários.

Principais contribuidores

  • Zengyi Qin (MIT, MyShell)
  • Wenliang Zhao (Tsinghua University)
  • Xumin Yu (Tsinghua University)
  • Ethan Sun (MyShell)

Como usar

  • Para instruções detalhadas de uso, consulte usage.

Problemas comuns

  • Para perguntas e respostas frequentes, consulte QA.
  • A lista de perguntas e respostas será atualizada regularmente.

Participação da comunidade

  • Entre na comunidade do Discord e, ao entrar, selecione a função 'Developer' para obter acesso exclusivo aos canais dedicados a desenvolvedores.
  • Não perca discussões úteis e oportunidades de colaboração.

Citação

  • Esta implementação é baseada em alguns excelentes projetos, como TTS, VITS e VITS2.
  • Agradecimentos pelo excelente trabalho deles.

Licença

  • OpenVoice V1 e V2 usam a licença MIT, e tanto o uso comercial quanto o uso para pesquisa são gratuitos.

Opinião do GN⁺

  • O OpenVoice é uma ferramenta poderosa que permite gerar facilmente vozes com diferentes idiomas e emoções. Isso parece poder ser aplicado em várias áreas, como filmes, animação e jogos.

  • No entanto, por ser possível clonar vozes com tanta facilidade, há potencial para uso indevido. Por exemplo, podem surgir problemas como a criação de vídeos deepfake usando a voz de celebridades sem permissão. Parece necessário preparar medidas para isso.

  • Produtos comerciais com recursos semelhantes aos do OpenVoice incluem Lyrebird, Resemble.ai e Descript. Eles são usados principalmente em suporte ao cliente, call centers e dublagem de vídeo.

  • Ao adotar o OpenVoice, é preciso atenção a questões de segurança de dados e direitos autorais. Também é necessário verificar a naturalidade da voz gerada e a precisão da pronúncia.

  • Como foi lançado como open source, espera-se uma melhoria contínua de desempenho com a participação de vários desenvolvedores. Resta acompanhar se conseguirá oferecer qualidade de áudio e recursos no nível de produtos comerciais.

1 comentários

 
GN⁺ 2024-04-28
Comentários no Hacker News
  • Recentemente, ocorreu um caso em que um treinador esportivo usou IA para criar um clipe de áudio manipulado com falas racistas do diretor da escola, numa tentativa de incriminá-lo. Isso mostra que as leis e sua aplicação precisam se esforçar para acompanhar o ritmo do avanço da tecnologia de IA.
  • Espera-se que problemas como evidências históricas falsas, vazamentos falsos, apoios falsos e anúncios falsos se tornem mais graves. Em uma situação em que nem mesmo artigos de texto simples são devidamente verificados, os danos causados pela tecnologia de IA tendem a ser ainda maiores.
  • Essa tecnologia apenas imita o tom da voz, e não chega a realmente copiar a voz em si. A documentação deixa isso claro, mas ainda assim a chama de 'clonagem de voz', o que causa confusão.
  • É difícil encontrar casos de uso legítimos para essa tecnologia. Há muito potencial para uso indevido com o objetivo de enganar outras pessoas.
  • Para quem quer criar coisas interessantes usando tecnologia de IA, é importante encontrar bons lugares para obter informações relacionadas. O interesse está menos na tecnologia de IA em si e mais nos fluxos de trabalho interessantes e nas pessoas que a utilizam.
  • Em comparação com tecnologias de IA de clonagem de voz já publicadas anteriormente, este lançamento não parece ser particularmente pior. Há muito pessimismo excessivo e reações exageradas.
  • Espero que a tecnologia de clonagem de voz permita criar audiolivros com a própria voz do autor. Não será tão bom quanto uma leitura feita de fato por ele, mas a voz do autor provavelmente será mais atraente do que a de um dublador.
  • Seria bom se o README incluísse código de exemplo.
  • Tentei “clonar” minha própria voz, mas o resultado não ficou nada parecido. Eu esperava ouvir minha voz falando em francês, mas não foi isso que aconteceu. O título “clonagem de voz instantânea” é um pouco enganoso.