2 pontos por somang04 12 일 전 | 5 comentários | Compartilhar no WhatsApp

Já testei o Whisper da OpenAI e também o Clova da NCP, mas a diarização de múltiplos falantes em coreano parece ser bem mais difícil do que eu imaginava.
Será que entre os modelos locais ou em nuvem, inclusive comerciais, existe algum que vocês recomendariam com base no uso real?

O processo que estou imaginando é o seguinte:

  1. Coleta de conteúdo > separação de áudio (música, efeitos e voz) > análise da forma de onda do áudio > separação de múltiplos falantes no áudio > STT com base nos múltiplos falantes > geração de transcrição com base nas informações de timecode

Dependendo do resultado, parece que também daria para expandir isso até dublagem/produção de legendas.

Os critérios que estou considerando são os seguintes.

  • Como é a qualidade do resultado da saída da separação de áudio?
  • É possível identificar e distinguir a voz da mesma pessoa com base apenas no áudio?

Agradeço muito qualquer opinião ou experiência que vocês puderem compartilhar!

5 comentários

 
sungwoo 5 일 전

Pelo que testei recentemente, para múltiplos falantes a Clova faz isso bem.
Se uma qualidade razoável já bastar, a ReturnZero que recomendaram acima também serve.
Mesmo que o STT tenha uma qualidade um pouco inferior, se você passar o resultado para um LLM de alto desempenho, ele consegue entregar um resultado até que satisfatório.

No meu caso, como o reconhecimento de falantes não era importante, acabei adotando o Gemini.
Como cada solução tem seus prós e contras, no fim recomendo que você faça uma amostragem de alguns dos dados que quer resolver e escolha com base nisso.

 
arthurk 6 일 전

https://developers.rtzr.ai/docs/stt-file/diarization/
Não dá para usar só a separação de múltiplos falantes, mas a API é fornecida junto com STT. (OpenAI e Clova são parecidos)

 
yunsub2 12 일 전

A separação de falantes parecia ser algo que a Daglo fazia bem.

 
somang04 12 일 전

Oh! É assim mesmo?! Isso é uma plataforma? Eu estou procurando algo que funcione com LLM local ou baseado em API!

 
yunsub2 11 일 전

Sim, infelizmente a Daglo não oferece um LLM local!
Parece que também disponibiliza uma API, embora seja paga. (https://developers.daglo.ai/guide/)