Não sei se isso se encaixa no ASK GN..! Mas como não parece ser notícia nem Show, estou postando aqui.
Estou desenvolvendo isso com base nas opiniões que vocês me deram antes.
Por coincidência, um colega da área de negócios com quem trabalho também tinha uma ideia parecida, então dois não desenvolvedores estão penando para fazer um MVP.
(Tanto o Claude Code 5X quanto os custos de API estão saindo do nosso próprio bolso.. meu amigo da área de negócios está contribuindo com bebida e comida.. haha)
Como estamos construindo isso com base em conteúdos como dramas, programas de variedades e filmes, os modelos que dá para usar são limitados.
Então, depois de muito procurar, estamos usando Whisper(Open AI API), Pyannote e Assembly AI.
O período gratuito do pyannote acabou e agora seria preciso pagar, mas como não é cobrança por uso e sim assinatura ($19/month), resolvi passar,
então estou testando com Deepgram Nova-3. (Se você se cadastrar, eles dão $200.)
Mas... como era de se esperar, sem o pyannote a separação de falantes fica difícil, então estou fazendo a diarização de falantes com meronym/speaker-diarization no replicate.com.
Olhando o resultado final, no fim das contas a separação de falantes até que sai razoavelmente bem.
Pretendo comparar com o Clova e depois compartilho o resultado da comparação!
Agora, a próxima dúvida aqui é:
- A separação de falantes é feita com base em áudio; se eu adicionar reconhecimento facial, isso ficaria mais preciso?
- Como eu deveria coletar os metadados necessários para reconhecimento facial?
- Se for com base em conteúdos como dramas/filmes/programas de variedades, de onde conseguir esses metadados? (Naver, Namuwiki etc.)
- Coletar metadados realmente melhoraria a qualidade em relação ao custo e ao tempo?
Se houver veteranos por aqui que já tenham pensado nesse tipo de problema, eu agradeceria muito qualquer conselho...!!!
Ainda não há comentários.