Publiquei uma pergunta sobre múltiplos falantes em coreano um tempo atrás! Atualização do andamento depois disso!

3 pontos por somang04 2026-05-28 | 5 comentários | Compartilhar no WhatsApp

Não sei se isso se encaixa no ASK GN..! Mas como não parece ser notícia nem Show, estou postando aqui.

Estou desenvolvendo isso com base nas opiniões que vocês me deram antes.
Por coincidência, um colega da área de negócios com quem trabalho também tinha uma ideia parecida, então dois não desenvolvedores estão penando para fazer um MVP.
(Tanto o Claude Code 5X quanto os custos de API estão saindo do nosso próprio bolso.. meu amigo da área de negócios está contribuindo com bebida e comida.. haha)

Como estamos construindo isso com base em conteúdos como dramas, programas de variedades e filmes, os modelos que dá para usar são limitados.
Então, depois de muito procurar, estamos usando Whisper(Open AI API), Pyannote e Assembly AI.

O período gratuito do pyannote acabou e agora seria preciso pagar, mas como não é cobrança por uso e sim assinatura ($19/month), resolvi passar,
então estou testando com Deepgram Nova-3. (Se você se cadastrar, eles dão $200.)

Mas... como era de se esperar, sem o pyannote a separação de falantes fica difícil, então estou fazendo a diarização de falantes com meronym/speaker-diarization no replicate.com.

Olhando o resultado final, no fim das contas a separação de falantes até que sai razoavelmente bem.
Pretendo comparar com o Clova e depois compartilho o resultado da comparação!

Agora, a próxima dúvida aqui é:

A separação de falantes é feita com base em áudio; se eu adicionar reconhecimento facial, isso ficaria mais preciso?
Como eu deveria coletar os metadados necessários para reconhecimento facial?
Se for com base em conteúdos como dramas/filmes/programas de variedades, de onde conseguir esses metadados? (Naver, Namuwiki etc.)
Coletar metadados realmente melhoraria a qualidade em relação ao custo e ao tempo?

Se houver veteranos por aqui que já tenham pensado nesse tipo de problema, eu agradeceria muito qualquer conselho...!!!

5 comentários

boradi 2026-05-29

Como já pesquisei sobre diarização de locutores, vou falar com base no que sei.

Sim, fica mais preciso. Mas tecnicamente deve ter um certo nível de dificuldade. Afinal, isso permite até casar as mudanças do movimento labial com o sincronismo do áudio. Há bastante open source relacionado, como TalkNet-ASD e 3D-Speaker-Toolkit, então vale a pena consultar essas referências. Além disso, mais recentemente também existem pesquisas como SpeakerLM, que combinam com LLMs para fornecer imagem e vídeo juntos como input e, assim, possibilitar ao mesmo tempo a diarização de locutores e a geração de legendas.
Como eu não conheço bem o contexto do negócio que a pessoa autora do post está tocando, vou comentar apenas com base nas informações escritas: rostos que aparecem em conteúdos como dramas, filmes e programas de variedades, mesmo sendo da mesma pessoa, acabam sendo extraídos de formas bem diferentes dependendo da maquiagem ou da situação. Então, é preciso separar todos os rostos dos personagens que aparecem em cada conteúdo, fazer clustering por rosto e depois realizar o trabalho de casar isso 1:1 com o elenco daquela obra. Isso até pode ser feito com um modelo multimodal, mas para garantir precisão é necessário trabalho humano de rotulagem, e por isso consome bastante tempo e custo. Esse também é um dos motivos para contratar pessoas pagas para esse tipo de tarefa. Como referência, mesmo quando há apenas voz, se esses dados de áudio forem extraídos com antecedência, rotulados por pessoas e transformados em embeddings, a qualidade da diarização melhora bastante.
Para o banco de dados desse tipo de conteúdo, existem muitas APIs relacionadas, como tmdb, imdb e kmdb, então qualquer pessoa consegue obter uma certa quantidade de dados, seja de forma gratuita ou paga. Agora, transformar isso em um DB é algo que vocês mesmos vão precisar fazer. Crawling também é uma possibilidade, se fizer sentido.
Eu não sei exatamente o que vocês querem fazer, mas o que mencionei acima parece simples de falar, porém na prática são tarefas que exigem muito tempo e custo para elevar a precisão. As pesquisas que eu fiz também se estenderam bastante por vários motivos. Chegar a 80~90% de precisão é fácil, mas isso é algo que qualquer um consegue fazer. Por isso, preencher os detalhes desses 10% restantes é a essência da viabilização do negócio e seu valor central. Se a pergunta for “a qualidade melhora?”, então com certeza melhora. Mas se a pergunta for “melhora em relação ao custo e ao tempo investidos?”, aí eu realmente não sei. Como eu disse, estamos falando de algo em torno de 10% de melhoria.

De qualquer forma, é impressionante e admirável que pessoas não desenvolvedoras estejam encarando esse tipo de desafio. Espero que dê tudo certo.

somang04 2026-05-29

Obrigado!! Realmente, a automação tem seus limites, e faz sentido que a marcação e o mapeamento precisem ser feitos manualmente..

Acho que vou ter que recrutar mais um escravo 1.. isso ajudou demais!!

Obrigado!!

hmmhmmhm 2026-05-29

O diarization parece bom, mas há alguns pontos decepcionantes, então, entre os modelos públicos disponíveis, para se aprofundar mais, parece que acaba entrando totalmente na área de pesquisa, como no comentário abaixo.

somang04 2026-05-29

Estou avançando meio no escuro... hehe. Como eu realmente não sabia, acabei simplesmente fazendo mesmo.
Como a pessoa abaixo comentou, precisa de trabalho manual, então estou procurando recrutar o escravo 1... hehe

hmmhmmhm 2026-05-29

Oh... é admirável você encarar esse desafio... eu também saio daqui motivado com essa energia de vocês!! Força!!!

Publiquei uma pergunta sobre múltiplos falantes em coreano um tempo atrás! Atualização do andamento depois disso!

Leituras relacionadas

5 comentários