- Detecção de turno é uma das funções mais importantes da stack de IA de voz, uma tecnologia que determina o momento em que o agente de voz deve responder quando uma pessoa está falando
- A maioria dos agentes de voz usa VAD (Voice Activity Detection) para dividir o áudio em segmentos de fala e não fala, de modo que o significado acústico e linguístico não é refletido
- Humanos realizam a detecção de turno por meio de sinais complexos como gramática, entonação e velocidade da fala
- Objetivo: construir um modelo mais próximo das expectativas humanas do que abordagens baseadas em VAD
- Projeto de desenvolvimento de um modelo de detecção de turno em áudio open source, conduzido pela comunidade
- Licença BSD 2-clause → qualquer pessoa pode usar, fazer fork e contribuir
- O projeto começou no ecossistema Pipecat
- Pipecat: framework open source, independente de fornecedor, para IA de voz e multimodal
- Objetivos do projeto
- Objetivos de alto nível
- Fácil de usar para qualquer pessoa
- Fácil de implantar em produção
- Fácil de fazer fine-tuning para aplicações específicas
- Limitações atuais do modelo
- Suporta apenas inglês
- Velocidade de inferência relativamente lenta: cerca de 150ms em GPU e cerca de 1500ms em CPU
- Os dados de treino se concentram principalmente em falas incompletas (filler words) que ocorrem no fim de segmentos
- Objetivos de médio prazo
- Suporte a vários idiomas
- Tempo de inferência: abaixo de 50ms em GPU e abaixo de 500ms em CPU
- Refletir dados de treino com nuances de fala mais amplas
- Construir um pipeline completo de geração de dados sintéticos
- Suporte a condicionamento baseado em texto (ex.: inserção de cartão de crédito, número de telefone, endereço etc.)
- Arquitetura do modelo
- Baseado no backbone Wav2Vec2-BERT da Meta AI (número de parâmetros: 580M)
- Usa dados de áudio para aprendizado não supervisionado de 4,5 milhões de horas em 143 idiomas
- Estrutura atual do modelo:
- Wav2Vec2-BERT → classificador de 2 camadas (
classification head)
- Uso de
Hugging Face Wav2Vec2BertForSequenceClassification
- Arquitetura em experimentação:
- Testando se um classificador simples continuará eficaz mesmo com a expansão do conjunto de dados
- Avaliando a possibilidade de introduzir uma estrutura mais complexa
1 comentários
Comentários do Hacker News
Já usei pipecat e gostei. Mas migrei para sherpa-onnx, que pode ser compilado nativamente e executado em dispositivos de borda
Houve algumas atualizações interessantes hoje
Encontrei a maioria das respostas no README. Está bem escrito
Gostaria de saber se podem compartilhar a quantidade de recursos e o volume necessários para fazer fine-tuning do Wav2Vec2-BERT
Fiquei curioso sobre o que é detecção de turno
Fico feliz em ver essa tecnologia avançando mais
Como alguém com diagnóstico de autismo de alto funcionamento, eu gostaria de aplicar essa tecnologia em um earpiece
Depois de analisar alguns modelos baseados em turno, a implementação parece muito consistente. Estou curioso para ver como essa tecnologia vai evoluir
Espero que o Vedal integre essa tecnologia ao modelo do Neuro-sama. Um caso de transformação de bot de osu em AI Vtuber
Gostaria de saber se suporta vários falantes
Fazendo fork agora