Smart-turn - modelo open source de detecção de turno em áudio

(github.com/pipecat-ai)

8 pontos por GN⁺ 2025-03-10 | 1 comentários | Compartilhar no WhatsApp

Detecção de turno é uma das funções mais importantes da stack de IA de voz, uma tecnologia que determina o momento em que o agente de voz deve responder quando uma pessoa está falando
A maioria dos agentes de voz usa VAD (Voice Activity Detection) para dividir o áudio em segmentos de fala e não fala, de modo que o significado acústico e linguístico não é refletido
Humanos realizam a detecção de turno por meio de sinais complexos como gramática, entonação e velocidade da fala
- Objetivo: construir um modelo mais próximo das expectativas humanas do que abordagens baseadas em VAD
Projeto de desenvolvimento de um modelo de detecção de turno em áudio open source, conduzido pela comunidade
- Licença BSD 2-clause → qualquer pessoa pode usar, fazer fork e contribuir
- O projeto começou no ecossistema Pipecat
- Pipecat: framework open source, independente de fornecedor, para IA de voz e multimodal
Objetivos do projeto
- Objetivos de alto nível
  - Fácil de usar para qualquer pessoa
  - Fácil de implantar em produção
  - Fácil de fazer fine-tuning para aplicações específicas
- Limitações atuais do modelo
  - Suporta apenas inglês
  - Velocidade de inferência relativamente lenta: cerca de 150ms em GPU e cerca de 1500ms em CPU
  - Os dados de treino se concentram principalmente em falas incompletas (filler words) que ocorrem no fim de segmentos
- Objetivos de médio prazo
  - Suporte a vários idiomas
  - Tempo de inferência: abaixo de 50ms em GPU e abaixo de 500ms em CPU
  - Refletir dados de treino com nuances de fala mais amplas
  - Construir um pipeline completo de geração de dados sintéticos
  - Suporte a condicionamento baseado em texto (ex.: inserção de cartão de crédito, número de telefone, endereço etc.)
Arquitetura do modelo
- Baseado no backbone Wav2Vec2-BERT da Meta AI (número de parâmetros: 580M)
  - Usa dados de áudio para aprendizado não supervisionado de 4,5 milhões de horas em 143 idiomas
- Estrutura atual do modelo:
  - Wav2Vec2-BERT → classificador de 2 camadas (classification head)
  - Uso de Hugging Face Wav2Vec2BertForSequenceClassification
- Arquitetura em experimentação:
  - Testando se um classificador simples continuará eficaz mesmo com a expansão do conjunto de dados
  - Avaliando a possibilidade de introduzir uma estrutura mais complexa

1 comentários

GN⁺ 2025-03-10

Comentários do Hacker News

Já usei pipecat e gostei. Mas migrei para sherpa-onnx, que pode ser compilado nativamente e executado em dispositivos de borda
- Ao usar o app Google Tradutor, muitas vezes eu falo frases longas, faço uma pausa no meio ou diminuo a velocidade, então evito o modo de conversa
- Esse problema exige detecção de turno de baixa latência, detecção de interrupção de fala e um LLM de latência realmente muito baixa
- É preciso uma boa capacidade de recuperação para que o sistema consiga continuar a última frase sem descartar o áudio anterior
- Para melhorar a latência de i/o, é necessário usar uma API de áudio de baixa latência, buffers de áudio bem curtos e categorias e modos de áudio dedicados
- Não tenho certeza se dá para usar TTS em modo de streaming
- Um push-to-talk bem projetado pode ser uma boa solução
Houve algumas atualizações interessantes hoje
- Inferência em 100 ms usando CoreML
- Um modelo LSTM treinado em um subconjunto dos dados
Encontrei a maioria das respostas no README. Está bem escrito
Gostaria de saber se podem compartilhar a quantidade de recursos e o volume necessários para fazer fine-tuning do Wav2Vec2-BERT
Fiquei curioso sobre o que é detecção de turno
Fico feliz em ver essa tecnologia avançando mais
- Dos piores sistemas de voz, como a Siri, até o modo de voz do ChatGPT, os computadores não fazem isso bem
- Esse pode ser o maior obstáculo para que "agentes" executem tarefas simples, mas úteis
- Ainda há muitas situações em que a IA tem dificuldade, e esses erros podem destruir a eficiência de uma conversa ou causar falhas funcionais graves
Como alguém com diagnóstico de autismo de alto funcionamento, eu gostaria de aplicar essa tecnologia em um earpiece
Depois de analisar alguns modelos baseados em turno, a implementação parece muito consistente. Estou curioso para ver como essa tecnologia vai evoluir
Espero que o Vedal integre essa tecnologia ao modelo do Neuro-sama. Um caso de transformação de bot de osu em AI Vtuber
Gostaria de saber se suporta vários falantes
Fazendo fork agora

Smart-turn - modelo open source de detecção de turno em áudio

Leituras relacionadas

1 comentários

Comentários do Hacker News