8 pontos por GN⁺ 2025-03-10 | 1 comentários | Compartilhar no WhatsApp
  • Detecção de turno é uma das funções mais importantes da stack de IA de voz, uma tecnologia que determina o momento em que o agente de voz deve responder quando uma pessoa está falando
  • A maioria dos agentes de voz usa VAD (Voice Activity Detection) para dividir o áudio em segmentos de fala e não fala, de modo que o significado acústico e linguístico não é refletido
  • Humanos realizam a detecção de turno por meio de sinais complexos como gramática, entonação e velocidade da fala
    • Objetivo: construir um modelo mais próximo das expectativas humanas do que abordagens baseadas em VAD
  • Projeto de desenvolvimento de um modelo de detecção de turno em áudio open source, conduzido pela comunidade
    • Licença BSD 2-clause → qualquer pessoa pode usar, fazer fork e contribuir
    • O projeto começou no ecossistema Pipecat
    • Pipecat: framework open source, independente de fornecedor, para IA de voz e multimodal
  • Objetivos do projeto
    • Objetivos de alto nível
      • Fácil de usar para qualquer pessoa
      • Fácil de implantar em produção
      • Fácil de fazer fine-tuning para aplicações específicas
    • Limitações atuais do modelo
      • Suporta apenas inglês
      • Velocidade de inferência relativamente lenta: cerca de 150ms em GPU e cerca de 1500ms em CPU
      • Os dados de treino se concentram principalmente em falas incompletas (filler words) que ocorrem no fim de segmentos
    • Objetivos de médio prazo
      • Suporte a vários idiomas
      • Tempo de inferência: abaixo de 50ms em GPU e abaixo de 500ms em CPU
      • Refletir dados de treino com nuances de fala mais amplas
      • Construir um pipeline completo de geração de dados sintéticos
      • Suporte a condicionamento baseado em texto (ex.: inserção de cartão de crédito, número de telefone, endereço etc.)
  • Arquitetura do modelo
    • Baseado no backbone Wav2Vec2-BERT da Meta AI (número de parâmetros: 580M)
      • Usa dados de áudio para aprendizado não supervisionado de 4,5 milhões de horas em 143 idiomas
    • Estrutura atual do modelo:
      • Wav2Vec2-BERT → classificador de 2 camadas (classification head)
      • Uso de Hugging Face Wav2Vec2BertForSequenceClassification
    • Arquitetura em experimentação:
      • Testando se um classificador simples continuará eficaz mesmo com a expansão do conjunto de dados
      • Avaliando a possibilidade de introduzir uma estrutura mais complexa

1 comentários

 
GN⁺ 2025-03-10
Comentários do Hacker News
  • Já usei pipecat e gostei. Mas migrei para sherpa-onnx, que pode ser compilado nativamente e executado em dispositivos de borda

    • Ao usar o app Google Tradutor, muitas vezes eu falo frases longas, faço uma pausa no meio ou diminuo a velocidade, então evito o modo de conversa
    • Esse problema exige detecção de turno de baixa latência, detecção de interrupção de fala e um LLM de latência realmente muito baixa
    • É preciso uma boa capacidade de recuperação para que o sistema consiga continuar a última frase sem descartar o áudio anterior
    • Para melhorar a latência de i/o, é necessário usar uma API de áudio de baixa latência, buffers de áudio bem curtos e categorias e modos de áudio dedicados
    • Não tenho certeza se dá para usar TTS em modo de streaming
    • Um push-to-talk bem projetado pode ser uma boa solução
  • Houve algumas atualizações interessantes hoje

    • Inferência em 100 ms usando CoreML
    • Um modelo LSTM treinado em um subconjunto dos dados
  • Encontrei a maioria das respostas no README. Está bem escrito

  • Gostaria de saber se podem compartilhar a quantidade de recursos e o volume necessários para fazer fine-tuning do Wav2Vec2-BERT

  • Fiquei curioso sobre o que é detecção de turno

  • Fico feliz em ver essa tecnologia avançando mais

    • Dos piores sistemas de voz, como a Siri, até o modo de voz do ChatGPT, os computadores não fazem isso bem
    • Esse pode ser o maior obstáculo para que "agentes" executem tarefas simples, mas úteis
    • Ainda há muitas situações em que a IA tem dificuldade, e esses erros podem destruir a eficiência de uma conversa ou causar falhas funcionais graves
  • Como alguém com diagnóstico de autismo de alto funcionamento, eu gostaria de aplicar essa tecnologia em um earpiece

  • Depois de analisar alguns modelos baseados em turno, a implementação parece muito consistente. Estou curioso para ver como essa tecnologia vai evoluir

  • Espero que o Vedal integre essa tecnologia ao modelo do Neuro-sama. Um caso de transformação de bot de osu em AI Vtuber

  • Gostaria de saber se suporta vários falantes

  • Fazendo fork agora