13 pontos por xguru 2024-11-28 | 1 comentários | Compartilhar no WhatsApp
  • Voice AI não é apenas um upgrade de UI, mas uma inovação na forma como empresas e clientes se conectam
    • Como no atendimento ao cliente de companhias aéreas: longos tempos de espera, seleção repetitiva de menus e falta de compreensão da situação do cliente. O problema não é resolvido, enquanto se geram estresse desnecessário e perda de tempo
    • Com Voice AI, diferentemente dos sistemas IVR rígidos (resposta automática por voz) existentes, é possível oferecer uma experiência que conversa como um humano e personaliza a experiência do cliente, disponível 24 horas por dia
      • Entende imediatamente a situação do cliente e sugere a melhor alternativa
      • Ex.: remarca automaticamente um voo cancelado e recomenda alternativas com base nas preferências do cliente
      • Em algumas situações, os clientes podem até preferir agentes de IA a humanos
    • Voice AI atende à alta demanda e às expectativas dos clientes, ao mesmo tempo em que aumenta a eficiência operacional
  • Voice AI é a convergência entre modelos de IA nativos de voz e tecnologias multimodais

O enorme mercado da comunicação por voz

  • As pessoas preferem falar:
    • Bilhões de chamadas são feitas todos os dias
    • Mesmo com texto, e-mail e redes sociais já amplamente difundidos, o telefone continua sendo um meio principal de comunicação em muitos negócios
    • Em setores como saúde, serviços jurídicos, serviços residenciais, seguros e logística, ele é essencial para transmitir informações complexas, oferecer serviços personalizados e resolver situações urgentes
  • Problemas da comunicação telefônica tradicional
    • Falta de capacidade de atendimento:
      • 62% das SMBs (pequenas e médias empresas) perdem chamadas, deixando de atender demandas dos clientes e perdendo oportunidades de negócio
      • Problemas comuns:
        • Fora do horário comercial, as ligações vão para a caixa postal
        • Só é possível atender uma chamada por vez
        • A qualidade do suporte é inconsistente
    • Limitações tecnológicas:
      • Sistemas IVR (introduzidos nos anos 1970):
        • Só processam comandos predefinidos, com baixa flexibilidade: "Pressione 1 para fazer uma reserva" "Diga em poucas palavras o que você precisa"
        • Não entendem a intenção nem a urgência do cliente
      • Piora da experiência do cliente:
        • Longo tempo de espera
        • Navegação ineficiente por menus
        • Falha na resolução do problema
  • Apesar da alta demanda:
    • A tecnologia existente tem limites para resolver os problemas do cliente de forma eficiente e agradável
    • Há necessidade de uma tecnologia de automação por voz mais avançada

[Por que agora é o momento certo para desenvolver tecnologia de Voice]

Evolução da tecnologia de voz

  1. Primeiros sistemas IVR:
  • Tecnologia IVR (Interactive Voice Response) introduzida nos anos 1970:
    • Só conseguia processar comandos previamente configurados
    • Não entendia a intenção nem a urgência do usuário
  • Mesmo sendo uma tecnologia malvista, ainda é um mercado de US$ 5 bilhões
  1. Chegada das tecnologias ASR/STT:
  • Modelos de reconhecimento automático de fala (ASR) e fala para texto (STT):
    • Tecnologia que converte voz em texto em tempo real
    • Surgimento de startups como Gong, Rev, DeepL
    • Lançamento do modelo Whisper da OpenAI (2022) e do Reverb da Rev (2024):
      • Suporte a sistemas de conversação naturais que lidam com sotaques, ruído de fundo e emoções
  1. Inovações recentes: avanço da IA de voz:
  • Desenvolvimento de modelos Text-To-Speech (TTS) que geram vozes ricas em emoção:
  • Capacidades multimodais:
    • Google Gemini 1.5: integração de entrada por voz, texto e imagem
    • Voice Engine da OpenAI: geração de voz que imita conversas humanas
  • Lançamento do GPT-4o:
    • Integração nativa em tempo real de áudio, visão e texto
    • Capacidade de lidar com conversas complexas e responder de forma inteligente

Dois grandes avanços impulsionados pelas inovações recentes

  • Difusão de modelos de alta qualidade e desenvolvimento de aplicações:
    • Limitações da arquitetura tradicional em "cascata":
      • No processo STT → LLM → TTS, há latência e perda de informações não textuais
      • A alta latência de resposta gera uma experiência negativa para o usuário
    • Novos modelos:
      • GPT-4 Turbo: redução de latência
      • É possível escolher o modelo de acordo com o caso de uso
  • Ascensão dos modelos Speech-to-Speech (STS):
    • Processam voz diretamente, sem convertê-la em texto:
      • Latência ultrabaixa: cerca de 300 ms de resposta, permitindo conversas naturais
      • Compreensão de contexto: mantém informações de conversas anteriores e entende intenção e emoção
      • Melhora no reconhecimento emocional e de tom: fornece respostas que refletem emoções
      • Detecção de atividade de voz em tempo real: permite que o usuário converse sem interrupções desnecessárias

Modelos nativos de voz: o futuro da fala conversacional

  • Superando as limitações da arquitetura em cascata:
    • Modelos STS dedicados à voz:
      • Kyutai Moshi: modelo open source
      • Alibaba SenseVoice & CosyVoice: modelos especializados em voz
      • Hume Empathetic Voice Interface: processamento de respostas emocionais
  • Realtime API da OpenAI:
    • Suporta interações Speech-to-Speech com base no GPT-4o

Principais desafios para adoção na indústria

Três fatores principais que dificultam a adoção de agentes de voz

  • Qualidade (Quality):
    • Muitos agentes de Voice AI ainda não são estáveis o suficiente para serem confiáveis em vários casos de uso.
    • As empresas normalmente fazem pilotos com agentes de voz em ambientes de baixo risco:
      • Ex.: uma pequena empresa de reparo de telhados usa agentes para atender chamadas fora do horário comercial
      • Ao expandir para casos de uso de maior valor, o padrão de qualidade se torna muito mais rigoroso
      • Ex.: quando uma única ligação pode resultar em um projeto de US$ 30 mil, a tolerância a falhas na chamada é baixa
  • Confiança (Trust):
    • Os clientes já tiveram muitas experiências negativas com a tecnologia IVR existente:
      • Respostas lentas, estrutura de menu ineficiente e falta de conversação natural
    • As empresas precisam garantir confiança de que a IA conseguirá lidar com as necessidades dos clientes com precisão e rapidez
  • Confiabilidade (Reliability):
    • Principais reclamações:
      • Queda de chamada: interrupções que frustram o cliente
      • Alucinação (Hallucination): a IA fornece respostas imprecisas ou sem sentido
      • Latência de resposta: o tempo de processamento aumenta e provoca abandono do cliente

Caminhos de evolução para resolver os problemas

  • Otimização de latência e confiabilidade:
    • Crescimento de plataformas para desenvolvedores que oferecem uma infraestrutura mais confiável, com foco em reduzir latência e evitar interrupções na conversa
  • Recuperação elegante de falhas (Fail Gracefully):
    • Em caso de falha na chamada, recuperar o fluxo da conversa de forma natural para minimizar interrupções na experiência do cliente
  • Orquestração de conversas:
    • Projetar agentes de IA para seguir fluxos previsíveis: minimizar alucinações e definir guardrails sobre as informações e o escopo da conversa que podem ser oferecidos ao cliente

Mapa do mercado de Voice AI

  • O mercado de Voice AI vem inovando em várias camadas, desde modelos de base até infraestrutura de voz, plataformas para desenvolvedores e aplicações
  • Em especial, há oportunidades notáveis nas três áreas-chave abaixo

1. Modelos (Models)

  • Função: constroem tecnologias que dão suporte a casos de uso baseados em voz e se especializam em tecnologias específicas como SST (Speech-to-Speech), LLS (Large Language Models) e TTS (Text-to-Speech)
  • Direção futura:
    • Modelos multimodais e nativos de voz vão liderar
    • A capacidade de processar áudio diretamente, sem conversão entre texto e áudio, será essencial
  • Próxima geração de modelos:
    • Empresas como Cartesia estão abrindo caminho para novas arquiteturas com State Space Models (SSMs)
    • Espera-se redução de latência e custo ao separar processamento de conversas simples em modelos menores e tarefas complexas em modelos mais robustos

2. Plataformas para desenvolvedores (Developer Platforms)

  • Construir agentes de Voice AI e gerenciar infraestrutura de voz em tempo real ainda é um grande desafio técnico para desenvolvedores. Novas plataformas resolvem essa complexidade e oferecem vários tipos de suporte
  • Otimização de latência e confiabilidade:
    • Gerenciar agentes de voz em tempo real de alto desempenho de forma escalável.
  • Gerenciamento de sinais conversacionais e contexto não verbal:
    • Detecção de "endpointing" para identificar se o usuário terminou de falar.
    • Filtragem de ruído de fundo e melhoria na detecção de emoção e sentimento.
  • Tratamento eficiente de erros:
    • Detectar chamadas de API com falha e tentar novamente imediatamente.
    • Inserir respostas alternativas para evitar interrupção da conversa.
  • Integração com sistemas de terceiros e suporte a RAG:
    • Necessidade de integração de baixa latência com bases de conhecimento e sistemas de terceiros.
  • Controle do fluxo de conversa:
    • Suporte ao tratamento de conversas sensíveis ou reguladas por meio do desenho de fluxos previsíveis.
  • Observabilidade, análise e testes:
    • Resolver a falta de ferramentas para acompanhar, em escala, a qualidade e o desempenho das conversas.
  • Exemplo de plataforma Vapi: ajuda a reduzir a complexidade da infraestrutura de voz e permite criar rapidamente agentes de voz de alta qualidade

3. Aplicações (Applications)

  • Produtos de automação baseados em voz estão sendo desenvolvidos em várias áreas.
  • Características das aplicações mais promissoras:
    • Executam completamente a tarefa do cliente e entregam resultados valiosos.
    • Escalabilidade para lidar com milhares de chamadas simultâneas em momentos de pico de demanda.
    • Oferecem soluções personalizadas e especializadas para setores específicos.
  • Principais oportunidades por função
    • Transcrição (Transcription): criação de notas de conversa e recomendação de tarefas de acompanhamento
    • Chamadas de entrada (Inbound Calling): gestão de reservas, conversão de leads e customer success
    • Chamadas de saída (Outbound Calling): triagem de candidatos e confirmação de compromissos
    • Treinamento (Training): treinamento de vendas ou entrevistas.
    • Negociação (Negotiation): negociação de compras, disputas de seguros e ajuste de contratos
  • Casos de investimento
    • Abridge: documentação de conversas médicas
    • Rilla: coaching para vendas em campo
    • Rev: transcrição colaborativa entre IA e humanos em diversos setores

Casos de uso concretos

  • Solução especializada por setor Sameday AI: agente de vendas com IA para o setor de serviços residenciais. Automatiza desde o atendimento da ligação do cliente → proposta de orçamento conforme o problema → agendamento → conclusão do pagamento.
  • Chamadas de saída Wayfaster: automação do processo de recrutamento. Realiza automaticamente chamadas de triagem de candidatos para focar nos melhores perfis.
  • Saúde negociação com seguradoras: uso de LLM para analisar milhares de documentos de seguros e prontuários de pacientes, dando suporte a negociações em tempo real.

Princípios de investimento em tecnologia de Voice AI

  • O ecossistema de Voice AI oferece as maiores oportunidades de criação de startups nas camadas de plataformas para desenvolvedores e aplicações
  • Com a rápida evolução dos modelos, criou-se um ambiente em que empreendedores conseguem desenvolver e testar rapidamente MVPs (produtos mínimos viáveis) eficazes com pouco investimento inicial
  • 1. Soluções profundamente integradas a fluxos de trabalho setoriais e multimodalidade
    • As aplicações de Voice AI de maior impacto são profundamente integradas aos fluxos de trabalho de um setor específico
    • Ajustadas à linguagem e à forma de conversa próprias de cada setor
    • Ex.:
      • Um agente de voz para concessionárias de automóveis integrado ao CRM usa dados de interações passadas com clientes, melhora a qualidade do serviço e acelera a implantação
      • Combina voz, texto, imagem e outras modalidades para resolver processos humanos mais complexos e em múltiplas etapas
  • 2. Entrega de produtos de alta qualidade com engenharia robusta
    • Fazer uma demo para hackathon é relativamente simples, mas um produto real exige alta confiabilidade, escalabilidade e capacidade de lidar com casos reais de uso
    • Exigências das empresas: desempenho consistente. Garantia de baixa latência. Integração fluida com sistemas existentes
    • Elementos centrais de projeto: lidar com entradas de voz imprevisíveis. Reforçar segurança. Manter alto uptime
  • 3. Equilíbrio entre crescimento, retenção e KPIs de qualidade do produto
    • Agentes de voz têm forte potencial de crescimento em funções ligadas à receita, como vendas.
    • Quando clientes transferem fluxos de trabalho centrais de pessoas para agentes, queda de qualidade pode levar a alto churn.

KPIs e métricas de qualidade importantes

  • Churn (taxa de cancelamento):
    • Em estágio inicial, muitos aplicativos de voz enfrentam dificuldades por causa de alta taxa de cancelamento.
    • Isso ocorre quando clientes migram para concorrentes por falta de confiança no serviço.
  • Self-Serve Resolution (taxa de resolução em autoatendimento):
    • Indica quão efetivamente o agente de voz resolve o problema do usuário sem intervenção humana.
  • Customer Satisfaction Score (pontuação de satisfação do cliente):
    • Mede a satisfação geral dos clientes que interagiram com o agente de voz, oferecendo insights sobre qualidade.
  • Call Termination Rates (taxa de encerramento de chamadas):
    • Taxas altas indicam problemas na experiência do usuário e questões não resolvidas.
  • Cohort Call Volume Expansion (expansão do volume de chamadas por coorte):
    • Mede se, ao longo do tempo, os clientes aumentam o uso do agente de voz, servindo como indicador de valor do produto e engajamento do usuário.

O futuro da Voice AI

  • Os avanços tecnológicos dos últimos anos abriram a possibilidade de criar produtos inovadores que resolvem problemas complexos
  • Espera-se que, no futuro, sistemas multimodais e de conversação em tempo real resolvam ainda mais problemas em diversos setores

1 comentários

 
xguru 2024-11-28

Como já trabalhei com IVR no passado, acho que por isso tenho bastante interesse nessa área haha

Veja também o texto Tudo sobre agentes de voz com IA, organizado pela a16z