Roteiro de Voice AI: o futuro da IA conversacional

xguru · 2024-11-28T11:10:01+09:00

Voice AI não é apenas um upgrade de UI, mas uma inovação na forma como empresas e clientes se conectam Como no atendimento ao cliente de companhias aéreas: longos tempos de espera, seleção repetitiva de menus e falta de compreensão da situação do cliente. O problema não é resolvido, enquanto se geram estresse desnecessário e perda de tempo Com Voice AI, diferentemente dos sistemas IVR rígidos (resposta automática por voz) existentes, é possível oferecer uma experiência que conversa como um humano e personaliza a experiência do cliente, disponível 24 horas por dia Entende imediatamente a situação do cliente e sugere a melhor alternativa Ex.: remarca automaticamente um voo cancelado e recomenda alternativas com base nas preferências do cliente Em algumas situações, os clientes podem até preferir agentes de IA a humanos Voice AI atende à alta demanda e às expectativas dos clientes, ao mesmo tempo em que aumenta a eficiência operacional Voice AI é a convergência entre modelos de IA nativos de voz e tecnologias multimodais Oferece inovação fundamental em setores onde a comunicação humana é importante Atende às expectativas dos clientes, expande as operações com eficiência e estabelece a base para a próxima era da comunicação empresarial Ouça os principais insights deste texto em um podcast gerado pelo NotebookLM O enorme mercado da comunicação por voz As pessoas preferem falar: Bilhões de chamadas são feitas todos os dias Mesmo com texto, e-mail e redes sociais já amplamente difundidos, o telefone continua sendo um meio principal de comunicação em muitos negócios Em setores como saúde, serviços jurídicos, serviços residenciais, seguros e logística, ele é essencial para transmitir informações complexas, oferecer serviços personalizados e resolver situações urgentes Problemas da comunicação telefônica tradicional Falta de capacidade de atendimento: 62% das SMBs (pequenas e médias empresas) perdem chamadas, deixando de atender demandas dos clientes e perdendo oportunidades de negócio Problemas comuns: Fora do horário comercial, as ligações vão para a caixa postal Só é possível atender uma chamada por vez A qualidade do suporte é inconsistente Limitações tecnológicas: Sistemas IVR (introduzidos nos anos 1970): Só processam comandos predefinidos, com baixa flexibilidade: "Pressione 1 para fazer uma reserva" "Diga em poucas palavras o que você precisa" Não entendem a intenção nem a urgência do cliente Piora da experiência do cliente: Longo tempo de espera Navegação ineficiente por menus Falha na resolução do problema Apesar da alta demanda: A tecnologia existente tem limites para resolver os problemas do cliente de forma eficiente e agradável Há necessidade de uma tecnologia de automação por voz mais avançada [Por que agora é o momento certo para desenvolver tecnologia de Voice] Evolução da tecnologia de voz Primeiros sistemas IVR: Tecnologia IVR (Interactive Voice Response) introduzida nos anos 1970: Só conseguia processar comandos previamente configurados Não entendia a intenção nem a urgência do usuário Mesmo sendo uma tecnologia malvista, ainda é um mercado de US$ 5 bilhões Chegada das tecnologias ASR/STT: Modelos de reconhecimento automático de fala (ASR) e fala para texto (STT): Tecnologia que converte voz em texto em tempo real Surgimento de startups como Gong, Rev, DeepL Lançamento do modelo Whisper da OpenAI (2022) e do Reverb da Rev (2024): Suporte a sistemas de conversação naturais que lidam com sotaques, ruído de fundo e emoções Inovações recentes: avanço da IA de voz: Desenvolvimento de modelos Text-To-Speech (TTS) que geram vozes ricas em emoção: Empresas líderes como Eleven Labs Capacidades multimodais: Google Gemini 1.5: integração de entrada por voz, texto e imagem Voice Engine da OpenAI: geração de voz que imita conversas humanas Lançamento do GPT-4o: Integração nativa em tempo real de áudio, visão e texto Capacidade de lidar com conversas complexas e responder de forma inteligente Dois grandes avanços impulsionados pelas inovações recentes Difusão de modelos de alta qualidade e desenvolvimento de aplicações: Limitações da arquitetura tradicional em "cascata": No processo STT → LLM → TTS, há latência e perda de informações não textuais A alta latência de resposta gera uma experiência negativa para o usuário Novos modelos: GPT-4 Turbo: redução de latência É possível escolher o modelo de acordo com o caso de uso Ascensão dos modelos Speech-to-Speech (STS): Processam voz diretamente, sem convertê-la em texto: Latência ultrabaixa: cerca de 300 ms de resposta, permitindo conversas naturais Compreensão de contexto: mantém informações de conversas anteriores e entende intenção e emoção Melhora no reconhecimento emocional e de tom: fornece respostas que refletem emoções Detecção de atividade de voz em tempo real: permite que o usuário converse sem interrupções desnecessárias Modelos nativos de voz: o futuro da fala conversacional Superando as limitações da arquitetura em cascata: Modelos STS dedicados à voz: Kyutai Moshi: modelo open source Alibaba SenseVoice & CosyVoice: modelos especializados em voz Hume Empathetic Voice Interface: processamento de respostas emocionais Realtime API da OpenAI: Suporta interações Speech-to-Speech com base no GPT-4o Principais desafios para adoção na indústria Três fatores principais que dificultam a adoção de agentes de voz Qualidade (Quality): Muitos agentes de Voice AI ainda não são estáveis o suficiente para serem confiáveis em vários casos de uso. As empresas normalmente fazem pilotos com agentes de voz em ambientes de baixo risco: Ex.: uma pequena empresa de reparo de telhados usa agentes para atender chamadas fora do horário comercial Ao expandir para casos de uso de maior valor, o padrão de qualidade se torna muito mais rigoroso Ex.: quando uma única ligação pode resultar em um projeto de US$ 30 mil, a tolerância a falhas na chamada é baixa Confiança (Trust): Os clientes já tiveram muitas experiências negativas com a tecnologia IVR existente: Respostas lentas, estrutura de menu ineficiente e falta de conversação natural As empresas precisam garantir confiança de que a IA conseguirá lidar com as necessidades dos clientes com precisão e rapidez Confiabilidade (Reliability): Principais reclamações: Queda de chamada: interrupções que frustram o cliente Alucinação (Hallucination): a IA fornece respostas imprecisas ou sem sentido Latência de resposta: o tempo de processamento aumenta e provoca abandono do cliente Caminhos de evolução para resolver os problemas Otimização de latência e confiabilidade: Crescimento de plataformas para desenvolvedores que oferecem uma infraestrutura mais confiável, com foco em reduzir latência e evitar interrupções na conversa Recuperação elegante de falhas (Fail Gracefully): Em caso de falha na chamada, recuperar o fluxo da conversa de forma natural para minimizar interrupções na experiência do cliente Orquestração de conversas: Projetar agentes de IA para seguir fluxos previsíveis: minimizar alucinações e definir guardrails sobre as informações e o escopo da conversa que podem ser oferecidos ao cliente Mapa do mercado de Voice AI O mercado de Voice AI vem inovando em várias camadas, desde modelos de base até infraestrutura de voz, plataformas para desenvolvedores e aplicações Em especial, há oportunidades notáveis nas três áreas-chave abaixo 1. Modelos (Models) Função: constroem tecnologias que dão suporte a casos de uso baseados em voz e se especializam em tecnologias específicas como SST (Speech-to-Speech), LLS (Large Language Models) e TTS (Text-to-Speech) Direção futura: Modelos multimodais e nativos de voz vão liderar A capacidade de processar áudio diretamente, sem conversão entre texto e áudio, será essencial Próxima geração de modelos: Empresas como Cartesia estão abrindo caminho para novas arquiteturas com State Space Models (SSMs) Espera-se redução de latência e custo ao separar processamento de conversas simples em modelos menores e tarefas complexas em modelos mais robustos 2. Plataformas para desenvolvedores (Developer Platforms) Construir agentes de Voice AI e gerenciar infraestrutura de voz em tempo real ainda é um grande desafio técnico para desenvolvedores. Novas plataformas resolvem essa complexidade e oferecem vários tipos de suporte Otimização de latência e confiabilidade: Gerenciar agentes de voz em tempo real de alto desempenho de forma escalável. Gerenciamento de sinais conversacionais e contexto não verbal: Detecção de "endpointing" para identificar se o usuário terminou de falar. Filtragem de ruído de fundo e melhoria na detecção de emoção e sentimento. Tratamento eficiente de erros: Detectar chamadas de API com falha e tentar novamente imediatamente. Inserir respostas alternativas para evitar interrupção da conversa. Integração com sistemas de terceiros e suporte a RAG: Necessidade de integração de baixa latência com bases de conhecimento e sistemas de terceiros. Controle do fluxo de conversa: Suporte ao tratamento de conversas sensíveis ou reguladas por meio do desenho de fluxos previsíveis. Observabilidade, análise e testes: Resolver a falta de ferramentas para acompanhar, em escala, a qualidade e o desempenho das conversas. Exemplo de plataforma Vapi: ajuda a reduzir a complexidade da infraestrutura de voz e permite criar rapidamente agentes de voz de alta qualidade 3. Aplicações (Applications) Produtos de automação baseados em voz estão sendo desenvolvidos em várias áreas. Características das aplicações mais promissoras: Executam completamente a tarefa do cliente e entregam resultados valiosos. Escalabilidade para lidar com milhares de chamadas simultâneas em momentos de pico de demanda. Oferecem soluções personalizadas e especializadas para setores específicos. Principais oportunidades por função Transcrição (Transcription): criação de notas de conversa e recomendação de tarefas de acompanhamento Chamadas de entrada (Inbound Calling): gestão de reservas, conversão de leads e customer success Chamadas de saída (Outbound Calling): triagem de candidatos e confirmação de compromissos Treinamento (Training): treinamento de vendas ou entrevistas. Negociação (Negotiation): negociação de compras, disputas de seguros e ajuste de contratos Casos de investimento Abridge: documentação de conversas médicas Rilla: coaching para vendas em campo Rev: transcrição colaborativa entre IA e humanos em diversos setores Casos de uso concretos Solução especializada por setor Sameday AI: agente de vendas com IA para o setor de serviços residenciais. Automatiza desde o atendimento da ligação do cliente → proposta de orçamento conforme o problema → agendamento → conclusão do pagamento. Chamadas de saída Wayfaster: automação do processo de recrutamento. Realiza automaticamente chamadas de triagem de candidatos para focar nos melhores perfis. Saúde negociação com seguradoras: uso de LLM para analisar milhares de documentos de seguros e prontuários de pacientes, dando suporte a negociações em tempo real. Princípios de investimento em tecnologia de Voice AI O ecossistema de Voice AI oferece as maiores oportunidades de criação de startups nas camadas de plataformas para desenvolvedores e aplicações Com a rápida evolução dos modelos, criou-se um ambiente em que empreendedores conseguem desenvolver e testar rapidamente MVPs (produtos mínimos viáveis) eficazes com pouco investimento inicial 1. Soluções profundamente integradas a fluxos de trabalho setoriais e multimodalidade As aplicações de Voice AI de maior impacto são profundamente integradas aos fluxos de trabalho de um setor específico Ajustadas à linguagem e à forma de conversa próprias de cada setor Ex.: Um agente de voz para concessionárias de automóveis integrado ao CRM usa dados de interações passadas com clientes, melhora a qualidade do serviço e acelera a implantação Combina voz, texto, imagem e outras modalidades para resolver processos humanos mais complexos e em múltiplas etapas 2. Entrega de produtos de alta qualidade com engenharia robusta Fazer uma demo para hackathon é relativamente simples, mas um produto real exige alta confiabilidade, escalabilidade e capacidade de lidar com casos reais de uso Exigências das empresas: desempenho consistente. Garantia de baixa latência. Integração fluida com sistemas existentes Elementos centrais de projeto: lidar com entradas de voz imprevisíveis. Reforçar segurança. Manter alto uptime 3. Equilíbrio entre crescimento, retenção e KPIs de qualidade do produto Agentes de voz têm forte potencial de crescimento em funções ligadas à receita, como vendas. Quando clientes transferem fluxos de trabalho centrais de pessoas para agentes, queda de qualidade pode levar a alto churn. KPIs e métricas de qualidade importantes Churn (taxa de cancelamento): Em estágio inicial, muitos aplicativos de voz enfrentam dificuldades por causa de alta taxa de cancelamento. Isso ocorre quando clientes migram para concorrentes por falta de confiança no serviço. Self-Serve Resolution (taxa de resolução em autoatendimento): Indica quão efetivamente o agente de voz resolve o problema do usuário sem intervenção humana. Customer Satisfaction Score (pontuação de satisfação do cliente): Mede a satisfação geral dos clientes que interagiram com o agente de voz, oferecendo insights sobre qualidade. Call Termination Rates (taxa de encerramento de chamadas): Taxas altas indicam problemas na experiência do usuário e questões não resolvidas. Cohort Call Volume Expansion (expansão do volume de chamadas por coorte): Mede se, ao longo do tempo, os clientes aumentam o uso do agente de voz, servindo como indicador de valor do produto e engajamento do usuário. O futuro da Voice AI Os avanços tecnológicos dos últimos anos abriram a possibilidade de criar produtos inovadores que resolvem problemas complexos Espera-se que, no futuro, sistemas multimodais e de conversação em tempo real resolvam ainda mais problemas em diversos setores

(bvp.com)

13 pontos por xguru 2024-11-28 | 1 comentários | Compartilhar no WhatsApp

Voice AI não é apenas um upgrade de UI, mas uma inovação na forma como empresas e clientes se conectam
- Como no atendimento ao cliente de companhias aéreas: longos tempos de espera, seleção repetitiva de menus e falta de compreensão da situação do cliente. O problema não é resolvido, enquanto se geram estresse desnecessário e perda de tempo
- Com Voice AI, diferentemente dos sistemas IVR rígidos (resposta automática por voz) existentes, é possível oferecer uma experiência que conversa como um humano e personaliza a experiência do cliente, disponível 24 horas por dia
  - Entende imediatamente a situação do cliente e sugere a melhor alternativa
  - Ex.: remarca automaticamente um voo cancelado e recomenda alternativas com base nas preferências do cliente
  - Em algumas situações, os clientes podem até preferir agentes de IA a humanos
- Voice AI atende à alta demanda e às expectativas dos clientes, ao mesmo tempo em que aumenta a eficiência operacional
Voice AI é a convergência entre modelos de IA nativos de voz e tecnologias multimodais
- Oferece inovação fundamental em setores onde a comunicação humana é importante
- Atende às expectativas dos clientes, expande as operações com eficiência e estabelece a base para a próxima era da comunicação empresarial
- Ouça os principais insights deste texto em um podcast gerado pelo NotebookLM

O enorme mercado da comunicação por voz

As pessoas preferem falar:
- Bilhões de chamadas são feitas todos os dias
- Mesmo com texto, e-mail e redes sociais já amplamente difundidos, o telefone continua sendo um meio principal de comunicação em muitos negócios
- Em setores como saúde, serviços jurídicos, serviços residenciais, seguros e logística, ele é essencial para transmitir informações complexas, oferecer serviços personalizados e resolver situações urgentes
Problemas da comunicação telefônica tradicional
- Falta de capacidade de atendimento:
  - 62% das SMBs (pequenas e médias empresas) perdem chamadas, deixando de atender demandas dos clientes e perdendo oportunidades de negócio
  - Problemas comuns:
    - Fora do horário comercial, as ligações vão para a caixa postal
    - Só é possível atender uma chamada por vez
    - A qualidade do suporte é inconsistente
- Limitações tecnológicas:
  - Sistemas IVR (introduzidos nos anos 1970):
    - Só processam comandos predefinidos, com baixa flexibilidade: "Pressione 1 para fazer uma reserva" "Diga em poucas palavras o que você precisa"
    - Não entendem a intenção nem a urgência do cliente
  - Piora da experiência do cliente:
    - Longo tempo de espera
    - Navegação ineficiente por menus
    - Falha na resolução do problema
Apesar da alta demanda:
- A tecnologia existente tem limites para resolver os problemas do cliente de forma eficiente e agradável
- Há necessidade de uma tecnologia de automação por voz mais avançada

[Por que agora é o momento certo para desenvolver tecnologia de Voice]

Evolução da tecnologia de voz

Primeiros sistemas IVR:

Tecnologia IVR (Interactive Voice Response) introduzida nos anos 1970:
- Só conseguia processar comandos previamente configurados
- Não entendia a intenção nem a urgência do usuário
Mesmo sendo uma tecnologia malvista, ainda é um mercado de US$ 5 bilhões

Chegada das tecnologias ASR/STT:

Modelos de reconhecimento automático de fala (ASR) e fala para texto (STT):
- Tecnologia que converte voz em texto em tempo real
- Surgimento de startups como Gong, Rev, DeepL
- Lançamento do modelo Whisper da OpenAI (2022) e do Reverb da Rev (2024):
  - Suporte a sistemas de conversação naturais que lidam com sotaques, ruído de fundo e emoções

Inovações recentes: avanço da IA de voz:

Desenvolvimento de modelos Text-To-Speech (TTS) que geram vozes ricas em emoção:
- Empresas líderes como Eleven Labs
Capacidades multimodais:
- Google Gemini 1.5: integração de entrada por voz, texto e imagem
- Voice Engine da OpenAI: geração de voz que imita conversas humanas
Lançamento do GPT-4o:
- Integração nativa em tempo real de áudio, visão e texto
- Capacidade de lidar com conversas complexas e responder de forma inteligente

Dois grandes avanços impulsionados pelas inovações recentes

Difusão de modelos de alta qualidade e desenvolvimento de aplicações:
- Limitações da arquitetura tradicional em "cascata":
  - No processo STT → LLM → TTS, há latência e perda de informações não textuais
  - A alta latência de resposta gera uma experiência negativa para o usuário
- Novos modelos:
  - GPT-4 Turbo: redução de latência
  - É possível escolher o modelo de acordo com o caso de uso
Ascensão dos modelos Speech-to-Speech (STS):
- Processam voz diretamente, sem convertê-la em texto:
  - Latência ultrabaixa: cerca de 300 ms de resposta, permitindo conversas naturais
  - Compreensão de contexto: mantém informações de conversas anteriores e entende intenção e emoção
  - Melhora no reconhecimento emocional e de tom: fornece respostas que refletem emoções
  - Detecção de atividade de voz em tempo real: permite que o usuário converse sem interrupções desnecessárias

Modelos nativos de voz: o futuro da fala conversacional

Superando as limitações da arquitetura em cascata:
- Modelos STS dedicados à voz:
  - Kyutai Moshi: modelo open source
  - Alibaba SenseVoice & CosyVoice: modelos especializados em voz
  - Hume Empathetic Voice Interface: processamento de respostas emocionais
Realtime API da OpenAI:
- Suporta interações Speech-to-Speech com base no GPT-4o

Principais desafios para adoção na indústria

Três fatores principais que dificultam a adoção de agentes de voz

Qualidade (Quality):
- Muitos agentes de Voice AI ainda não são estáveis o suficiente para serem confiáveis em vários casos de uso.
- As empresas normalmente fazem pilotos com agentes de voz em ambientes de baixo risco:
  - Ex.: uma pequena empresa de reparo de telhados usa agentes para atender chamadas fora do horário comercial
  - Ao expandir para casos de uso de maior valor, o padrão de qualidade se torna muito mais rigoroso
  - Ex.: quando uma única ligação pode resultar em um projeto de US$ 30 mil, a tolerância a falhas na chamada é baixa
Confiança (Trust):
- Os clientes já tiveram muitas experiências negativas com a tecnologia IVR existente:
  - Respostas lentas, estrutura de menu ineficiente e falta de conversação natural
- As empresas precisam garantir confiança de que a IA conseguirá lidar com as necessidades dos clientes com precisão e rapidez
Confiabilidade (Reliability):
- Principais reclamações:
  - Queda de chamada: interrupções que frustram o cliente
  - Alucinação (Hallucination): a IA fornece respostas imprecisas ou sem sentido
  - Latência de resposta: o tempo de processamento aumenta e provoca abandono do cliente

Caminhos de evolução para resolver os problemas

Otimização de latência e confiabilidade:
- Crescimento de plataformas para desenvolvedores que oferecem uma infraestrutura mais confiável, com foco em reduzir latência e evitar interrupções na conversa
Recuperação elegante de falhas (Fail Gracefully):
- Em caso de falha na chamada, recuperar o fluxo da conversa de forma natural para minimizar interrupções na experiência do cliente
Orquestração de conversas:
- Projetar agentes de IA para seguir fluxos previsíveis: minimizar alucinações e definir guardrails sobre as informações e o escopo da conversa que podem ser oferecidos ao cliente

Mapa do mercado de Voice AI

O mercado de Voice AI vem inovando em várias camadas, desde modelos de base até infraestrutura de voz, plataformas para desenvolvedores e aplicações
Em especial, há oportunidades notáveis nas três áreas-chave abaixo

1. Modelos (Models)

Função: constroem tecnologias que dão suporte a casos de uso baseados em voz e se especializam em tecnologias específicas como SST (Speech-to-Speech), LLS (Large Language Models) e TTS (Text-to-Speech)
Direção futura:
- Modelos multimodais e nativos de voz vão liderar
- A capacidade de processar áudio diretamente, sem conversão entre texto e áudio, será essencial
Próxima geração de modelos:
- Empresas como Cartesia estão abrindo caminho para novas arquiteturas com State Space Models (SSMs)
- Espera-se redução de latência e custo ao separar processamento de conversas simples em modelos menores e tarefas complexas em modelos mais robustos

2. Plataformas para desenvolvedores (Developer Platforms)

Construir agentes de Voice AI e gerenciar infraestrutura de voz em tempo real ainda é um grande desafio técnico para desenvolvedores. Novas plataformas resolvem essa complexidade e oferecem vários tipos de suporte
Otimização de latência e confiabilidade:
- Gerenciar agentes de voz em tempo real de alto desempenho de forma escalável.
Gerenciamento de sinais conversacionais e contexto não verbal:
- Detecção de "endpointing" para identificar se o usuário terminou de falar.
- Filtragem de ruído de fundo e melhoria na detecção de emoção e sentimento.
Tratamento eficiente de erros:
- Detectar chamadas de API com falha e tentar novamente imediatamente.
- Inserir respostas alternativas para evitar interrupção da conversa.
Integração com sistemas de terceiros e suporte a RAG:
- Necessidade de integração de baixa latência com bases de conhecimento e sistemas de terceiros.
Controle do fluxo de conversa:
- Suporte ao tratamento de conversas sensíveis ou reguladas por meio do desenho de fluxos previsíveis.
Observabilidade, análise e testes:
- Resolver a falta de ferramentas para acompanhar, em escala, a qualidade e o desempenho das conversas.
Exemplo de plataforma Vapi: ajuda a reduzir a complexidade da infraestrutura de voz e permite criar rapidamente agentes de voz de alta qualidade

3. Aplicações (Applications)

Produtos de automação baseados em voz estão sendo desenvolvidos em várias áreas.
Características das aplicações mais promissoras:
- Executam completamente a tarefa do cliente e entregam resultados valiosos.
- Escalabilidade para lidar com milhares de chamadas simultâneas em momentos de pico de demanda.
- Oferecem soluções personalizadas e especializadas para setores específicos.
Principais oportunidades por função
- Transcrição (Transcription): criação de notas de conversa e recomendação de tarefas de acompanhamento
- Chamadas de entrada (Inbound Calling): gestão de reservas, conversão de leads e customer success
- Chamadas de saída (Outbound Calling): triagem de candidatos e confirmação de compromissos
- Treinamento (Training): treinamento de vendas ou entrevistas.
- Negociação (Negotiation): negociação de compras, disputas de seguros e ajuste de contratos
Casos de investimento
- Abridge: documentação de conversas médicas
- Rilla: coaching para vendas em campo
- Rev: transcrição colaborativa entre IA e humanos em diversos setores

Casos de uso concretos

Solução especializada por setor Sameday AI: agente de vendas com IA para o setor de serviços residenciais. Automatiza desde o atendimento da ligação do cliente → proposta de orçamento conforme o problema → agendamento → conclusão do pagamento.
Chamadas de saída Wayfaster: automação do processo de recrutamento. Realiza automaticamente chamadas de triagem de candidatos para focar nos melhores perfis.
Saúde negociação com seguradoras: uso de LLM para analisar milhares de documentos de seguros e prontuários de pacientes, dando suporte a negociações em tempo real.

Princípios de investimento em tecnologia de Voice AI

O ecossistema de Voice AI oferece as maiores oportunidades de criação de startups nas camadas de plataformas para desenvolvedores e aplicações
Com a rápida evolução dos modelos, criou-se um ambiente em que empreendedores conseguem desenvolver e testar rapidamente MVPs (produtos mínimos viáveis) eficazes com pouco investimento inicial
1. Soluções profundamente integradas a fluxos de trabalho setoriais e multimodalidade
- As aplicações de Voice AI de maior impacto são profundamente integradas aos fluxos de trabalho de um setor específico
- Ajustadas à linguagem e à forma de conversa próprias de cada setor
- Ex.:
  - Um agente de voz para concessionárias de automóveis integrado ao CRM usa dados de interações passadas com clientes, melhora a qualidade do serviço e acelera a implantação
  - Combina voz, texto, imagem e outras modalidades para resolver processos humanos mais complexos e em múltiplas etapas
2. Entrega de produtos de alta qualidade com engenharia robusta
- Fazer uma demo para hackathon é relativamente simples, mas um produto real exige alta confiabilidade, escalabilidade e capacidade de lidar com casos reais de uso
- Exigências das empresas: desempenho consistente. Garantia de baixa latência. Integração fluida com sistemas existentes
- Elementos centrais de projeto: lidar com entradas de voz imprevisíveis. Reforçar segurança. Manter alto uptime
3. Equilíbrio entre crescimento, retenção e KPIs de qualidade do produto
- Agentes de voz têm forte potencial de crescimento em funções ligadas à receita, como vendas.
- Quando clientes transferem fluxos de trabalho centrais de pessoas para agentes, queda de qualidade pode levar a alto churn.

KPIs e métricas de qualidade importantes

Churn (taxa de cancelamento):
- Em estágio inicial, muitos aplicativos de voz enfrentam dificuldades por causa de alta taxa de cancelamento.
- Isso ocorre quando clientes migram para concorrentes por falta de confiança no serviço.
Self-Serve Resolution (taxa de resolução em autoatendimento):
- Indica quão efetivamente o agente de voz resolve o problema do usuário sem intervenção humana.
Customer Satisfaction Score (pontuação de satisfação do cliente):
- Mede a satisfação geral dos clientes que interagiram com o agente de voz, oferecendo insights sobre qualidade.
Call Termination Rates (taxa de encerramento de chamadas):
- Taxas altas indicam problemas na experiência do usuário e questões não resolvidas.
Cohort Call Volume Expansion (expansão do volume de chamadas por coorte):
- Mede se, ao longo do tempo, os clientes aumentam o uso do agente de voz, servindo como indicador de valor do produto e engajamento do usuário.

O futuro da Voice AI

Os avanços tecnológicos dos últimos anos abriram a possibilidade de criar produtos inovadores que resolvem problemas complexos
Espera-se que, no futuro, sistemas multimodais e de conversação em tempo real resolvam ainda mais problemas em diversos setores

1 comentários

xguru 2024-11-28

Como já trabalhei com IVR no passado, acho que por isso tenho bastante interesse nessa área haha

Veja também o texto Tudo sobre agentes de voz com IA, organizado pela a16z