- Voice AI não é apenas um upgrade de UI, mas uma inovação na forma como empresas e clientes se conectam
- Como no atendimento ao cliente de companhias aéreas: longos tempos de espera, seleção repetitiva de menus e falta de compreensão da situação do cliente. O problema não é resolvido, enquanto se geram estresse desnecessário e perda de tempo
- Com Voice AI, diferentemente dos sistemas IVR rígidos (resposta automática por voz) existentes, é possível oferecer uma experiência que conversa como um humano e personaliza a experiência do cliente, disponível 24 horas por dia
- Entende imediatamente a situação do cliente e sugere a melhor alternativa
- Ex.: remarca automaticamente um voo cancelado e recomenda alternativas com base nas preferências do cliente
- Em algumas situações, os clientes podem até preferir agentes de IA a humanos
- Voice AI atende à alta demanda e às expectativas dos clientes, ao mesmo tempo em que aumenta a eficiência operacional
- Voice AI é a convergência entre modelos de IA nativos de voz e tecnologias multimodais
O enorme mercado da comunicação por voz
- As pessoas preferem falar:
- Bilhões de chamadas são feitas todos os dias
- Mesmo com texto, e-mail e redes sociais já amplamente difundidos, o telefone continua sendo um meio principal de comunicação em muitos negócios
- Em setores como saúde, serviços jurídicos, serviços residenciais, seguros e logística, ele é essencial para transmitir informações complexas, oferecer serviços personalizados e resolver situações urgentes
- Problemas da comunicação telefônica tradicional
- Falta de capacidade de atendimento:
- 62% das SMBs (pequenas e médias empresas) perdem chamadas, deixando de atender demandas dos clientes e perdendo oportunidades de negócio
- Problemas comuns:
- Fora do horário comercial, as ligações vão para a caixa postal
- Só é possível atender uma chamada por vez
- A qualidade do suporte é inconsistente
- Limitações tecnológicas:
- Sistemas IVR (introduzidos nos anos 1970):
- Só processam comandos predefinidos, com baixa flexibilidade: "Pressione 1 para fazer uma reserva" "Diga em poucas palavras o que você precisa"
- Não entendem a intenção nem a urgência do cliente
- Piora da experiência do cliente:
- Longo tempo de espera
- Navegação ineficiente por menus
- Falha na resolução do problema
- Apesar da alta demanda:
- A tecnologia existente tem limites para resolver os problemas do cliente de forma eficiente e agradável
- Há necessidade de uma tecnologia de automação por voz mais avançada
[Por que agora é o momento certo para desenvolver tecnologia de Voice]
Evolução da tecnologia de voz
- Primeiros sistemas IVR:
- Tecnologia IVR (Interactive Voice Response) introduzida nos anos 1970:
- Só conseguia processar comandos previamente configurados
- Não entendia a intenção nem a urgência do usuário
- Mesmo sendo uma tecnologia malvista, ainda é um mercado de US$ 5 bilhões
- Chegada das tecnologias ASR/STT:
- Modelos de reconhecimento automático de fala (ASR) e fala para texto (STT):
- Tecnologia que converte voz em texto em tempo real
- Surgimento de startups como Gong, Rev, DeepL
- Lançamento do modelo Whisper da OpenAI (2022) e do Reverb da Rev (2024):
- Suporte a sistemas de conversação naturais que lidam com sotaques, ruído de fundo e emoções
- Inovações recentes: avanço da IA de voz:
- Desenvolvimento de modelos Text-To-Speech (TTS) que geram vozes ricas em emoção:
- Capacidades multimodais:
- Google Gemini 1.5: integração de entrada por voz, texto e imagem
- Voice Engine da OpenAI: geração de voz que imita conversas humanas
- Lançamento do GPT-4o:
- Integração nativa em tempo real de áudio, visão e texto
- Capacidade de lidar com conversas complexas e responder de forma inteligente
Dois grandes avanços impulsionados pelas inovações recentes
- Difusão de modelos de alta qualidade e desenvolvimento de aplicações:
- Limitações da arquitetura tradicional em "cascata":
- No processo STT → LLM → TTS, há latência e perda de informações não textuais
- A alta latência de resposta gera uma experiência negativa para o usuário
- Novos modelos:
- GPT-4 Turbo: redução de latência
- É possível escolher o modelo de acordo com o caso de uso
- Ascensão dos modelos Speech-to-Speech (STS):
- Processam voz diretamente, sem convertê-la em texto:
- Latência ultrabaixa: cerca de 300 ms de resposta, permitindo conversas naturais
- Compreensão de contexto: mantém informações de conversas anteriores e entende intenção e emoção
- Melhora no reconhecimento emocional e de tom: fornece respostas que refletem emoções
- Detecção de atividade de voz em tempo real: permite que o usuário converse sem interrupções desnecessárias
Modelos nativos de voz: o futuro da fala conversacional
- Superando as limitações da arquitetura em cascata:
- Modelos STS dedicados à voz:
- Kyutai Moshi: modelo open source
- Alibaba SenseVoice & CosyVoice: modelos especializados em voz
- Hume Empathetic Voice Interface: processamento de respostas emocionais
- Realtime API da OpenAI:
- Suporta interações Speech-to-Speech com base no GPT-4o
Principais desafios para adoção na indústria
Três fatores principais que dificultam a adoção de agentes de voz
- Qualidade (Quality):
- Muitos agentes de Voice AI ainda não são estáveis o suficiente para serem confiáveis em vários casos de uso.
- As empresas normalmente fazem pilotos com agentes de voz em ambientes de baixo risco:
- Ex.: uma pequena empresa de reparo de telhados usa agentes para atender chamadas fora do horário comercial
- Ao expandir para casos de uso de maior valor, o padrão de qualidade se torna muito mais rigoroso
- Ex.: quando uma única ligação pode resultar em um projeto de US$ 30 mil, a tolerância a falhas na chamada é baixa
- Confiança (Trust):
- Os clientes já tiveram muitas experiências negativas com a tecnologia IVR existente:
- Respostas lentas, estrutura de menu ineficiente e falta de conversação natural
- As empresas precisam garantir confiança de que a IA conseguirá lidar com as necessidades dos clientes com precisão e rapidez
- Confiabilidade (Reliability):
- Principais reclamações:
- Queda de chamada: interrupções que frustram o cliente
- Alucinação (Hallucination): a IA fornece respostas imprecisas ou sem sentido
- Latência de resposta: o tempo de processamento aumenta e provoca abandono do cliente
Caminhos de evolução para resolver os problemas
- Otimização de latência e confiabilidade:
- Crescimento de plataformas para desenvolvedores que oferecem uma infraestrutura mais confiável, com foco em reduzir latência e evitar interrupções na conversa
- Recuperação elegante de falhas (Fail Gracefully):
- Em caso de falha na chamada, recuperar o fluxo da conversa de forma natural para minimizar interrupções na experiência do cliente
- Orquestração de conversas:
- Projetar agentes de IA para seguir fluxos previsíveis: minimizar alucinações e definir guardrails sobre as informações e o escopo da conversa que podem ser oferecidos ao cliente
Mapa do mercado de Voice AI
- O mercado de Voice AI vem inovando em várias camadas, desde modelos de base até infraestrutura de voz, plataformas para desenvolvedores e aplicações
- Em especial, há oportunidades notáveis nas três áreas-chave abaixo
1. Modelos (Models)
- Função: constroem tecnologias que dão suporte a casos de uso baseados em voz e se especializam em tecnologias específicas como SST (Speech-to-Speech), LLS (Large Language Models) e TTS (Text-to-Speech)
- Direção futura:
- Modelos multimodais e nativos de voz vão liderar
- A capacidade de processar áudio diretamente, sem conversão entre texto e áudio, será essencial
- Próxima geração de modelos:
- Empresas como Cartesia estão abrindo caminho para novas arquiteturas com State Space Models (SSMs)
- Espera-se redução de latência e custo ao separar processamento de conversas simples em modelos menores e tarefas complexas em modelos mais robustos
2. Plataformas para desenvolvedores (Developer Platforms)
- Construir agentes de Voice AI e gerenciar infraestrutura de voz em tempo real ainda é um grande desafio técnico para desenvolvedores. Novas plataformas resolvem essa complexidade e oferecem vários tipos de suporte
- Otimização de latência e confiabilidade:
- Gerenciar agentes de voz em tempo real de alto desempenho de forma escalável.
- Gerenciamento de sinais conversacionais e contexto não verbal:
- Detecção de "endpointing" para identificar se o usuário terminou de falar.
- Filtragem de ruído de fundo e melhoria na detecção de emoção e sentimento.
- Tratamento eficiente de erros:
- Detectar chamadas de API com falha e tentar novamente imediatamente.
- Inserir respostas alternativas para evitar interrupção da conversa.
- Integração com sistemas de terceiros e suporte a RAG:
- Necessidade de integração de baixa latência com bases de conhecimento e sistemas de terceiros.
- Controle do fluxo de conversa:
- Suporte ao tratamento de conversas sensíveis ou reguladas por meio do desenho de fluxos previsíveis.
- Observabilidade, análise e testes:
- Resolver a falta de ferramentas para acompanhar, em escala, a qualidade e o desempenho das conversas.
- Exemplo de plataforma Vapi: ajuda a reduzir a complexidade da infraestrutura de voz e permite criar rapidamente agentes de voz de alta qualidade
3. Aplicações (Applications)
- Produtos de automação baseados em voz estão sendo desenvolvidos em várias áreas.
- Características das aplicações mais promissoras:
- Executam completamente a tarefa do cliente e entregam resultados valiosos.
- Escalabilidade para lidar com milhares de chamadas simultâneas em momentos de pico de demanda.
- Oferecem soluções personalizadas e especializadas para setores específicos.
- Principais oportunidades por função
- Transcrição (Transcription): criação de notas de conversa e recomendação de tarefas de acompanhamento
- Chamadas de entrada (Inbound Calling): gestão de reservas, conversão de leads e customer success
- Chamadas de saída (Outbound Calling): triagem de candidatos e confirmação de compromissos
- Treinamento (Training): treinamento de vendas ou entrevistas.
- Negociação (Negotiation): negociação de compras, disputas de seguros e ajuste de contratos
- Casos de investimento
- Abridge: documentação de conversas médicas
- Rilla: coaching para vendas em campo
- Rev: transcrição colaborativa entre IA e humanos em diversos setores
Casos de uso concretos
- Solução especializada por setor Sameday AI: agente de vendas com IA para o setor de serviços residenciais. Automatiza desde o atendimento da ligação do cliente → proposta de orçamento conforme o problema → agendamento → conclusão do pagamento.
- Chamadas de saída Wayfaster: automação do processo de recrutamento. Realiza automaticamente chamadas de triagem de candidatos para focar nos melhores perfis.
- Saúde negociação com seguradoras: uso de LLM para analisar milhares de documentos de seguros e prontuários de pacientes, dando suporte a negociações em tempo real.
Princípios de investimento em tecnologia de Voice AI
- O ecossistema de Voice AI oferece as maiores oportunidades de criação de startups nas camadas de plataformas para desenvolvedores e aplicações
- Com a rápida evolução dos modelos, criou-se um ambiente em que empreendedores conseguem desenvolver e testar rapidamente MVPs (produtos mínimos viáveis) eficazes com pouco investimento inicial
- 1. Soluções profundamente integradas a fluxos de trabalho setoriais e multimodalidade
- As aplicações de Voice AI de maior impacto são profundamente integradas aos fluxos de trabalho de um setor específico
- Ajustadas à linguagem e à forma de conversa próprias de cada setor
- Ex.:
- Um agente de voz para concessionárias de automóveis integrado ao CRM usa dados de interações passadas com clientes, melhora a qualidade do serviço e acelera a implantação
- Combina voz, texto, imagem e outras modalidades para resolver processos humanos mais complexos e em múltiplas etapas
- 2. Entrega de produtos de alta qualidade com engenharia robusta
- Fazer uma demo para hackathon é relativamente simples, mas um produto real exige alta confiabilidade, escalabilidade e capacidade de lidar com casos reais de uso
- Exigências das empresas: desempenho consistente. Garantia de baixa latência. Integração fluida com sistemas existentes
- Elementos centrais de projeto: lidar com entradas de voz imprevisíveis. Reforçar segurança. Manter alto uptime
- 3. Equilíbrio entre crescimento, retenção e KPIs de qualidade do produto
- Agentes de voz têm forte potencial de crescimento em funções ligadas à receita, como vendas.
- Quando clientes transferem fluxos de trabalho centrais de pessoas para agentes, queda de qualidade pode levar a alto churn.
KPIs e métricas de qualidade importantes
- Churn (taxa de cancelamento):
- Em estágio inicial, muitos aplicativos de voz enfrentam dificuldades por causa de alta taxa de cancelamento.
- Isso ocorre quando clientes migram para concorrentes por falta de confiança no serviço.
- Self-Serve Resolution (taxa de resolução em autoatendimento):
- Indica quão efetivamente o agente de voz resolve o problema do usuário sem intervenção humana.
- Customer Satisfaction Score (pontuação de satisfação do cliente):
- Mede a satisfação geral dos clientes que interagiram com o agente de voz, oferecendo insights sobre qualidade.
- Call Termination Rates (taxa de encerramento de chamadas):
- Taxas altas indicam problemas na experiência do usuário e questões não resolvidas.
- Cohort Call Volume Expansion (expansão do volume de chamadas por coorte):
- Mede se, ao longo do tempo, os clientes aumentam o uso do agente de voz, servindo como indicador de valor do produto e engajamento do usuário.
O futuro da Voice AI
- Os avanços tecnológicos dos últimos anos abriram a possibilidade de criar produtos inovadores que resolvem problemas complexos
- Espera-se que, no futuro, sistemas multimodais e de conversação em tempo real resolvam ainda mais problemas em diversos setores
1 comentários
Como já trabalhei com IVR no passado, acho que por isso tenho bastante interesse nessa área haha
Veja também o texto Tudo sobre agentes de voz com IA, organizado pela a16z