- Graças à IA generativa, no futuro os humanos não precisarão mais fazer ligações telefônicas
- As pessoas só vão dedicar tempo a chamadas telefônicas quando isso realmente tiver valor
Benefícios para as empresas
- Redução de tempo e de custos de mão de obra causados por operadores humanos
- Possibilidade de realocar recursos para aumentar a geração de receita
- Redução de risco com uma experiência do cliente mais padronizada e consistente
Benefícios para os consumidores
- Agentes de voz podem oferecer um serviço em nível humano sem a necessidade de pagar ou fazer um "match" com uma pessoa real
- Hoje isso inclui terapeutas, coaches, companheiros etc.
- No futuro, isso provavelmente abrangerá uma gama muito mais ampla de experiências construídas em torno da voz
- Como na maioria dos outros softwares de consumo, é impossível prever quem serão os "vencedores"
A chamada telefônica é a API para se comunicar com o mundo, e a IA eleva isso a outro nível
Onde parece haver oportunidade
- Há oportunidades enormes em cada camada, como players de infraestrutura, interfaces para o consumidor e agentes corporativos
- No caso de agentes de voz B2C e B2B, há algumas hipóteses sobre os produtos emergentes mais interessantes:
Principais características de agentes de voz B2B e B2C
- Built to scale (construído para escalar)
- Latência e experiência de conversa ainda não estão resolvidas
- Estamos procurando fundadores com opiniões fortes sobre como construir agentes
- Trabalhando para maximizar o que é mais importante no agente (velocidade, precisão, tom/emoção etc.)
- Vertically focused (foco vertical)
- Podem ser agentes executores que dependem de modelos ajustados de forma única e de integrações estreitas para um caso de uso específico
- Isso é mais fácil de construir, lançar no mercado e fazer crescer com sucesso
- Realistic in scope (realista em escopo)
- Delegar totalmente à IA chamadas importantes é um grande desafio
- Esperamos que, no curto prazo, empresas de agentes de voz façam trabalhos que não escalam
- Isso pode incluir ajuste por cliente ou transferência da chamada para agentes humanos na etapa final
A stack para construir agentes de voz
- Para um agente de voz funcionar, é necessário:
- Capturar a fala humana (ASR)
- Processar essa entrada com um LLM e retornar uma saída
- Falar de volta para o humano (TTS)
- Novos modelos multimodais, como o GPT-4o, podem mudar a estrutura da stack ao "executar" várias dessas camadas ao mesmo tempo por meio de um único modelo
- Isso pode reduzir latência e custo, além de oferecer uma interface conversacional mais natural
- Muitos agentes ainda não alcançaram uma qualidade realmente humana com a stack composta abaixo
- Em algumas empresas/abordagens, um LLM ou uma série de LLMs cuida do fluxo da conversa e da emoção. Em outros casos, há mecanismos próprios para adicionar emoção, gerenciar interrupções etc.
- Provedores de voz "full stack" oferecem tudo isso em um só lugar.
- Aplicativos de consumo (B2C) e corporativos (B2B) ficam em cima dessa stack.
- Mesmo usando provedores de terceiros, os apps normalmente plugam um LLM customizado, que muitas vezes também atua como mecanismo de conversa.
Full stack vs. montar por conta própria: comparação dos principais fatores
- Fundadores de agentes de voz podem escolher entre rodar agentes em plataformas full stack (como Retell, Vapi, Bland) ou montar a stack por conta própria.
- Há alguns fatores principais nessa decisão:
- Complexity (complexidade)
- Players full stack oferecem uma forma mais simples de construir agentes de voz, abstraindo a complexidade do lado da infraestrutura
- Ainda assim, isso deixa espaço para customização e tuning, como plugar prompts ou documentos de conhecimento (RAG) no LLM
- Flexibility (flexibilidade)
- Fundadores que estão construindo para mercados verticais e casos de uso específicos provavelmente vão querer o máximo de flexibilidade possível sobre como cada camada da stack funciona/é executada
- Isso também pode ser combinado com a busca por menor latência possível
- Cost (custo)
- Provedores full stack podem introduzir um custo adicional por chamada, embora também possam negociar preços melhores com volume
- Em agentes de voz em escala, alguns centavos por chamada podem fazer diferença
- Control (controle)
- Quando algo dá errado, fundadores de agentes de voz precisam conseguir rastrear e resolver o problema imediatamente, especialmente em casos de uso sensíveis
- Também pode ser necessário ter máxima visibilidade sobre como cada camada está funcionando
- Isso pode ser mais fácil com uma stack montada por conta própria
- Complexity (complexidade)
- Principais players da stack
- Full Stack (full stack) : hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
- Emotion (emoção) : hume
- Text to Speech (texto para fala) : ElevenLabs, Azure
- Speech to Text (fala para texto) : Deepgram, Whisper, AssemblyAI, Azure
- Streaming (streaming) : LiveKit, daily
Nossa visão sobre agentes B2B
A evolução da voz com IA
- Estamos fazendo a transição da voz com IA 1.0 (árvores telefônicas) para a era da voz com IA 2.0 (baseada em LLM)
- Empresas 2.0 começaram a surgir nos últimos 6 meses
- As empresas 1.0 podem ser mais precisas agora, mas no longo prazo a abordagem 2.0 será muito mais escalável e precisa
A necessidade de modelos especializados por mercado vertical
- Não haverá um único modelo ou plataforma horizontal aplicável a todos os tipos de agentes de voz corporativos
- Há algumas diferenças importantes entre mercados verticais:
- Tipo, tom e estrutura das chamadas
- Integrações e processos
- GTM e "killer feature"
- Isso pode significar uma explosão de agentes verticais altamente opinativos na UI
- Para isso, será necessário um time fundador com expertise ou forte interesse nesse domínio
As oportunidades mais próximas
- O TAM é grande para empresas intensivas em mão de obra
- As oportunidades mais imediatas podem estar em setores que:
- Dependem totalmente de agendamentos por telefone
- Sofrem com escassez severa de mão de obra
- Têm baixa complexidade nas chamadas
- À medida que os agentes ficarem mais sofisticados, poderão lidar com chamadas mais complexas
Evolução dos agentes B2B
- Processo evolutivo
- IVR (Interactive Voice Response) : modelo tradicional por toque no teclado, no qual o agente oferece ao consumidor uma série de opções (1 para vendas, 2 para suporte ao cliente etc.) e o direciona com base nisso
- AI 1.0 (Phone Trees) : uma versão mais flexível e intuitiva do IVR, em que o consumidor fala em linguagem natural e o agente tenta guiá-lo por uma série de fluxos de conversa
- AI 2.0 (LLMs) : conversas em formato livre, nas quais a IA não tenta encaixar o que a pessoa diz em opções pré-definidas
- Muitas empresas de agentes de voz estão adotando uma abordagem vertical por setor específico (ex.: serviços automotivos) ou por tipo específico de tarefa (ex.: agendamento de compromissos). Isso ocorre por alguns motivos:
- Dificuldade de execução
- O padrão de qualidade para entregar chamadas à IA é alto, e o fluxo de conversa (assim como os workflows de backend do lado do cliente) pode rapidamente ficar complexo ou muito específico
- Empresas que constroem os "casos de exceção" desses mercados verticais têm mais chance de sucesso (ex.: vocabulário próprio que um modelo genérico pode interpretar mal)
- Regulamentação e licenciamento
- Algumas empresas de agentes de voz enfrentam restrições especiais, certificações necessárias etc.
- O exemplo clássico é o setor de saúde (ex.: conformidade com HIPAA), mas isso também aparece em categorias como vendas, onde há regulação nacional para cold calling com IA
- Integrações
- Em algumas categorias, entregar bem a experiência do usuário (tanto para a empresa quanto para o consumidor) pode exigir integrações long tail ou especializadas. Isso não vale a pena construir a menos que se esteja lidando com um caso de uso específico
- Entrada em outros softwares
- A voz pode entrar naturalmente em comportamentos centrais do cliente, como agendamento, renovação, orçamento etc.
- Em alguns casos, isso pode servir como porta de entrada para uma plataforma SaaS vertical mais ampla para essas empresas, especialmente quando a base de clientes ainda opera offline
- Dificuldade de execução
Agentes B2B: onde vemos oportunidade
Baseados em LLM — mas não necessariamente 100% automatizados desde o primeiro dia
- A forma "forte" dos agentes de voz com IA será uma conversa totalmente guiada por LLM, e não uma abordagem de IVR ou árvore telefônica
- Porém, como os LLMs ainda não são 100% confiáveis em todo o processo, é provável que haja, ao menos temporariamente, "human-in-the-loop" em transações maiores ou mais sensíveis
- Isso também torna workflows específicos por mercado vertical especialmente importantes, pois ajudam a maximizar a taxa de sucesso, minimizar edge cases e reduzir a interferência humana
Tuning de modelo customizado vs. prompting na abordagem com LLM
- Agentes de voz B2B precisam lidar com conversas especializadas (ou específicas de um mercado vertical), para as quais um LLM genérico provavelmente será insuficiente
- Muitas empresas estão ajustando modelos por cliente (usando algumas centenas ou poucos milhares de pontos de dados) e podem extrapolar isso para um modelo base para a empresa toda
- O ajuste customizado para clientes corporativos também pode continuar
- Observação: algumas empresas podem ajustar um modelo "genérico" (usado em toda a base de clientes) para um caso de uso específico e depois usar prompting por cliente
Time técnico com expertise de domínio
- Dada a complexidade, ter bagagem prévia em IA provavelmente ajuda a construir e escalar agentes de voz B2B de alta qualidade
- Mas entender como empacotar o produto e criar uma cunha em um mercado vertical também pode ser igualmente importante, já que isso exige expertise de domínio ou forte interesse
- Não é preciso ter doutorado em IA para construir e lançar agentes de voz corporativos!
Visão afiada sobre integrações + ecossistema
- De forma semelhante ao ponto acima, compradores de cada mercado vertical costumam querer ver certos recursos ou integrações específicos antes de comprar
- Na prática, isso pode ser o que faz a avaliação do produto subir de "útil" para "mágico"
- Esse é mais um motivo pelo qual faz sentido começar de forma bastante verticalizada
Movimento "enterprise-grade" ou forte de product-led growth (PLG)
- Em mercados verticais nos quais uma fatia significativa da receita está concentrada nas maiores empresas/fornecedores, companhias de agentes de voz podem começar pelas grandes contas e, depois, "descer" para PMEs com um produto self-service
- Clientes PME querem muito essa solução e estão dispostos a testar diferentes opções, mas podem não gerar dados em escala/qualidade suficientes para que a startup ajuste o modelo a nível enterprise
Nossa visão sobre agentes B2C
Diferenças em relação ao B2B
- No B2B, agentes de voz substituem principalmente chamadas telefônicas existentes para completar uma tarefa específica
- No caso de agentes para o consumidor, é o usuário que precisa escolher continuar engajado, o que é difícil porque interagir por voz nem sempre é conveniente
- Isso significa que o nível exigido do produto é "mais alto"
Primeiras áreas de aplicação
- A primeira e mais óbvia área de aplicação para agentes de voz voltados ao consumidor é substituir, com IA, serviços humanos caros ou de difícil acesso
- Isso inclui tudo que é baseado em conversa e pode ser realizado virtualmente, como terapia, coaching, tutoria etc.
Possibilidades futuras
- Mas acreditamos que a verdadeira magia dos agentes de voz B2C ainda está por vir!
- Estamos procurando produtos que usem o poder da voz para viabilizar novos tipos de "conversa" que antes não existiam
- Isso pode reinventar o formato de serviços existentes ou criar serviços totalmente novos
Imitação de conexão humana
- Em produtos que acertam na UX, agentes de voz oferecem a chance de envolver consumidores em um nível que o software nunca mostrou antes
- Isso equivale a realmente imitar a conexão humana
- Isso pode aparecer como o próprio agente sendo o produto, ou como um modo de voz dentro de um produto mais amplo
Evolução dos agentes B2C
- Até agora, os agentes de voz de IA para consumo dominantes vieram de grandes empresas, como ChatGPT Voice e o app Pi, da Inflection.
- Há alguns motivos para a voz para consumidores ter demorado a surgir:
Vantagem das grandes empresas
- Grandes empresas já têm distribuição para consumidores e modelos de ponta em precisão, latência etc.
- Não é fácil oferecer voz em grande escala, especialmente considerando o lançamento recente do GPT-4o
Dificuldade de adoção de um novo comportamento
- Enquanto agentes de voz B2B apenas "pluguam" IA em processos existentes, agentes de voz B2C exigem que o usuário adote um novo comportamento
- Isso pode exigir um produto mais lento ou mais mágico
Percepção negativa sobre a IA de voz existente
- Consumidores podem não se sentir motivados a experimentar novos apps porque experiências com produtos como Siri deixaram uma impressão negativa sobre IA de voz
Produtos de base ampla já cobrem os casos de uso básicos
- Produtos de base ampla geralmente já conseguem oferecer os casos de uso básicos da IA de voz, como tutoria, companhia etc.
- Startups de voz B2C estão começando a criar casos de uso ou experiências que ChatGPT, Pi etc. não atenderão
Agentes B2C: onde vemos oportunidade
Uma visão forte sobre por que a voz é necessária
- Estamos animados com produtos e fundadores que têm uma visão clara sobre como a voz traz valor único ao produto
- Não é simplesmente "voz por voz"
- Em muitos casos, a interface de voz é até pior do que a de texto, porque é mais inconveniente para consumir e extrair informação
Uma visão forte sobre por que voz em tempo real é necessária
- A voz já é difícil de consumir; a voz em tempo real é ainda mais difícil (em comparação com mensagens de voz assíncronas)
- Estamos animados com fundadores que têm uma visão sobre por que o produto deles precisa ser construído em torno de conversas em tempo real
- Talvez para companhia em nível humano, ambientes de prática etc.
Não similaridade com o "produto" pré-IA
- Suspeitamos que a forma forte do produto não será uma simples transposição direta de conversas humanas prévias, nas quais agentes de voz com IA apenas substituem provedores humanos
- Primeiro, porque é difícil alcançar esse padrão
- Mais importante ainda, porque há uma oportunidade de usar IA para entregar o mesmo valor de forma melhor (mais eficiente, mais agradável)
Verticalização em que a qualidade do modelo não define os vencedores
- Os principais produtos de IA de consumo generalista (ChatGPT, Pi, Claude) têm modos de voz de alta qualidade
- Eles conseguem participar de forma significativa em muitos tipos de conversa e interação
- Como hospedam seus próprios modelos e stacks, no curto prazo eles provavelmente vencerão em latência e fluxo de conversa
Esperamos que startups tenham sucesso das seguintes maneiras:
- Ajustando ou fazendo tuning para tipos específicos de conversa, ou
- Construindo uma UI que forneça mais contexto e valor à experiência com agentes de voz
- (ex.: acompanhar progresso ao longo do tempo, conduzir a conversa/experiência de forma opinativa)
1 comentários
Tive a oportunidade de ver de perto a equipe de integration de uma empresa enterprise, e pude acompanhar em tempo real um projeto semelhante ao conteúdo do texto.
O objetivo inicial era automatizar o CS por meio do AWS Connect, mas depois também passaram a fazer processamento distribuído de tráfego e até a participar do planejamento de serviços especiais para clientes VVIP... Também é interessante ver esse escopo crescer aos poucos.
No fim das contas, a diretriz do serviço era, sinceramente, fazer com que os clientes que não dão muito retorno fossem atendidos o máximo possível por bots de resposta automática, enquanto os clientes com depósitos maiores fossem contatados diretamente por agentes humanos o mais rápido possível. Acho que é uma parte inevitável, né haha