12 pontos por xguru 2024-06-12 | 1 comentários | Compartilhar no WhatsApp
  • Graças à IA generativa, no futuro os humanos não precisarão mais fazer ligações telefônicas
  • As pessoas só vão dedicar tempo a chamadas telefônicas quando isso realmente tiver valor

Benefícios para as empresas

  1. Redução de tempo e de custos de mão de obra causados por operadores humanos
  2. Possibilidade de realocar recursos para aumentar a geração de receita
  3. Redução de risco com uma experiência do cliente mais padronizada e consistente

Benefícios para os consumidores

  • Agentes de voz podem oferecer um serviço em nível humano sem a necessidade de pagar ou fazer um "match" com uma pessoa real
    • Hoje isso inclui terapeutas, coaches, companheiros etc.
    • No futuro, isso provavelmente abrangerá uma gama muito mais ampla de experiências construídas em torno da voz
  • Como na maioria dos outros softwares de consumo, é impossível prever quem serão os "vencedores"

A chamada telefônica é a API para se comunicar com o mundo, e a IA eleva isso a outro nível

Onde parece haver oportunidade

  • Há oportunidades enormes em cada camada, como players de infraestrutura, interfaces para o consumidor e agentes corporativos
  • No caso de agentes de voz B2C e B2B, há algumas hipóteses sobre os produtos emergentes mais interessantes:

Principais características de agentes de voz B2B e B2C

  • Built to scale (construído para escalar)
    • Latência e experiência de conversa ainda não estão resolvidas
    • Estamos procurando fundadores com opiniões fortes sobre como construir agentes
    • Trabalhando para maximizar o que é mais importante no agente (velocidade, precisão, tom/emoção etc.)
  • Vertically focused (foco vertical)
    • Podem ser agentes executores que dependem de modelos ajustados de forma única e de integrações estreitas para um caso de uso específico
    • Isso é mais fácil de construir, lançar no mercado e fazer crescer com sucesso
  • Realistic in scope (realista em escopo)
    • Delegar totalmente à IA chamadas importantes é um grande desafio
    • Esperamos que, no curto prazo, empresas de agentes de voz façam trabalhos que não escalam
    • Isso pode incluir ajuste por cliente ou transferência da chamada para agentes humanos na etapa final

A stack para construir agentes de voz

  • Para um agente de voz funcionar, é necessário:
    • Capturar a fala humana (ASR)
    • Processar essa entrada com um LLM e retornar uma saída
    • Falar de volta para o humano (TTS)
  • Novos modelos multimodais, como o GPT-4o, podem mudar a estrutura da stack ao "executar" várias dessas camadas ao mesmo tempo por meio de um único modelo
    • Isso pode reduzir latência e custo, além de oferecer uma interface conversacional mais natural
    • Muitos agentes ainda não alcançaram uma qualidade realmente humana com a stack composta abaixo
  • Em algumas empresas/abordagens, um LLM ou uma série de LLMs cuida do fluxo da conversa e da emoção. Em outros casos, há mecanismos próprios para adicionar emoção, gerenciar interrupções etc.
    • Provedores de voz "full stack" oferecem tudo isso em um só lugar.
  • Aplicativos de consumo (B2C) e corporativos (B2B) ficam em cima dessa stack.
  • Mesmo usando provedores de terceiros, os apps normalmente plugam um LLM customizado, que muitas vezes também atua como mecanismo de conversa.

Full stack vs. montar por conta própria: comparação dos principais fatores

  • Fundadores de agentes de voz podem escolher entre rodar agentes em plataformas full stack (como Retell, Vapi, Bland) ou montar a stack por conta própria.
  • Há alguns fatores principais nessa decisão:
    • Complexity (complexidade)
      • Players full stack oferecem uma forma mais simples de construir agentes de voz, abstraindo a complexidade do lado da infraestrutura
      • Ainda assim, isso deixa espaço para customização e tuning, como plugar prompts ou documentos de conhecimento (RAG) no LLM
    • Flexibility (flexibilidade)
      • Fundadores que estão construindo para mercados verticais e casos de uso específicos provavelmente vão querer o máximo de flexibilidade possível sobre como cada camada da stack funciona/é executada
      • Isso também pode ser combinado com a busca por menor latência possível
    • Cost (custo)
      • Provedores full stack podem introduzir um custo adicional por chamada, embora também possam negociar preços melhores com volume
      • Em agentes de voz em escala, alguns centavos por chamada podem fazer diferença
    • Control (controle)
      • Quando algo dá errado, fundadores de agentes de voz precisam conseguir rastrear e resolver o problema imediatamente, especialmente em casos de uso sensíveis
      • Também pode ser necessário ter máxima visibilidade sobre como cada camada está funcionando
      • Isso pode ser mais fácil com uma stack montada por conta própria
  • Principais players da stack
    • Full Stack (full stack) : hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
    • Emotion (emoção) : hume
    • Text to Speech (texto para fala) : ElevenLabs, Azure
    • Speech to Text (fala para texto) : Deepgram, Whisper, AssemblyAI, Azure
    • Streaming (streaming) : LiveKit, daily

Nossa visão sobre agentes B2B

A evolução da voz com IA

  • Estamos fazendo a transição da voz com IA 1.0 (árvores telefônicas) para a era da voz com IA 2.0 (baseada em LLM)
  • Empresas 2.0 começaram a surgir nos últimos 6 meses
  • As empresas 1.0 podem ser mais precisas agora, mas no longo prazo a abordagem 2.0 será muito mais escalável e precisa

A necessidade de modelos especializados por mercado vertical

  • Não haverá um único modelo ou plataforma horizontal aplicável a todos os tipos de agentes de voz corporativos
  • Há algumas diferenças importantes entre mercados verticais:
    1. Tipo, tom e estrutura das chamadas
    2. Integrações e processos
    3. GTM e "killer feature"
  • Isso pode significar uma explosão de agentes verticais altamente opinativos na UI
  • Para isso, será necessário um time fundador com expertise ou forte interesse nesse domínio

As oportunidades mais próximas

  • O TAM é grande para empresas intensivas em mão de obra
  • As oportunidades mais imediatas podem estar em setores que:
    • Dependem totalmente de agendamentos por telefone
    • Sofrem com escassez severa de mão de obra
    • Têm baixa complexidade nas chamadas
  • À medida que os agentes ficarem mais sofisticados, poderão lidar com chamadas mais complexas

Evolução dos agentes B2B

  • Processo evolutivo
    • IVR (Interactive Voice Response) : modelo tradicional por toque no teclado, no qual o agente oferece ao consumidor uma série de opções (1 para vendas, 2 para suporte ao cliente etc.) e o direciona com base nisso
    • AI 1.0 (Phone Trees) : uma versão mais flexível e intuitiva do IVR, em que o consumidor fala em linguagem natural e o agente tenta guiá-lo por uma série de fluxos de conversa
    • AI 2.0 (LLMs) : conversas em formato livre, nas quais a IA não tenta encaixar o que a pessoa diz em opções pré-definidas
  • Muitas empresas de agentes de voz estão adotando uma abordagem vertical por setor específico (ex.: serviços automotivos) ou por tipo específico de tarefa (ex.: agendamento de compromissos). Isso ocorre por alguns motivos:
    • Dificuldade de execução
      • O padrão de qualidade para entregar chamadas à IA é alto, e o fluxo de conversa (assim como os workflows de backend do lado do cliente) pode rapidamente ficar complexo ou muito específico
      • Empresas que constroem os "casos de exceção" desses mercados verticais têm mais chance de sucesso (ex.: vocabulário próprio que um modelo genérico pode interpretar mal)
    • Regulamentação e licenciamento
      • Algumas empresas de agentes de voz enfrentam restrições especiais, certificações necessárias etc.
      • O exemplo clássico é o setor de saúde (ex.: conformidade com HIPAA), mas isso também aparece em categorias como vendas, onde há regulação nacional para cold calling com IA
    • Integrações
      • Em algumas categorias, entregar bem a experiência do usuário (tanto para a empresa quanto para o consumidor) pode exigir integrações long tail ou especializadas. Isso não vale a pena construir a menos que se esteja lidando com um caso de uso específico
    • Entrada em outros softwares
      • A voz pode entrar naturalmente em comportamentos centrais do cliente, como agendamento, renovação, orçamento etc.
      • Em alguns casos, isso pode servir como porta de entrada para uma plataforma SaaS vertical mais ampla para essas empresas, especialmente quando a base de clientes ainda opera offline

Agentes B2B: onde vemos oportunidade

Baseados em LLM — mas não necessariamente 100% automatizados desde o primeiro dia

  • A forma "forte" dos agentes de voz com IA será uma conversa totalmente guiada por LLM, e não uma abordagem de IVR ou árvore telefônica
  • Porém, como os LLMs ainda não são 100% confiáveis em todo o processo, é provável que haja, ao menos temporariamente, "human-in-the-loop" em transações maiores ou mais sensíveis
  • Isso também torna workflows específicos por mercado vertical especialmente importantes, pois ajudam a maximizar a taxa de sucesso, minimizar edge cases e reduzir a interferência humana

Tuning de modelo customizado vs. prompting na abordagem com LLM

  • Agentes de voz B2B precisam lidar com conversas especializadas (ou específicas de um mercado vertical), para as quais um LLM genérico provavelmente será insuficiente
  • Muitas empresas estão ajustando modelos por cliente (usando algumas centenas ou poucos milhares de pontos de dados) e podem extrapolar isso para um modelo base para a empresa toda
  • O ajuste customizado para clientes corporativos também pode continuar
    • Observação: algumas empresas podem ajustar um modelo "genérico" (usado em toda a base de clientes) para um caso de uso específico e depois usar prompting por cliente

Time técnico com expertise de domínio

  • Dada a complexidade, ter bagagem prévia em IA provavelmente ajuda a construir e escalar agentes de voz B2B de alta qualidade
  • Mas entender como empacotar o produto e criar uma cunha em um mercado vertical também pode ser igualmente importante, já que isso exige expertise de domínio ou forte interesse
  • Não é preciso ter doutorado em IA para construir e lançar agentes de voz corporativos!

Visão afiada sobre integrações + ecossistema

  • De forma semelhante ao ponto acima, compradores de cada mercado vertical costumam querer ver certos recursos ou integrações específicos antes de comprar
  • Na prática, isso pode ser o que faz a avaliação do produto subir de "útil" para "mágico"
  • Esse é mais um motivo pelo qual faz sentido começar de forma bastante verticalizada

Movimento "enterprise-grade" ou forte de product-led growth (PLG)

  • Em mercados verticais nos quais uma fatia significativa da receita está concentrada nas maiores empresas/fornecedores, companhias de agentes de voz podem começar pelas grandes contas e, depois, "descer" para PMEs com um produto self-service
  • Clientes PME querem muito essa solução e estão dispostos a testar diferentes opções, mas podem não gerar dados em escala/qualidade suficientes para que a startup ajuste o modelo a nível enterprise

Nossa visão sobre agentes B2C

Diferenças em relação ao B2B

  • No B2B, agentes de voz substituem principalmente chamadas telefônicas existentes para completar uma tarefa específica
  • No caso de agentes para o consumidor, é o usuário que precisa escolher continuar engajado, o que é difícil porque interagir por voz nem sempre é conveniente
  • Isso significa que o nível exigido do produto é "mais alto"

Primeiras áreas de aplicação

  • A primeira e mais óbvia área de aplicação para agentes de voz voltados ao consumidor é substituir, com IA, serviços humanos caros ou de difícil acesso
  • Isso inclui tudo que é baseado em conversa e pode ser realizado virtualmente, como terapia, coaching, tutoria etc.

Possibilidades futuras

  • Mas acreditamos que a verdadeira magia dos agentes de voz B2C ainda está por vir!
  • Estamos procurando produtos que usem o poder da voz para viabilizar novos tipos de "conversa" que antes não existiam
  • Isso pode reinventar o formato de serviços existentes ou criar serviços totalmente novos

Imitação de conexão humana

  • Em produtos que acertam na UX, agentes de voz oferecem a chance de envolver consumidores em um nível que o software nunca mostrou antes
  • Isso equivale a realmente imitar a conexão humana
  • Isso pode aparecer como o próprio agente sendo o produto, ou como um modo de voz dentro de um produto mais amplo

Evolução dos agentes B2C

  • Até agora, os agentes de voz de IA para consumo dominantes vieram de grandes empresas, como ChatGPT Voice e o app Pi, da Inflection.
  • Há alguns motivos para a voz para consumidores ter demorado a surgir:

Vantagem das grandes empresas

  • Grandes empresas já têm distribuição para consumidores e modelos de ponta em precisão, latência etc.
  • Não é fácil oferecer voz em grande escala, especialmente considerando o lançamento recente do GPT-4o

Dificuldade de adoção de um novo comportamento

  • Enquanto agentes de voz B2B apenas "pluguam" IA em processos existentes, agentes de voz B2C exigem que o usuário adote um novo comportamento
  • Isso pode exigir um produto mais lento ou mais mágico

Percepção negativa sobre a IA de voz existente

  • Consumidores podem não se sentir motivados a experimentar novos apps porque experiências com produtos como Siri deixaram uma impressão negativa sobre IA de voz

Produtos de base ampla já cobrem os casos de uso básicos

  • Produtos de base ampla geralmente já conseguem oferecer os casos de uso básicos da IA de voz, como tutoria, companhia etc.
  • Startups de voz B2C estão começando a criar casos de uso ou experiências que ChatGPT, Pi etc. não atenderão

Agentes B2C: onde vemos oportunidade

Uma visão forte sobre por que a voz é necessária

  • Estamos animados com produtos e fundadores que têm uma visão clara sobre como a voz traz valor único ao produto
  • Não é simplesmente "voz por voz"
  • Em muitos casos, a interface de voz é até pior do que a de texto, porque é mais inconveniente para consumir e extrair informação

Uma visão forte sobre por que voz em tempo real é necessária

  • A voz já é difícil de consumir; a voz em tempo real é ainda mais difícil (em comparação com mensagens de voz assíncronas)
  • Estamos animados com fundadores que têm uma visão sobre por que o produto deles precisa ser construído em torno de conversas em tempo real
  • Talvez para companhia em nível humano, ambientes de prática etc.

Não similaridade com o "produto" pré-IA

  • Suspeitamos que a forma forte do produto não será uma simples transposição direta de conversas humanas prévias, nas quais agentes de voz com IA apenas substituem provedores humanos
  • Primeiro, porque é difícil alcançar esse padrão
  • Mais importante ainda, porque há uma oportunidade de usar IA para entregar o mesmo valor de forma melhor (mais eficiente, mais agradável)

Verticalização em que a qualidade do modelo não define os vencedores

  • Os principais produtos de IA de consumo generalista (ChatGPT, Pi, Claude) têm modos de voz de alta qualidade
  • Eles conseguem participar de forma significativa em muitos tipos de conversa e interação
  • Como hospedam seus próprios modelos e stacks, no curto prazo eles provavelmente vencerão em latência e fluxo de conversa

Esperamos que startups tenham sucesso das seguintes maneiras:

  • Ajustando ou fazendo tuning para tipos específicos de conversa, ou
  • Construindo uma UI que forneça mais contexto e valor à experiência com agentes de voz
    • (ex.: acompanhar progresso ao longo do tempo, conduzir a conversa/experiência de forma opinativa)

1 comentários

 
bus710 2024-06-13

Tive a oportunidade de ver de perto a equipe de integration de uma empresa enterprise, e pude acompanhar em tempo real um projeto semelhante ao conteúdo do texto.

O objetivo inicial era automatizar o CS por meio do AWS Connect, mas depois também passaram a fazer processamento distribuído de tráfego e até a participar do planejamento de serviços especiais para clientes VVIP... Também é interessante ver esse escopo crescer aos poucos.

No fim das contas, a diretriz do serviço era, sinceramente, fazer com que os clientes que não dão muito retorno fossem atendidos o máximo possível por bots de resposta automática, enquanto os clientes com depósitos maiores fossem contatados diretamente por agentes humanos o mais rápido possível. Acho que é uma parte inevitável, né haha