15 pontos por xguru 2025-02-06 | 1 comentários | Compartilhar no WhatsApp

Nossa tese - "Por que voz?"

  • A voz funciona como um forte ponto de inflexão em termos de utilidade da IA
  • Para as empresas, a IA torna possível substituir mão de obra e atender clientes 24 horas por dia
  • Do ponto de vista do consumidor, há a perspectiva de que a voz se torne a principal interface de IA
  • Neste momento, a infraestrutura de voz para IA já está relativamente consolidada, e a voz começou a ser usada de forma séria em várias aplicações
  • À medida que o desempenho dos modelos melhora, há a visão de que a voz deixará de ser o produto em si e passará a funcionar como uma "wedge" de entrada no mercado

Novidades anunciadas até aqui

  • Maio de 2024: a OpenAI lançou o GPT-4o voice e apresentou recursos de resposta por voz em tempo real; a Cartesia anunciou o Sonic
  • Junho de 2024: a Character introduziu chamadas de voz em beta; a Apple anunciou a integração do ChatGPT ao Siri
  • Julho de 2024: a OpenAI iniciou o rollout do Advanced Voice; a Speechmatics revelou o modelo Flow
  • Agosto de 2024: a Amazon integrou Claude ao Alexa; a Meta ofereceu um companheiro de IA com vozes de celebridades
  • Setembro de 2024: o NotebookLM ganhou destaque com o Audio Overview; a PlayHT revelou o modelo 2.0
  • Outubro de 2024: a OpenAI lançou a API em tempo real; a Kyutai anunciou o modelo Moshi
  • Novembro de 2024: a ElevenLabs lançou o Conversational AI; a NVIDIA anunciou o modelo Fugatto; o Gemini Live revelou seu app em tempo real
  • Dezembro de 2024: o ChatGPT Advanced Voice Mode passou a incluir busca na internet; o lançamento do 1-800-CHATGPT também chamou atenção

O que mudou?

  • A infraestrutura de modelos ficou mais simples, e surgiram agentes de voz com baixa latência e alto desempenho
  • Os novos modelos conversacionais dos últimos 6 meses foram um dos principais motores desse avanço
  • Os custos também estão caindo; em dezembro de 2024, a OpenAI reduziu bastante o preço da API em tempo real do GPT-4o
  • O GPT-4o mini também passou a ser oferecido em versão em tempo real

Situação atual

  • Qualidade dos modelos

    • A qualidade da conversa (latência, capacidade de interrupção, expressão emocional etc.) está em grande parte resolvida
    • Com os avanços dos modelos de voz em tempo real da OpenAI e de outros, já existem casos com desempenho superior ao de call centers/BPO
  • GTM(go-to-market)

    • Produtos baseados em agentes podem se espalhar rapidamente ao substituir diretamente trabalho humano
    • Porém, a barreira de entrada também é baixa, e grandes empresas conservadoras têm alta resistência à adoção
    • Excelência na execução de GTM e uma etapa adicional de produto (act 2) são fatores centrais para o sucesso
  • Monetização

    • No início, predominavam planos cobrados por minuto, mas a rápida queda no custo dos modelos vem aumentando a pressão sobre preços
    • No futuro, espera-se o surgimento de modelos híbridos de cobrança com taxa de plataforma + uso
  • Dinâmica competitiva

    • Os agentes de voz para empresas competem entre plataformas voltadas a desenvolvedores, plataformas genéricas no-code e soluções especializadas por setor
    • A tendência é de competição ainda mais intensa

Evolução do mercado

  • No segundo semestre de 2024, o mercado de agentes de voz cresceu rapidamente
  • Há uma tendência de vários produtos adicionarem recursos de voz
  • Em várias camadas da stack de voz conversacional, houve intensa captação de recursos e aquisição real de clientes
  • Em especial, grandes empresas tendem a não substituir de uma vez todo o trabalho humano de atendimento telefônico por IA, mas a começar por alguns tipos de chamadas e expandir gradualmente
    • Chamadas noturnas e de sobrecarga: ligações que normalmente iriam para a caixa postal podem ser tratadas por IA, permitindo coletar certo nível de informação e processar transações
    • Novas chamadas outbound: passam a ser viáveis chamadas que antes não eram feitas por baixa viabilidade econômica, com potencial de gerar receita adicional ou reduzir custos
      • Chamadas de "back office": automatizar tarefas que exigem ligar para outras empresas ou instituições pode aumentar a eficiência

Evolução do mercado - casos de captação

  • Empresas de modelos

    • ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI e outras vêm anunciando grandes rodadas, de seed a série B
  • Plataformas genéricas

    • Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland e outras levantaram rodadas de série A a C
    • Também vêm ganhando atenção empresas como 11x, Decagon, Sierra e Artisan, focadas em setores específicos como vendas e suporte ao cliente
    • Plataformas para desenvolvedores como Vapi e Retell AI também surgiram
  • Plataformas verticais

    • Hippocratic AI, Assort Health, Voicepanel, Letter, Solidroad e várias outras receberam investimento em áreas especializadas como saúde, RH e resposta a emergências
    • Wayfaster e HappyRobot também conseguiram captar em áreas como logística e entrevistas

Mercados verticais importantes

  • Os primeiros lugares com maior probabilidade de adoção de agentes de voz são os setores com grande gasto em call center/BPO
  • Setores importantes como finanças, seguros, B2C, B2B, governo e saúde têm alta probabilidade de desenvolver soluções de voz próprias
  • Espera-se forte movimentação de fundadores nas áreas abaixo
    • Financial services (ex.: cobrança de dívidas)
    • Insurance (atendimento ao cliente e back office)
    • Government
    • Support services (atendimento complexo ao cliente, como suporte de TI que exige conhecimento especializado)
  • Mesmo fora da categoria de call center, foi observada disposição de pagar por agentes de voz de IA voltados a coaching/treinamento para cargos com salários altos
    • Agentes de voz realistas podem atuar como "simuladores" e melhorar significativamente a capacidade de trabalho
    • Isso pode substituir custos com pessoal, como coaches de vendas, ou softwares existentes de baixa eficiência

Verticais para observar - tendência das empresas da YC

  • O número de empresas de agentes de voz participantes da YC está crescendo rapidamente
  • B2B (~69%) e saúde (~18%) são os segmentos principais; dentro de B2B, há muitas startups de fintech e suporte ao cliente
  • O setor de saúde se divide entre front office (voltado ao paciente) e back office (voltado a farmácias, seguradoras etc.)
  • De forma geral, startups estão tentando resolver problemas de vários setores com agentes de voz

O que estamos procurando

  • Setores em que o telefone é um canal central ou em que ele é o meio ideal por razões regulatórias ou de eficiência
    • Quando o telefone é o meio prioritário para demonstrações ao cliente (ex.: logística)
    • Quando, por regulação, uma chamada é mais eficaz (ex.: cobrança de dívidas)
    • Quando a taxa de sucesso é maior do que em outras abordagens (ex.: saúde)
  • A estrutura da chamada precisa ser clara e mensurável
    • Os pontos de dados a coletar ou as informações a transmitir precisam estar bem definidos
    • Os resultados devem ser fáceis de medir, para que empresas considerem adotar agentes de voz com IA sem grande resistência
  • É preciso atingir redução de mais de 50% em custo de pessoal, mantendo desempenho semelhante ao humano
    • A adoção é mais fácil em cenários em que a mão de obra substituída é clara ou pode ser realocada
    • Como pode haver ceticismo interno em relação à IA, o ROI precisa ser muito alto
  • A chamada é um problema de "vida ou morte" para o cliente, mas o lado que faz ou recebe a ligação consegue tolerar falhas
    • Muitas vezes, a adoção começa por chamadas noturnas, de overflow ou de menor prioridade
    • É mais fácil para a IA entrar onde o padrão de desempenho exigido é menor
  • O efeito de ganho de eficiência é grande em chamadas que geram receita direta (ex.: novas reservas, pagamentos) ou em áreas de alto gasto (ex.: drive-thru)
  • Para entrar em SMB/mid-market, é necessário permitir integração simples com VoIP ou configuração self-service
  • No enterprise, quanto mais complexa for a integração inicial, maior a barreira de entrada — e, ao mesmo tempo, melhor a vantagem competitiva se for bem implementada
    • Ou então começar facilmente com baixa complexidade de integração e expandir aos poucos
  • De forma geral, o mercado mostra forte interesse por soluções que entreguem ao mesmo tempo alta taxa de sucesso e grande redução de custos

Estudo de caso - entrevistas por voz com IA

  • No começo, pareceu inesperado introduzir voz por IA em entrevistas de contratação, que têm alta complexidade e sensibilidade
  • Mas o setor de staffing viu grande efeito no processamento de entrevistas em larga escala e repetitivas
  • Tornou-se possível conduzir entrevistas mais rápidas e consistentes sem prejudicar a experiência do candidato
  • A IA pode realizar entrevistas imediatamente quando necessário e avaliar candidatos sem barreiras de idioma ou sotaque
  • Especialmente em cargos técnicos, há feedback de que a IA pode fazer avaliações mais precisas do que um profissional generalista de RH
  • As empresas percebem vantagens como aumento na taxa de aprovação em entrevistas e aceleração do processo de matching de candidatos