Nossa tese - "Por que voz?"
- A voz funciona como um forte ponto de inflexão em termos de utilidade da IA
- Para as empresas, a IA torna possível substituir mão de obra e atender clientes 24 horas por dia
- Do ponto de vista do consumidor, há a perspectiva de que a voz se torne a principal interface de IA
- Neste momento, a infraestrutura de voz para IA já está relativamente consolidada, e a voz começou a ser usada de forma séria em várias aplicações
- À medida que o desempenho dos modelos melhora, há a visão de que a voz deixará de ser o produto em si e passará a funcionar como uma "wedge" de entrada no mercado
Novidades anunciadas até aqui
- Maio de 2024: a OpenAI lançou o GPT-4o voice e apresentou recursos de resposta por voz em tempo real; a Cartesia anunciou o Sonic
- Junho de 2024: a Character introduziu chamadas de voz em beta; a Apple anunciou a integração do ChatGPT ao Siri
- Julho de 2024: a OpenAI iniciou o rollout do Advanced Voice; a Speechmatics revelou o modelo Flow
- Agosto de 2024: a Amazon integrou Claude ao Alexa; a Meta ofereceu um companheiro de IA com vozes de celebridades
- Setembro de 2024: o NotebookLM ganhou destaque com o Audio Overview; a PlayHT revelou o modelo 2.0
- Outubro de 2024: a OpenAI lançou a API em tempo real; a Kyutai anunciou o modelo Moshi
- Novembro de 2024: a ElevenLabs lançou o Conversational AI; a NVIDIA anunciou o modelo Fugatto; o Gemini Live revelou seu app em tempo real
- Dezembro de 2024: o ChatGPT Advanced Voice Mode passou a incluir busca na internet; o lançamento do 1-800-CHATGPT também chamou atenção
O que mudou?
- A infraestrutura de modelos ficou mais simples, e surgiram agentes de voz com baixa latência e alto desempenho
- Os novos modelos conversacionais dos últimos 6 meses foram um dos principais motores desse avanço
- Os custos também estão caindo; em dezembro de 2024, a OpenAI reduziu bastante o preço da API em tempo real do GPT-4o
- O GPT-4o mini também passou a ser oferecido em versão em tempo real
Situação atual
-
Qualidade dos modelos
- A qualidade da conversa (latência, capacidade de interrupção, expressão emocional etc.) está em grande parte resolvida
- Com os avanços dos modelos de voz em tempo real da OpenAI e de outros, já existem casos com desempenho superior ao de call centers/BPO
-
GTM(go-to-market)
- Produtos baseados em agentes podem se espalhar rapidamente ao substituir diretamente trabalho humano
- Porém, a barreira de entrada também é baixa, e grandes empresas conservadoras têm alta resistência à adoção
- Excelência na execução de GTM e uma etapa adicional de produto (act 2) são fatores centrais para o sucesso
-
Monetização
- No início, predominavam planos cobrados por minuto, mas a rápida queda no custo dos modelos vem aumentando a pressão sobre preços
- No futuro, espera-se o surgimento de modelos híbridos de cobrança com taxa de plataforma + uso
-
Dinâmica competitiva
- Os agentes de voz para empresas competem entre plataformas voltadas a desenvolvedores, plataformas genéricas no-code e soluções especializadas por setor
- A tendência é de competição ainda mais intensa
Evolução do mercado
- No segundo semestre de 2024, o mercado de agentes de voz cresceu rapidamente
- Há uma tendência de vários produtos adicionarem recursos de voz
- Em várias camadas da stack de voz conversacional, houve intensa captação de recursos e aquisição real de clientes
- Em especial, grandes empresas tendem a não substituir de uma vez todo o trabalho humano de atendimento telefônico por IA, mas a começar por alguns tipos de chamadas e expandir gradualmente
- Chamadas noturnas e de sobrecarga: ligações que normalmente iriam para a caixa postal podem ser tratadas por IA, permitindo coletar certo nível de informação e processar transações
- Novas chamadas outbound: passam a ser viáveis chamadas que antes não eram feitas por baixa viabilidade econômica, com potencial de gerar receita adicional ou reduzir custos
- Chamadas de "back office": automatizar tarefas que exigem ligar para outras empresas ou instituições pode aumentar a eficiência
Evolução do mercado - casos de captação
-
Empresas de modelos
- ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI e outras vêm anunciando grandes rodadas, de seed a série B
-
Plataformas genéricas
- Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland e outras levantaram rodadas de série A a C
- Também vêm ganhando atenção empresas como 11x, Decagon, Sierra e Artisan, focadas em setores específicos como vendas e suporte ao cliente
- Plataformas para desenvolvedores como Vapi e Retell AI também surgiram
-
Plataformas verticais
- Hippocratic AI, Assort Health, Voicepanel, Letter, Solidroad e várias outras receberam investimento em áreas especializadas como saúde, RH e resposta a emergências
- Wayfaster e HappyRobot também conseguiram captar em áreas como logística e entrevistas
Mercados verticais importantes
- Os primeiros lugares com maior probabilidade de adoção de agentes de voz são os setores com grande gasto em call center/BPO
- Setores importantes como finanças, seguros, B2C, B2B, governo e saúde têm alta probabilidade de desenvolver soluções de voz próprias
- Espera-se forte movimentação de fundadores nas áreas abaixo
- Financial services (ex.: cobrança de dívidas)
- Insurance (atendimento ao cliente e back office)
- Government
- Support services (atendimento complexo ao cliente, como suporte de TI que exige conhecimento especializado)
- Mesmo fora da categoria de call center, foi observada disposição de pagar por agentes de voz de IA voltados a coaching/treinamento para cargos com salários altos
- Agentes de voz realistas podem atuar como "simuladores" e melhorar significativamente a capacidade de trabalho
- Isso pode substituir custos com pessoal, como coaches de vendas, ou softwares existentes de baixa eficiência
Verticais para observar - tendência das empresas da YC
- O número de empresas de agentes de voz participantes da YC está crescendo rapidamente
- B2B (~69%) e saúde (~18%) são os segmentos principais; dentro de B2B, há muitas startups de fintech e suporte ao cliente
- O setor de saúde se divide entre front office (voltado ao paciente) e back office (voltado a farmácias, seguradoras etc.)
- De forma geral, startups estão tentando resolver problemas de vários setores com agentes de voz
O que estamos procurando
- Setores em que o telefone é um canal central ou em que ele é o meio ideal por razões regulatórias ou de eficiência
- Quando o telefone é o meio prioritário para demonstrações ao cliente (ex.: logística)
- Quando, por regulação, uma chamada é mais eficaz (ex.: cobrança de dívidas)
- Quando a taxa de sucesso é maior do que em outras abordagens (ex.: saúde)
- A estrutura da chamada precisa ser clara e mensurável
- Os pontos de dados a coletar ou as informações a transmitir precisam estar bem definidos
- Os resultados devem ser fáceis de medir, para que empresas considerem adotar agentes de voz com IA sem grande resistência
- É preciso atingir redução de mais de 50% em custo de pessoal, mantendo desempenho semelhante ao humano
- A adoção é mais fácil em cenários em que a mão de obra substituída é clara ou pode ser realocada
- Como pode haver ceticismo interno em relação à IA, o ROI precisa ser muito alto
- A chamada é um problema de "vida ou morte" para o cliente, mas o lado que faz ou recebe a ligação consegue tolerar falhas
- Muitas vezes, a adoção começa por chamadas noturnas, de overflow ou de menor prioridade
- É mais fácil para a IA entrar onde o padrão de desempenho exigido é menor
- O efeito de ganho de eficiência é grande em chamadas que geram receita direta (ex.: novas reservas, pagamentos) ou em áreas de alto gasto (ex.: drive-thru)
- Para entrar em SMB/mid-market, é necessário permitir integração simples com VoIP ou configuração self-service
- No enterprise, quanto mais complexa for a integração inicial, maior a barreira de entrada — e, ao mesmo tempo, melhor a vantagem competitiva se for bem implementada
- Ou então começar facilmente com baixa complexidade de integração e expandir aos poucos
- De forma geral, o mercado mostra forte interesse por soluções que entreguem ao mesmo tempo alta taxa de sucesso e grande redução de custos
Estudo de caso - entrevistas por voz com IA
- No começo, pareceu inesperado introduzir voz por IA em entrevistas de contratação, que têm alta complexidade e sensibilidade
- Mas o setor de staffing viu grande efeito no processamento de entrevistas em larga escala e repetitivas
- Tornou-se possível conduzir entrevistas mais rápidas e consistentes sem prejudicar a experiência do candidato
- A IA pode realizar entrevistas imediatamente quando necessário e avaliar candidatos sem barreiras de idioma ou sotaque
- Especialmente em cargos técnicos, há feedback de que a IA pode fazer avaliações mais precisas do que um profissional generalista de RH
- As empresas percebem vantagens como aumento na taxa de aprovação em entrevistas e aceleração do processo de matching de candidatos
1 comentários
Tudo o que a a16z organizou sobre agentes de voz com IA