Tudo o que a a16z organizou sobre agentes de voz com IA

xguru · 2024-06-12T11:07:01+09:00

Graças à IA generativa, no futuro os humanos não precisarão mais fazer ligações telefônicas As pessoas só vão dedicar tempo a chamadas telefônicas quando isso realmente tiver valor Benefícios para as empresas Redução de tempo e de custos de mão de obra causados por operadores humanos Possibilidade de realocar recursos para aumentar a geração de receita Redução de risco com uma experiência do cliente mais padronizada e consistente Benefícios para os consumidores Agentes de voz podem oferecer um serviço em nível humano sem a necessidade de pagar ou fazer um "match" com uma pessoa real Hoje isso inclui terapeutas, coaches, companheiros etc. No futuro, isso provavelmente abrangerá uma gama muito mais ampla de experiências construídas em torno da voz Como na maioria dos outros softwares de consumo, é impossível prever quem serão os "vencedores" A chamada telefônica é a API para se comunicar com o mundo, e a IA eleva isso a outro nível Onde parece haver oportunidade Há oportunidades enormes em cada camada, como players de infraestrutura, interfaces para o consumidor e agentes corporativos No caso de agentes de voz B2C e B2B, há algumas hipóteses sobre os produtos emergentes mais interessantes: Principais características de agentes de voz B2B e B2C Built to scale (construído para escalar) Latência e experiência de conversa ainda não estão resolvidas Estamos procurando fundadores com opiniões fortes sobre como construir agentes Trabalhando para maximizar o que é mais importante no agente (velocidade, precisão, tom/emoção etc.) Vertically focused (foco vertical) Podem ser agentes executores que dependem de modelos ajustados de forma única e de integrações estreitas para um caso de uso específico Isso é mais fácil de construir, lançar no mercado e fazer crescer com sucesso Realistic in scope (realista em escopo) Delegar totalmente à IA chamadas importantes é um grande desafio Esperamos que, no curto prazo, empresas de agentes de voz façam trabalhos que não escalam Isso pode incluir ajuste por cliente ou transferência da chamada para agentes humanos na etapa final A stack para construir agentes de voz Para um agente de voz funcionar, é necessário: Capturar a fala humana (ASR) Processar essa entrada com um LLM e retornar uma saída Falar de volta para o humano (TTS) Novos modelos multimodais, como o GPT-4o, podem mudar a estrutura da stack ao "executar" várias dessas camadas ao mesmo tempo por meio de um único modelo Isso pode reduzir latência e custo, além de oferecer uma interface conversacional mais natural Muitos agentes ainda não alcançaram uma qualidade realmente humana com a stack composta abaixo Em algumas empresas/abordagens, um LLM ou uma série de LLMs cuida do fluxo da conversa e da emoção. Em outros casos, há mecanismos próprios para adicionar emoção, gerenciar interrupções etc. Provedores de voz "full stack" oferecem tudo isso em um só lugar. Aplicativos de consumo (B2C) e corporativos (B2B) ficam em cima dessa stack. Mesmo usando provedores de terceiros, os apps normalmente plugam um LLM customizado, que muitas vezes também atua como mecanismo de conversa. Full stack vs. montar por conta própria: comparação dos principais fatores Fundadores de agentes de voz podem escolher entre rodar agentes em plataformas full stack (como Retell, Vapi, Bland) ou montar a stack por conta própria. Há alguns fatores principais nessa decisão: Complexity (complexidade) Players full stack oferecem uma forma mais simples de construir agentes de voz, abstraindo a complexidade do lado da infraestrutura Ainda assim, isso deixa espaço para customização e tuning, como plugar prompts ou documentos de conhecimento (RAG) no LLM Flexibility (flexibilidade) Fundadores que estão construindo para mercados verticais e casos de uso específicos provavelmente vão querer o máximo de flexibilidade possível sobre como cada camada da stack funciona/é executada Isso também pode ser combinado com a busca por menor latência possível Cost (custo) Provedores full stack podem introduzir um custo adicional por chamada, embora também possam negociar preços melhores com volume Em agentes de voz em escala, alguns centavos por chamada podem fazer diferença Control (controle) Quando algo dá errado, fundadores de agentes de voz precisam conseguir rastrear e resolver o problema imediatamente, especialmente em casos de uso sensíveis Também pode ser necessário ter máxima visibilidade sobre como cada camada está funcionando Isso pode ser mais fácil com uma stack montada por conta própria Principais players da stack Full Stack (full stack) : hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI Emotion (emoção) : hume Text to Speech (texto para fala) : ElevenLabs, Azure Speech to Text (fala para texto) : Deepgram, Whisper, AssemblyAI, Azure Streaming (streaming) : LiveKit, daily Nossa visão sobre agentes B2B A evolução da voz com IA Estamos fazendo a transição da voz com IA 1.0 (árvores telefônicas) para a era da voz com IA 2.0 (baseada em LLM) Empresas 2.0 começaram a surgir nos últimos 6 meses As empresas 1.0 podem ser mais precisas agora, mas no longo prazo a abordagem 2.0 será muito mais escalável e precisa A necessidade de modelos especializados por mercado vertical Não haverá um único modelo ou plataforma horizontal aplicável a todos os tipos de agentes de voz corporativos Há algumas diferenças importantes entre mercados verticais: Tipo, tom e estrutura das chamadas Integrações e processos GTM e "killer feature" Isso pode significar uma explosão de agentes verticais altamente opinativos na UI Para isso, será necessário um time fundador com expertise ou forte interesse nesse domínio As oportunidades mais próximas O TAM é grande para empresas intensivas em mão de obra As oportunidades mais imediatas podem estar em setores que: Dependem totalmente de agendamentos por telefone Sofrem com escassez severa de mão de obra Têm baixa complexidade nas chamadas À medida que os agentes ficarem mais sofisticados, poderão lidar com chamadas mais complexas Evolução dos agentes B2B Processo evolutivo IVR (Interactive Voice Response) : modelo tradicional por toque no teclado, no qual o agente oferece ao consumidor uma série de opções (1 para vendas, 2 para suporte ao cliente etc.) e o direciona com base nisso AI 1.0 (Phone Trees) : uma versão mais flexível e intuitiva do IVR, em que o consumidor fala em linguagem natural e o agente tenta guiá-lo por uma série de fluxos de conversa AI 2.0 (LLMs) : conversas em formato livre, nas quais a IA não tenta encaixar o que a pessoa diz em opções pré-definidas Muitas empresas de agentes de voz estão adotando uma abordagem vertical por setor específico (ex.: serviços automotivos) ou por tipo específico de tarefa (ex.: agendamento de compromissos). Isso ocorre por alguns motivos: Dificuldade de execução O padrão de qualidade para entregar chamadas à IA é alto, e o fluxo de conversa (assim como os workflows de backend do lado do cliente) pode rapidamente ficar complexo ou muito específico Empresas que constroem os "casos de exceção" desses mercados verticais têm mais chance de sucesso (ex.: vocabulário próprio que um modelo genérico pode interpretar mal) Regulamentação e licenciamento Algumas empresas de agentes de voz enfrentam restrições especiais, certificações necessárias etc. O exemplo clássico é o setor de saúde (ex.: conformidade com HIPAA), mas isso também aparece em categorias como vendas, onde há regulação nacional para cold calling com IA Integrações Em algumas categorias, entregar bem a experiência do usuário (tanto para a empresa quanto para o consumidor) pode exigir integrações long tail ou especializadas. Isso não vale a pena construir a menos que se esteja lidando com um caso de uso específico Entrada em outros softwares A voz pode entrar naturalmente em comportamentos centrais do cliente, como agendamento, renovação, orçamento etc. Em alguns casos, isso pode servir como porta de entrada para uma plataforma SaaS vertical mais ampla para essas empresas, especialmente quando a base de clientes ainda opera offline Agentes B2B: onde vemos oportunidade Baseados em LLM — mas não necessariamente 100% automatizados desde o primeiro dia A forma "forte" dos agentes de voz com IA será uma conversa totalmente guiada por LLM, e não uma abordagem de IVR ou árvore telefônica Porém, como os LLMs ainda não são 100% confiáveis em todo o processo, é provável que haja, ao menos temporariamente, "human-in-the-loop" em transações maiores ou mais sensíveis Isso também torna workflows específicos por mercado vertical especialmente importantes, pois ajudam a maximizar a taxa de sucesso, minimizar edge cases e reduzir a interferência humana Tuning de modelo customizado vs. prompting na abordagem com LLM Agentes de voz B2B precisam lidar com conversas especializadas (ou específicas de um mercado vertical), para as quais um LLM genérico provavelmente será insuficiente Muitas empresas estão ajustando modelos por cliente (usando algumas centenas ou poucos milhares de pontos de dados) e podem extrapolar isso para um modelo base para a empresa toda O ajuste customizado para clientes corporativos também pode continuar Observação: algumas empresas podem ajustar um modelo "genérico" (usado em toda a base de clientes) para um caso de uso específico e depois usar prompting por cliente Time técnico com expertise de domínio Dada a complexidade, ter bagagem prévia em IA provavelmente ajuda a construir e escalar agentes de voz B2B de alta qualidade Mas entender como empacotar o produto e criar uma cunha em um mercado vertical também pode ser igualmente importante, já que isso exige expertise de domínio ou forte interesse Não é preciso ter doutorado em IA para construir e lançar agentes de voz corporativos! Visão afiada sobre integrações + ecossistema De forma semelhante ao ponto acima, compradores de cada mercado vertical costumam querer ver certos recursos ou integrações específicos antes de comprar Na prática, isso pode ser o que faz a avaliação do produto subir de "útil" para "mágico" Esse é mais um motivo pelo qual faz sentido começar de forma bastante verticalizada Movimento "enterprise-grade" ou forte de product-led growth (PLG) Em mercados verticais nos quais uma fatia significativa da receita está concentrada nas maiores empresas/fornecedores, companhias de agentes de voz podem começar pelas grandes contas e, depois, "descer" para PMEs com um produto self-service Clientes PME querem muito essa solução e estão dispostos a testar diferentes opções, mas podem não gerar dados em escala/qualidade suficientes para que a startup ajuste o modelo a nível enterprise Nossa visão sobre agentes B2C Diferenças em relação ao B2B No B2B, agentes de voz substituem principalmente chamadas telefônicas existentes para completar uma tarefa específica No caso de agentes para o consumidor, é o usuário que precisa escolher continuar engajado, o que é difícil porque interagir por voz nem sempre é conveniente Isso significa que o nível exigido do produto é "mais alto" Primeiras áreas de aplicação A primeira e mais óbvia área de aplicação para agentes de voz voltados ao consumidor é substituir, com IA, serviços humanos caros ou de difícil acesso Isso inclui tudo que é baseado em conversa e pode ser realizado virtualmente, como terapia, coaching, tutoria etc. Possibilidades futuras Mas acreditamos que a verdadeira magia dos agentes de voz B2C ainda está por vir! Estamos procurando produtos que usem o poder da voz para viabilizar novos tipos de "conversa" que antes não existiam Isso pode reinventar o formato de serviços existentes ou criar serviços totalmente novos Imitação de conexão humana Em produtos que acertam na UX, agentes de voz oferecem a chance de envolver consumidores em um nível que o software nunca mostrou antes Isso equivale a realmente imitar a conexão humana Isso pode aparecer como o próprio agente sendo o produto, ou como um modo de voz dentro de um produto mais amplo Evolução dos agentes B2C Até agora, os agentes de voz de IA para consumo dominantes vieram de grandes empresas, como ChatGPT Voice e o app Pi, da Inflection. Há alguns motivos para a voz para consumidores ter demorado a surgir: Vantagem das grandes empresas Grandes empresas já têm distribuição para consumidores e modelos de ponta em precisão, latência etc. Não é fácil oferecer voz em grande escala, especialmente considerando o lançamento recente do GPT-4o Dificuldade de adoção de um novo comportamento Enquanto agentes de voz B2B apenas "pluguam" IA em processos existentes, agentes de voz B2C exigem que o usuário adote um novo comportamento Isso pode exigir um produto mais lento ou mais mágico Percepção negativa sobre a IA de voz existente Consumidores podem não se sentir motivados a experimentar novos apps porque experiências com produtos como Siri deixaram uma impressão negativa sobre IA de voz Produtos de base ampla já cobrem os casos de uso básicos Produtos de base ampla geralmente já conseguem oferecer os casos de uso básicos da IA de voz, como tutoria, companhia etc. Startups de voz B2C estão começando a criar casos de uso ou experiências que ChatGPT, Pi etc. não atenderão Agentes B2C: onde vemos oportunidade Uma visão forte sobre por que a voz é necessária Estamos animados com produtos e fundadores que têm uma visão clara sobre como a voz traz valor único ao produto Não é simplesmente "voz por voz" Em muitos casos, a interface de voz é até pior do que a de texto, porque é mais inconveniente para consumir e extrair informação Uma visão forte sobre por que voz em tempo real é necessária A voz já é difícil de consumir; a voz em tempo real é ainda mais difícil (em comparação com mensagens de voz assíncronas) Estamos animados com fundadores que têm uma visão sobre por que o produto deles precisa ser construído em torno de conversas em tempo real Talvez para companhia em nível humano, ambientes de prática etc. Não similaridade com o "produto" pré-IA Suspeitamos que a forma forte do produto não será uma simples transposição direta de conversas humanas prévias, nas quais agentes de voz com IA apenas substituem provedores humanos Primeiro, porque é difícil alcançar esse padrão Mais importante ainda, porque há uma oportunidade de usar IA para entregar o mesmo valor de forma melhor (mais eficiente, mais agradável) Verticalização em que a qualidade do modelo não define os vencedores Os principais produtos de IA de consumo generalista (ChatGPT, Pi, Claude) têm modos de voz de alta qualidade Eles conseguem participar de forma significativa em muitos tipos de conversa e interação Como hospedam seus próprios modelos e stacks, no curto prazo eles provavelmente vencerão em latência e fluxo de conversa Esperamos que startups tenham sucesso das seguintes maneiras: Ajustando ou fazendo tuning para tipos específicos de conversa, ou Construindo uma UI que forneça mais contexto e valor à experiência com agentes de voz (ex.: acompanhar progresso ao longo do tempo, conduzir a conversa/experiência de forma opinativa)

(a16z.com)

12 pontos por xguru 2024-06-12 | 1 comentários | Compartilhar no WhatsApp

Graças à IA generativa, no futuro os humanos não precisarão mais fazer ligações telefônicas
As pessoas só vão dedicar tempo a chamadas telefônicas quando isso realmente tiver valor

Benefícios para as empresas

Redução de tempo e de custos de mão de obra causados por operadores humanos
Possibilidade de realocar recursos para aumentar a geração de receita
Redução de risco com uma experiência do cliente mais padronizada e consistente

Benefícios para os consumidores

Agentes de voz podem oferecer um serviço em nível humano sem a necessidade de pagar ou fazer um "match" com uma pessoa real
- Hoje isso inclui terapeutas, coaches, companheiros etc.
- No futuro, isso provavelmente abrangerá uma gama muito mais ampla de experiências construídas em torno da voz
Como na maioria dos outros softwares de consumo, é impossível prever quem serão os "vencedores"

A chamada telefônica é a API para se comunicar com o mundo, e a IA eleva isso a outro nível

Onde parece haver oportunidade

Há oportunidades enormes em cada camada, como players de infraestrutura, interfaces para o consumidor e agentes corporativos
No caso de agentes de voz B2C e B2B, há algumas hipóteses sobre os produtos emergentes mais interessantes:

Principais características de agentes de voz B2B e B2C

Built to scale (construído para escalar)
- Latência e experiência de conversa ainda não estão resolvidas
- Estamos procurando fundadores com opiniões fortes sobre como construir agentes
- Trabalhando para maximizar o que é mais importante no agente (velocidade, precisão, tom/emoção etc.)
Vertically focused (foco vertical)
- Podem ser agentes executores que dependem de modelos ajustados de forma única e de integrações estreitas para um caso de uso específico
- Isso é mais fácil de construir, lançar no mercado e fazer crescer com sucesso
Realistic in scope (realista em escopo)
- Delegar totalmente à IA chamadas importantes é um grande desafio
- Esperamos que, no curto prazo, empresas de agentes de voz façam trabalhos que não escalam
- Isso pode incluir ajuste por cliente ou transferência da chamada para agentes humanos na etapa final

A stack para construir agentes de voz

Para um agente de voz funcionar, é necessário:
- Capturar a fala humana (ASR)
- Processar essa entrada com um LLM e retornar uma saída
- Falar de volta para o humano (TTS)
Novos modelos multimodais, como o GPT-4o, podem mudar a estrutura da stack ao "executar" várias dessas camadas ao mesmo tempo por meio de um único modelo
- Isso pode reduzir latência e custo, além de oferecer uma interface conversacional mais natural
- Muitos agentes ainda não alcançaram uma qualidade realmente humana com a stack composta abaixo
Em algumas empresas/abordagens, um LLM ou uma série de LLMs cuida do fluxo da conversa e da emoção. Em outros casos, há mecanismos próprios para adicionar emoção, gerenciar interrupções etc.
- Provedores de voz "full stack" oferecem tudo isso em um só lugar.
Aplicativos de consumo (B2C) e corporativos (B2B) ficam em cima dessa stack.
Mesmo usando provedores de terceiros, os apps normalmente plugam um LLM customizado, que muitas vezes também atua como mecanismo de conversa.

Full stack vs. montar por conta própria: comparação dos principais fatores

Fundadores de agentes de voz podem escolher entre rodar agentes em plataformas full stack (como Retell, Vapi, Bland) ou montar a stack por conta própria.
Há alguns fatores principais nessa decisão:
- Complexity (complexidade)
  - Players full stack oferecem uma forma mais simples de construir agentes de voz, abstraindo a complexidade do lado da infraestrutura
  - Ainda assim, isso deixa espaço para customização e tuning, como plugar prompts ou documentos de conhecimento (RAG) no LLM
- Flexibility (flexibilidade)
  - Fundadores que estão construindo para mercados verticais e casos de uso específicos provavelmente vão querer o máximo de flexibilidade possível sobre como cada camada da stack funciona/é executada
  - Isso também pode ser combinado com a busca por menor latência possível
- Cost (custo)
  - Provedores full stack podem introduzir um custo adicional por chamada, embora também possam negociar preços melhores com volume
  - Em agentes de voz em escala, alguns centavos por chamada podem fazer diferença
- Control (controle)
  - Quando algo dá errado, fundadores de agentes de voz precisam conseguir rastrear e resolver o problema imediatamente, especialmente em casos de uso sensíveis
  - Também pode ser necessário ter máxima visibilidade sobre como cada camada está funcionando
  - Isso pode ser mais fácil com uma stack montada por conta própria
Principais players da stack
- Full Stack (full stack) : hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
- Emotion (emoção) : hume
- Text to Speech (texto para fala) : ElevenLabs, Azure
- Speech to Text (fala para texto) : Deepgram, Whisper, AssemblyAI, Azure
- Streaming (streaming) : LiveKit, daily

Nossa visão sobre agentes B2B

A evolução da voz com IA

Estamos fazendo a transição da voz com IA 1.0 (árvores telefônicas) para a era da voz com IA 2.0 (baseada em LLM)
Empresas 2.0 começaram a surgir nos últimos 6 meses
As empresas 1.0 podem ser mais precisas agora, mas no longo prazo a abordagem 2.0 será muito mais escalável e precisa

A necessidade de modelos especializados por mercado vertical

Não haverá um único modelo ou plataforma horizontal aplicável a todos os tipos de agentes de voz corporativos
Há algumas diferenças importantes entre mercados verticais:
1. Tipo, tom e estrutura das chamadas
2. Integrações e processos
3. GTM e "killer feature"
Isso pode significar uma explosão de agentes verticais altamente opinativos na UI
Para isso, será necessário um time fundador com expertise ou forte interesse nesse domínio

As oportunidades mais próximas

O TAM é grande para empresas intensivas em mão de obra
As oportunidades mais imediatas podem estar em setores que:
- Dependem totalmente de agendamentos por telefone
- Sofrem com escassez severa de mão de obra
- Têm baixa complexidade nas chamadas
À medida que os agentes ficarem mais sofisticados, poderão lidar com chamadas mais complexas

Evolução dos agentes B2B

Processo evolutivo
- IVR (Interactive Voice Response) : modelo tradicional por toque no teclado, no qual o agente oferece ao consumidor uma série de opções (1 para vendas, 2 para suporte ao cliente etc.) e o direciona com base nisso
- AI 1.0 (Phone Trees) : uma versão mais flexível e intuitiva do IVR, em que o consumidor fala em linguagem natural e o agente tenta guiá-lo por uma série de fluxos de conversa
- AI 2.0 (LLMs) : conversas em formato livre, nas quais a IA não tenta encaixar o que a pessoa diz em opções pré-definidas
Muitas empresas de agentes de voz estão adotando uma abordagem vertical por setor específico (ex.: serviços automotivos) ou por tipo específico de tarefa (ex.: agendamento de compromissos). Isso ocorre por alguns motivos:
- Dificuldade de execução
  - O padrão de qualidade para entregar chamadas à IA é alto, e o fluxo de conversa (assim como os workflows de backend do lado do cliente) pode rapidamente ficar complexo ou muito específico
  - Empresas que constroem os "casos de exceção" desses mercados verticais têm mais chance de sucesso (ex.: vocabulário próprio que um modelo genérico pode interpretar mal)
- Regulamentação e licenciamento
  - Algumas empresas de agentes de voz enfrentam restrições especiais, certificações necessárias etc.
  - O exemplo clássico é o setor de saúde (ex.: conformidade com HIPAA), mas isso também aparece em categorias como vendas, onde há regulação nacional para cold calling com IA
- Integrações
  - Em algumas categorias, entregar bem a experiência do usuário (tanto para a empresa quanto para o consumidor) pode exigir integrações long tail ou especializadas. Isso não vale a pena construir a menos que se esteja lidando com um caso de uso específico
- Entrada em outros softwares
  - A voz pode entrar naturalmente em comportamentos centrais do cliente, como agendamento, renovação, orçamento etc.
  - Em alguns casos, isso pode servir como porta de entrada para uma plataforma SaaS vertical mais ampla para essas empresas, especialmente quando a base de clientes ainda opera offline

Agentes B2B: onde vemos oportunidade

Baseados em LLM — mas não necessariamente 100% automatizados desde o primeiro dia

A forma "forte" dos agentes de voz com IA será uma conversa totalmente guiada por LLM, e não uma abordagem de IVR ou árvore telefônica
Porém, como os LLMs ainda não são 100% confiáveis em todo o processo, é provável que haja, ao menos temporariamente, "human-in-the-loop" em transações maiores ou mais sensíveis
Isso também torna workflows específicos por mercado vertical especialmente importantes, pois ajudam a maximizar a taxa de sucesso, minimizar edge cases e reduzir a interferência humana

Tuning de modelo customizado vs. prompting na abordagem com LLM

Agentes de voz B2B precisam lidar com conversas especializadas (ou específicas de um mercado vertical), para as quais um LLM genérico provavelmente será insuficiente
Muitas empresas estão ajustando modelos por cliente (usando algumas centenas ou poucos milhares de pontos de dados) e podem extrapolar isso para um modelo base para a empresa toda
O ajuste customizado para clientes corporativos também pode continuar
- Observação: algumas empresas podem ajustar um modelo "genérico" (usado em toda a base de clientes) para um caso de uso específico e depois usar prompting por cliente

Time técnico com expertise de domínio

Dada a complexidade, ter bagagem prévia em IA provavelmente ajuda a construir e escalar agentes de voz B2B de alta qualidade
Mas entender como empacotar o produto e criar uma cunha em um mercado vertical também pode ser igualmente importante, já que isso exige expertise de domínio ou forte interesse
Não é preciso ter doutorado em IA para construir e lançar agentes de voz corporativos!

Visão afiada sobre integrações + ecossistema

De forma semelhante ao ponto acima, compradores de cada mercado vertical costumam querer ver certos recursos ou integrações específicos antes de comprar
Na prática, isso pode ser o que faz a avaliação do produto subir de "útil" para "mágico"
Esse é mais um motivo pelo qual faz sentido começar de forma bastante verticalizada

Movimento "enterprise-grade" ou forte de product-led growth (PLG)

Em mercados verticais nos quais uma fatia significativa da receita está concentrada nas maiores empresas/fornecedores, companhias de agentes de voz podem começar pelas grandes contas e, depois, "descer" para PMEs com um produto self-service
Clientes PME querem muito essa solução e estão dispostos a testar diferentes opções, mas podem não gerar dados em escala/qualidade suficientes para que a startup ajuste o modelo a nível enterprise

Nossa visão sobre agentes B2C

Diferenças em relação ao B2B

No B2B, agentes de voz substituem principalmente chamadas telefônicas existentes para completar uma tarefa específica
No caso de agentes para o consumidor, é o usuário que precisa escolher continuar engajado, o que é difícil porque interagir por voz nem sempre é conveniente
Isso significa que o nível exigido do produto é "mais alto"

Primeiras áreas de aplicação

A primeira e mais óbvia área de aplicação para agentes de voz voltados ao consumidor é substituir, com IA, serviços humanos caros ou de difícil acesso
Isso inclui tudo que é baseado em conversa e pode ser realizado virtualmente, como terapia, coaching, tutoria etc.

Possibilidades futuras

Mas acreditamos que a verdadeira magia dos agentes de voz B2C ainda está por vir!
Estamos procurando produtos que usem o poder da voz para viabilizar novos tipos de "conversa" que antes não existiam
Isso pode reinventar o formato de serviços existentes ou criar serviços totalmente novos

Imitação de conexão humana

Em produtos que acertam na UX, agentes de voz oferecem a chance de envolver consumidores em um nível que o software nunca mostrou antes
Isso equivale a realmente imitar a conexão humana
Isso pode aparecer como o próprio agente sendo o produto, ou como um modo de voz dentro de um produto mais amplo

Evolução dos agentes B2C

Até agora, os agentes de voz de IA para consumo dominantes vieram de grandes empresas, como ChatGPT Voice e o app Pi, da Inflection.
Há alguns motivos para a voz para consumidores ter demorado a surgir:

Vantagem das grandes empresas

Grandes empresas já têm distribuição para consumidores e modelos de ponta em precisão, latência etc.
Não é fácil oferecer voz em grande escala, especialmente considerando o lançamento recente do GPT-4o

Dificuldade de adoção de um novo comportamento

Enquanto agentes de voz B2B apenas "pluguam" IA em processos existentes, agentes de voz B2C exigem que o usuário adote um novo comportamento
Isso pode exigir um produto mais lento ou mais mágico

Percepção negativa sobre a IA de voz existente

Consumidores podem não se sentir motivados a experimentar novos apps porque experiências com produtos como Siri deixaram uma impressão negativa sobre IA de voz

Produtos de base ampla já cobrem os casos de uso básicos

Produtos de base ampla geralmente já conseguem oferecer os casos de uso básicos da IA de voz, como tutoria, companhia etc.
Startups de voz B2C estão começando a criar casos de uso ou experiências que ChatGPT, Pi etc. não atenderão

Agentes B2C: onde vemos oportunidade

Uma visão forte sobre por que a voz é necessária

Estamos animados com produtos e fundadores que têm uma visão clara sobre como a voz traz valor único ao produto
Não é simplesmente "voz por voz"
Em muitos casos, a interface de voz é até pior do que a de texto, porque é mais inconveniente para consumir e extrair informação

Uma visão forte sobre por que voz em tempo real é necessária

A voz já é difícil de consumir; a voz em tempo real é ainda mais difícil (em comparação com mensagens de voz assíncronas)
Estamos animados com fundadores que têm uma visão sobre por que o produto deles precisa ser construído em torno de conversas em tempo real
Talvez para companhia em nível humano, ambientes de prática etc.

Não similaridade com o "produto" pré-IA

Suspeitamos que a forma forte do produto não será uma simples transposição direta de conversas humanas prévias, nas quais agentes de voz com IA apenas substituem provedores humanos
Primeiro, porque é difícil alcançar esse padrão
Mais importante ainda, porque há uma oportunidade de usar IA para entregar o mesmo valor de forma melhor (mais eficiente, mais agradável)

Verticalização em que a qualidade do modelo não define os vencedores

Os principais produtos de IA de consumo generalista (ChatGPT, Pi, Claude) têm modos de voz de alta qualidade
Eles conseguem participar de forma significativa em muitos tipos de conversa e interação
Como hospedam seus próprios modelos e stacks, no curto prazo eles provavelmente vencerão em latência e fluxo de conversa

Esperamos que startups tenham sucesso das seguintes maneiras:

Ajustando ou fazendo tuning para tipos específicos de conversa, ou
Construindo uma UI que forneça mais contexto e valor à experiência com agentes de voz
- (ex.: acompanhar progresso ao longo do tempo, conduzir a conversa/experiência de forma opinativa)

1 comentários

bus710 2024-06-13

Tive a oportunidade de ver de perto a equipe de integration de uma empresa enterprise, e pude acompanhar em tempo real um projeto semelhante ao conteúdo do texto.

O objetivo inicial era automatizar o CS por meio do AWS Connect, mas depois também passaram a fazer processamento distribuído de tráfego e até a participar do planejamento de serviços especiais para clientes VVIP... Também é interessante ver esse escopo crescer aos poucos.

No fim das contas, a diretriz do serviço era, sinceramente, fazer com que os clientes que não dão muito retorno fossem atendidos o máximo possível por bots de resposta automática, enquanto os clientes com depósitos maiores fossem contatados diretamente por agentes humanos o mais rápido possível. Acho que é uma parte inevitável, né haha