Além dos bots: agentes de IA lideram a próxima onda de automação empresarial

xguru · 2024-10-07T11:21:01+09:00

Todos os empregos podem ser vistos como conjuntos de tarefas compartilhados entre humanos e máquinas Embora o software esteja assumindo cada vez mais tarefas, a maioria dos processos de negócios ainda continua sob responsabilidade humana Espera-se que os agentes de IA mudem de forma decisiva esse equilíbrio de trabalho Diferentemente das gerações anteriores de software, eles podem automatizar dinamicamente processos end-to-end por meio de uma nova arquitetura cognitiva Não se trata apenas de uma IA que lê e escreve, mas de uma IA capaz de decidir o fluxo da lógica da aplicação e agir em nome do usuário, representando a maior oportunidade dos LLMs dentro das empresas Isso não é só RPA? : limites e problemas do RPA Isso pode soar familiar, porque UiPath e Zapier vêm vendendo uma visão parecida nos últimos 10 anos sob o nome de "bot automation" A UiPath, gigante de RPA, automatiza processos como extração de informações de documentos, movimentação de pastas, preenchimento de formulários e atualização de bancos de dados ao registrar ações do usuário e imitar etapas sequenciais por meio de screen scraping e automação de GUI Depois disso, provedores de iPaaS como a Zapier introduziram uma abordagem mais leve de "automação por API", mas, ao contrário da UiPath, com escopo limitado à automação de aplicações web UiPath e Zapier provaram a existência de um mercado para plataformas horizontais de automação componíveis e baseadas em regras, voltadas a resolver a long tail dos processos corporativos existentes dentro e entre sistemas de software específicos de departamentos ou setores No entanto, à medida que as empresas ampliam a automação baseada em bots, começou a ficar evidente a distância entre a capacidade das arquiteturas existentes e a autonomia prometida Ainda exige muita mão de obra e trabalho manual. O processo de construir e manter automações continua dolorosamente manual A automação de UI é frágil ou a integração por API é limitada. A automação de UI frequentemente quebra quando a interface do software muda, e as APIs são mais estáveis, mas têm bem menos integração com softwares legados ou on-premise Não consegue lidar com dados não estruturados. 80% dos dados corporativos são não estruturados ou semiestruturados, mas automações baseadas em sequência não conseguem trabalhar com esses dados de forma inteligente Mesmo quando tentam integrar LLMs, as soluções tradicionais de RPA e iPaaS continuam algemadas a arquiteturas determinísticas O Autopilot da UiPath e o AI Actions da Zapier oferecem LLMs apenas para padrões de design de subagentes, como texto-para-ação ou nós para busca semântica, síntese e geração one-shot Esses recursos de IA podem ser poderosos, mas ainda deixam de lado os casos de uso mais transformadores dos LLMs na automação de processos Agentes de IA são fundamentalmente diferentes como motores de decisão Diferentemente dos bots de RPA atuais ou de apps de RAG, os agentes ocupam o centro do fluxo de controle da aplicação como motores de decisão Pela primeira vez, eles tornam possíveis adaptabilidade, ações em múltiplas etapas, raciocínio complexo e tratamento robusto de exceções Para explicar isso com um exemplo de reconciliação de faturas (Invoice Reconciliation), em um diagrama simplificado do processo de conciliar um novo PDF de fatura com o razão geral da empresa, a complexidade do workflow rapidamente se torna difícil de administrar Mesmo dentro dos três primeiros conjuntos de decisões, torna-se quase impossível considerar todas as situações excepcionais relevantes Bots de RPA que executam esse workflow como robôs frequentemente falham e muitas vezes escalam para humanos casos com correspondências parciais ou itens ausentes Porém, ao aplicar um agente ao mesmo workflow, o desempenho é muito superior Adaptação a novas situações: com base em raciocínio básico e no contexto de negócio relevante, ele pode reconhecer e se adaptar de forma inteligente a novas fontes de dados, formatos de fatura, convenções de nomenclatura, números de conta, mudanças de política etc. Capacidade de executar tarefas em múltiplas etapas: se o valor da fatura não bater, ele pode investigar em várias etapas, como verificar e-mails recentes do fornecedor para confirmar uma possível alteração de preço Demonstração de raciocínio complexo: ao conciliar a fatura de um fornecedor internacional com o razão, é preciso buscar e calcular em conjunto vários fatores, como moeda da fatura, moeda do razão, data da transação, flutuação cambial, tarifas transfronteiriças e taxas bancárias. Um agente pode executar esse tipo de inteligência, enquanto um bot de RPA pode escalar o caso para uma pessoa Consideração de incerteza: para exceções como erro de arredondamento em itens individuais ou números ilegíveis, ele pode tratar o caso com robustez com base em contexto como correspondência do valor total do pedido, histórico e frequência de faturas passadas Panorama do mercado de agentes de IA Agentes de IA já não são mais ficção científica. De startups a empresas da Fortune 500, essas organizações já estão comprando e usando esses sistemas em escala Hoje, o mercado de agentes pode ser visualizado em duas dimensões principais: especificidade de domínio e autonomia do LLM Especificidade de domínio: vai de agentes especializados para setores verticais ou departamentos, como saúde ou suporte ao cliente, até plataformas horizontais de agentes com funções amplas e genéricas Autonomia do LLM: representa o grau em que o modelo de linguagem consegue planejar e direcionar de forma independente a lógica da aplicação No canto superior direito desse mapa de mercado estão os agentes mais horizontais e generalizáveis Agente empresarial: plataforma escalável para construir e gerenciar agentes em várias funções e workflows por meio de SOPs em linguagem natural ou regras semelhantes às dadas a um novo funcionário. A maioria usa uma arquitetura de "agent on rails", em que cada novo processo precisa ancorar o agente em um conjunto predefinido de tarefas, contexto de negócio e guardrails Agente de navegador: segue um design de "agente geral de IA", utilizando vision transformers treinados em diferentes interfaces de software e bases de código subjacentes para automatizar navegação web, tarefas visuais de UI, entrada de texto etc. Em geral, ganha em generalização, mas tende a sacrificar consistência Serviços baseados em IA: como fazer um design de "agent on rails" funcionar de verdade exige ampla infraestrutura de dados e guardrails, empresas como Distyl e Agnetic oferecem serviços de engenharia forward-deployed para fechar essa lacuna com os clientes, em um modelo "Palantir for AI" Porém, nem todos os agentes buscam ser horizontais e generalizáveis. Há um número crescente de agentes específicos de domínio e de workflow, capazes de elevar a confiabilidade ao limitar o tipo de problema Agente vertical: as oportunidades mais promissoras estão em processos manuais e procedimentais, conduzidos por pessoas com base em SOPs ou regras. Categorias representativas incluem suporte ao cliente, recrutamento, tarefas de desenvolvimento de software como revisão/teste/manutenção de código, cold sales e operações de segurança Assistente de IA: outra forma de estreitar o foco do agente é por especificidade de tarefa, e não de domínio. Diferentemente dos processos complexos end-to-end tratados por agentes empresariais e verticais, ele executa tarefas mais simples e voltadas à produtividade Embora não sejam agentes em si, soluções de IA generativa construídas em torno de arquiteturas de RAG às vezes competem pelo mesmo orçamento e workflow que soluções baseadas em agentes IA vertical: a plataforma de automação em saúde Tennr processa encaminhamentos ao extrair dados não estruturados de várias fontes, como fax, PDF e telefone, e inseri-los no EHR da clínica, eliminando a necessidade de entrada manual pelos funcionários RAG-as-a-Service: empresas como Danswer e Gradient permitem que clientes consultem fontes de dados não estruturadas, como PDFs, extraiam dados e os insiram em bancos de dados ou sistemas mais estruturados Busca corporativa: Glean, Perplexity e Sana oferecem consultas semânticas para indexar e buscar documentos conceitualmente relacionados, ajudando a gerenciar melhor o conhecimento em toda a organização e a desmontar silos de dados O futuro da automação empresarial A segunda onda da IA generativa será definida não por sistemas que apenas leem e escrevem, mas por agentes capazes de pensar e agir em nome do usuário À medida que essas arquiteturas amadurecem, elas se tornarão um forte catalisador para a tomada da economia de serviços pela IA

(menlovc.com)

9 pontos por xguru 2024-10-07 | Ainda não há comentários. | Compartilhar no WhatsApp

Todos os empregos podem ser vistos como conjuntos de tarefas compartilhados entre humanos e máquinas
Embora o software esteja assumindo cada vez mais tarefas, a maioria dos processos de negócios ainda continua sob responsabilidade humana
Espera-se que os agentes de IA mudem de forma decisiva esse equilíbrio de trabalho
Diferentemente das gerações anteriores de software, eles podem automatizar dinamicamente processos end-to-end por meio de uma nova arquitetura cognitiva
Não se trata apenas de uma IA que lê e escreve, mas de uma IA capaz de decidir o fluxo da lógica da aplicação e agir em nome do usuário, representando a maior oportunidade dos LLMs dentro das empresas

Isso não é só RPA? : limites e problemas do RPA

Isso pode soar familiar, porque UiPath e Zapier vêm vendendo uma visão parecida nos últimos 10 anos sob o nome de "bot automation"
A UiPath, gigante de RPA, automatiza processos como extração de informações de documentos, movimentação de pastas, preenchimento de formulários e atualização de bancos de dados ao registrar ações do usuário e imitar etapas sequenciais por meio de screen scraping e automação de GUI
Depois disso, provedores de iPaaS como a Zapier introduziram uma abordagem mais leve de "automação por API", mas, ao contrário da UiPath, com escopo limitado à automação de aplicações web
UiPath e Zapier provaram a existência de um mercado para plataformas horizontais de automação componíveis e baseadas em regras, voltadas a resolver a long tail dos processos corporativos existentes dentro e entre sistemas de software específicos de departamentos ou setores
No entanto, à medida que as empresas ampliam a automação baseada em bots, começou a ficar evidente a distância entre a capacidade das arquiteturas existentes e a autonomia prometida
- Ainda exige muita mão de obra e trabalho manual. O processo de construir e manter automações continua dolorosamente manual
- A automação de UI é frágil ou a integração por API é limitada. A automação de UI frequentemente quebra quando a interface do software muda, e as APIs são mais estáveis, mas têm bem menos integração com softwares legados ou on-premise
- Não consegue lidar com dados não estruturados. 80% dos dados corporativos são não estruturados ou semiestruturados, mas automações baseadas em sequência não conseguem trabalhar com esses dados de forma inteligente
Mesmo quando tentam integrar LLMs, as soluções tradicionais de RPA e iPaaS continuam algemadas a arquiteturas determinísticas
- O Autopilot da UiPath e o AI Actions da Zapier oferecem LLMs apenas para padrões de design de subagentes, como texto-para-ação ou nós para busca semântica, síntese e geração one-shot
Esses recursos de IA podem ser poderosos, mas ainda deixam de lado os casos de uso mais transformadores dos LLMs na automação de processos

Agentes de IA são fundamentalmente diferentes como motores de decisão

Diferentemente dos bots de RPA atuais ou de apps de RAG, os agentes ocupam o centro do fluxo de controle da aplicação como motores de decisão
Pela primeira vez, eles tornam possíveis adaptabilidade, ações em múltiplas etapas, raciocínio complexo e tratamento robusto de exceções
Para explicar isso com um exemplo de reconciliação de faturas (Invoice Reconciliation), em um diagrama simplificado do processo de conciliar um novo PDF de fatura com o razão geral da empresa, a complexidade do workflow rapidamente se torna difícil de administrar
- Mesmo dentro dos três primeiros conjuntos de decisões, torna-se quase impossível considerar todas as situações excepcionais relevantes
- Bots de RPA que executam esse workflow como robôs frequentemente falham e muitas vezes escalam para humanos casos com correspondências parciais ou itens ausentes
Porém, ao aplicar um agente ao mesmo workflow, o desempenho é muito superior
- Adaptação a novas situações: com base em raciocínio básico e no contexto de negócio relevante, ele pode reconhecer e se adaptar de forma inteligente a novas fontes de dados, formatos de fatura, convenções de nomenclatura, números de conta, mudanças de política etc.
- Capacidade de executar tarefas em múltiplas etapas: se o valor da fatura não bater, ele pode investigar em várias etapas, como verificar e-mails recentes do fornecedor para confirmar uma possível alteração de preço
- Demonstração de raciocínio complexo: ao conciliar a fatura de um fornecedor internacional com o razão, é preciso buscar e calcular em conjunto vários fatores, como moeda da fatura, moeda do razão, data da transação, flutuação cambial, tarifas transfronteiriças e taxas bancárias. Um agente pode executar esse tipo de inteligência, enquanto um bot de RPA pode escalar o caso para uma pessoa
- Consideração de incerteza: para exceções como erro de arredondamento em itens individuais ou números ilegíveis, ele pode tratar o caso com robustez com base em contexto como correspondência do valor total do pedido, histórico e frequência de faturas passadas

Panorama do mercado de agentes de IA

Agentes de IA já não são mais ficção científica. De startups a empresas da Fortune 500, essas organizações já estão comprando e usando esses sistemas em escala
Hoje, o mercado de agentes pode ser visualizado em duas dimensões principais: especificidade de domínio e autonomia do LLM
- Especificidade de domínio: vai de agentes especializados para setores verticais ou departamentos, como saúde ou suporte ao cliente, até plataformas horizontais de agentes com funções amplas e genéricas
- Autonomia do LLM: representa o grau em que o modelo de linguagem consegue planejar e direcionar de forma independente a lógica da aplicação
No canto superior direito desse mapa de mercado estão os agentes mais horizontais e generalizáveis
- Agente empresarial: plataforma escalável para construir e gerenciar agentes em várias funções e workflows por meio de SOPs em linguagem natural ou regras semelhantes às dadas a um novo funcionário. A maioria usa uma arquitetura de "agent on rails", em que cada novo processo precisa ancorar o agente em um conjunto predefinido de tarefas, contexto de negócio e guardrails
- Agente de navegador: segue um design de "agente geral de IA", utilizando vision transformers treinados em diferentes interfaces de software e bases de código subjacentes para automatizar navegação web, tarefas visuais de UI, entrada de texto etc. Em geral, ganha em generalização, mas tende a sacrificar consistência
- Serviços baseados em IA: como fazer um design de "agent on rails" funcionar de verdade exige ampla infraestrutura de dados e guardrails, empresas como Distyl e Agnetic oferecem serviços de engenharia forward-deployed para fechar essa lacuna com os clientes, em um modelo "Palantir for AI"
Publicidade
Porém, nem todos os agentes buscam ser horizontais e generalizáveis. Há um número crescente de agentes específicos de domínio e de workflow, capazes de elevar a confiabilidade ao limitar o tipo de problema
- Agente vertical: as oportunidades mais promissoras estão em processos manuais e procedimentais, conduzidos por pessoas com base em SOPs ou regras. Categorias representativas incluem suporte ao cliente, recrutamento, tarefas de desenvolvimento de software como revisão/teste/manutenção de código, cold sales e operações de segurança
- Assistente de IA: outra forma de estreitar o foco do agente é por especificidade de tarefa, e não de domínio. Diferentemente dos processos complexos end-to-end tratados por agentes empresariais e verticais, ele executa tarefas mais simples e voltadas à produtividade
Embora não sejam agentes em si, soluções de IA generativa construídas em torno de arquiteturas de RAG às vezes competem pelo mesmo orçamento e workflow que soluções baseadas em agentes
- IA vertical: a plataforma de automação em saúde Tennr processa encaminhamentos ao extrair dados não estruturados de várias fontes, como fax, PDF e telefone, e inseri-los no EHR da clínica, eliminando a necessidade de entrada manual pelos funcionários
- RAG-as-a-Service: empresas como Danswer e Gradient permitem que clientes consultem fontes de dados não estruturadas, como PDFs, extraiam dados e os insiram em bancos de dados ou sistemas mais estruturados
- Busca corporativa: Glean, Perplexity e Sana oferecem consultas semânticas para indexar e buscar documentos conceitualmente relacionados, ajudando a gerenciar melhor o conhecimento em toda a organização e a desmontar silos de dados

O futuro da automação empresarial

A segunda onda da IA generativa será definida não por sistemas que apenas leem e escrevem, mas por agentes capazes de pensar e agir em nome do usuário
À medida que essas arquiteturas amadurecem, elas se tornarão um forte catalisador para a tomada da economia de serviços pela IA