Agentes de IA: precisam de "mais confiabilidade" do que de "mais recursos"

(sergey.fyi)

5 pontos por GN⁺ 2025-04-01 | 1 comentários | Compartilhar no WhatsApp

Por que reservar voos se tornou o "Hello World" das demos de agentes de IA?
- Os usuários preferem uma UX já pronta (ex.: Google Flights) a ter a IA reservando o voo por eles
- Um único erro pode dar início a um inferno complexo de atendimento ao cliente
- Sistemas intuitivos e previsíveis são, na verdade, mais inovadores
A IA ainda está em estágio inicial, e os usuários em geral esperam consistência e previsibilidade
- Ex.: mesmo com 80% de precisão, se entregar resultados consistentes, isso pode ser aceitável
  Já uma precisão irregular de 90% destrói a confiança
- Muitos projetos de IA ignoram isso e buscam demos chamativas e recursos forçados → no fim, perdem a confiança do usuário
Cada vez mais IDEs estão perdendo transparência
- O usuário não consegue saber o que a IA está fazendo
- Ex.: o caso do Cursor apagando todo o trabalho, que virou assunto no Reddit
  - A falta de prática do usuário com controle de versão também foi um problema, mas a verdadeira causa foi o design de UI/UX
  - Um bom design deve prevenir erros, explicar com clareza o comportamento da IA e oferecer função de desfazer
No início, o Cursor:
- Oferecia interações transparentes e leves com uma interface de tab-complete
- Ganhou popularidade construindo gradualmente a confiança do usuário
- Um design simples e reversível era eficaz para reduzir a desconfiança em relação à IA
Devin, que recebeu US$ 200 milhões em investimento, busca ser um "agente totalmente autônomo"
- Sistemas complexos, respostas lentas e resultados imprevisíveis levaram ao colapso da confiança
- Uma abordagem excessivamente ambiciosa acabou gerando ainda mais confusão para o usuário

Rapidez vs. confiabilidade: o dilema das equipes de desenvolvimento de IA

As equipes de IA precisam escolher entre:
- agir rapidamente e aceitar erros
- priorizar confiabilidade e estabilidade
A resposta é focar em recursos capazes de gerar excelentes resultados em um escopo pequeno e melhorá-los de forma iterativa e contínua

Princípio central: previsibilidade acima da complexidade

É preciso focar em tarefas bem compreendidas em vez de sistemas complexos
Agentes de IA continuam sendo transformadores, mas os três pontos a seguir devem estar no centro:
- confiabilidade
- transparência
- previsibilidade

Workflow vs. agente

A formulação da Anthropic: "Se uma tarefa pode ser expressa como um workflow, então construa um workflow, não um agente"
- Workflows são previsíveis, controláveis e simples
- Agentes são complexos e difíceis de controlar, portanto devem ser usados apenas em situações realmente dinâmicas

1 comentários

GN⁺ 2025-04-01

Opiniões no Hacker News

O agente de "reserva de voos" já virou piada. Isso também foi mencionado no keynote recente do evento de engenharia de IA da Swyx
- Acho que este texto subestima a dificuldade desse problema
- Em UIs onde humanos digitam ou conversam, existe uma possibilidade infinita de erros
- Humanos são ruins em se expressar com clareza e também têm dificuldade para entender exatamente o que um software faz
Pesquisadores do Google DeepMind estão trabalhando para aumentar a confiabilidade dos agentes
- Uma avaliação rigorosa que represente o comportamento dos usuários é importante
- Eles publicaram uma demonstração de raciocínio avançado do agente sobre 80.000 páginas dos arquivos do assassinato de JFK
- Mesmo com uma pequena quantidade de arquivos, a diferença de confiabilidade/precisão em relação aos grandes players de IA é grande
Reserva de voos é uma tarefa que não pode ser delegada à IA
- Em viagens em família ou pessoais, são necessários vários macetes
- Há diversos fatores, como site oficial, comparação de preços, conferência de datas e consideração de pontos de cartão de crédito
Em muitos casos, as pessoas tendem a tentar encaixar a IA em fluxos de trabalho existentes
- Os fluxos de trabalho existentes já têm UX/UI otimizada
- Usar IA pode não ser a solução para resolver o problema
A partir da experiência de uso do Cursor, cheguei à conclusão de que confiabilidade é importante
- A saída de modelos rápidos exige mais correções
- É importante usar bibliotecas específicas de forma clara
Acho que, nos avanços tecnológicos dos últimos 20 anos, confiabilidade é mais importante
- Só precisamos de algumas novas funções, como smartphones, rotas de direção e armazenamento em nuvem
- Agora, o que importa é a duração da bateria e os recursos de controle parental nos dispositivos das crianças
Um comentário em uma thread do Reddit sobre o estado atual da programação com IA resume bem o que sinto
- Novos engenheiros que estão entrando na programação por causa da IA estão deixando passar elementos básicos e essenciais
- Mas ainda assim isso me tranquiliza, porque significa que ainda há espaço para mim
Tenho o princípio de que, se a IA vai escrever código, no mínimo eu preciso conseguir entender esse código
- Não consigo seguir a abordagem dos "coders por vibe" que não entendem o código escrito pela IA
Acho que o fluxo de trabalho é mais importante do que o agente
- Quando os agentes estiverem prontos para executar tarefas com alta precisão, poderemos usar fluxos de trabalho
- Vou buscar formas de criar fluxos de trabalho eficazes, precisos e fáceis de diagnosticar
O Google Flights já oferece uma UX perfeita
- Acho que, ao usar um agente de IA, a busca na web é mais confiável e mais rápida
- Não tenho certeza se a IA vai se tornar útil, e questiono se os testes foram feitos de forma adequada

Agentes de IA: precisam de "mais confiabilidade" do que de "mais recursos"

Rapidez vs. confiabilidade: o dilema das equipes de desenvolvimento de IA

Princípio central: previsibilidade acima da complexidade

Workflow vs. agente

Leituras relacionadas

1 comentários

Opiniões no Hacker News