- Depois de usar a API Computer Use da Anthropic,
- ela é lenta, pouco confiável e fácil de fazer assumir o controle do computador, mas é "extremamente interessante"
- O Claude Computer faz você sentir uma experiência real de 'agente' porque a visão é a API que conecta tudo, então ele sempre consegue fazer alguma coisa
Como funciona?
- O Claude Computer Use parece ser basicamente o Claude 3.5 ajustado com fine-tuning em dados de interação com computador
- Ele entende muito melhor do que outros modelos capturas de tela do computador e do que há nelas
[No que ele é bom]
Ler e navegar pela tela (relativamente)
- Quase nunca vi o Claude ler errado o conteúdo de uma captura de tela
- Em comparação com outras IAs, ele é bastante bom em entender coordenadas como
clique no campo de entrada na posição (500,250) (embora possa errar um pouco dependendo do tamanho da tela)
Chamada de função
- Eu estava acostumado a pensar que chamada de função era estritamente pior do que saída estruturada, mas o Claude Computer usa chamada de função bem
- Por exemplo, se recebe uma função de ferramenta do navegador que pode ir imediatamente para um site, ele prefere essa função em vez de clicar no ícone do navegador
Raciocínio passo a passo
- Quando se pede para decompor uma tarefa, o Claude normalmente é bem competente em descobrir as etapas necessárias e começar
[No que ele falha]
Saber quando precisa ler a tela
- Como tirar uma captura de tela é caro, a IA tende a assumir que sua operação foi bem-sucedida
- Por exemplo, ela pode digitar em um campo, mas se ele não estiver em foco, depois fica muito difícil detectar isso. As chamadas de função do sistema precisam descrever com muita precisão se o resultado pretendido realmente aconteceu
- Essa é a forma mais comum de o Claude travar. Quando chega a hora de tirar uma nova captura de tela, ele já não sabe mais em que ponto está
Obter mais dados
- Se você pedir para encontrar as 3 lojas de shawarma mais próximas, o Claude vai digitar 'shawarma' no Google Maps e selecionar os 3 primeiros resultados
- Se tiver que clicar, ele quase nunca vai primeiro em 'ordenar por distância' no menu
- Isso talvez possa ser resolvido com uma estrutura de prompt melhor
Lembrar do estado
- No Computer Use, uma parte maior do estado do programa fica armazenada em imagens, e ele parece mais vulnerável para recordar isso
- Isso também vale para coisas feitas no passado, como abas abertas anteriormente ou aplicativos que foram alterados
- É melhor fazer o Claude emitir em texto o máximo possível do estado relevante e fornecer o estado do sistema por ferramentas
Navegar por modais e pop-ups
- O Claude se confunde com mais frequência com modais e pop-ups, não sabe como clicar para sair deles ou não percebe que não está no estado correto
[O que é necessário?]
Fornecer o máximo possível de estado do sistema
- Idealmente, você quer que o Claude Computer use visão só quando for absolutamente necessário
- Se você fornecer ferramentas que permitam entender facilmente o estado sem usar visão, ele pode agir mais rápido e pensar com mais clareza
- É muito útil fornecer coisas como:
- lista de aplicativos abertos
- qual aplicativo está com foco ativo
- em que, dentro do aplicativo, está o foco
- o máximo possível de chamadas de função para navegar especificamente naquele aplicativo
- ferramentas de navegador são especialmente importantes (por exemplo, para ir a uma URL específica ou pesquisar)
Como lidar com a incerteza
- Esse é o maior problema em aberto no desenvolvimento de agentes
- O mais importante em agentes é confiança, e confiança exige entrada e feedback
- Durante os testes, houve várias vezes em que ficou claro que o Claude não sabia o que deveria fazer, e ainda assim ele insistiu em seguir em frente em vez de parar ou perguntar
- Gastei bastante tempo criando uma ferramenta de perguntas para fazer a IA perguntar ou raciocinar quando estivesse travada. Mas ela quase não foi usada
- Isso faz sentido. Chamada de função funciona melhor quando se sabe que é preciso alguma informação e só falta buscá-la
- Mas saber quando se está incerto é outro problema. Desenvolvedores de agentes precisam poder confiar que a IA vai relatar sua própria incerteza
[O caminho adiante]
- O Claude Computer Use é o primeiro passo rumo a um comportamento de agente real
- É bem provável que ainda não estejamos aproveitando ao máximo as capacidades do modelo atual
- Mas está claro que, para criar uma experiência de agente de verdade, será necessário mais do que chamadas de função de LLM
Ainda não há comentários.