Claude Computer Use - Vision é a API definitiva?

xguru · 2024-10-28T09:41:01+09:00

Depois de usar a API Computer Use da Anthropic, ela é lenta, pouco confiável e fácil de fazer assumir o controle do computador, mas é "extremamente interessante" O Claude Computer faz você sentir uma experiência real de 'agente' porque a visão é a API que conecta tudo, então ele sempre consegue fazer alguma coisa Como funciona? O Claude Computer Use parece ser basicamente o Claude 3.5 ajustado com fine-tuning em dados de interação com computador Ele entende muito melhor do que outros modelos capturas de tela do computador e do que há nelas [No que ele é bom] Ler e navegar pela tela (relativamente) Quase nunca vi o Claude ler errado o conteúdo de uma captura de tela Em comparação com outras IAs, ele é bastante bom em entender coordenadas como clique no campo de entrada na posição (500,250) (embora possa errar um pouco dependendo do tamanho da tela) Chamada de função Eu estava acostumado a pensar que chamada de função era estritamente pior do que saída estruturada, mas o Claude Computer usa chamada de função bem Por exemplo, se recebe uma função de ferramenta do navegador que pode ir imediatamente para um site, ele prefere essa função em vez de clicar no ícone do navegador Raciocínio passo a passo Quando se pede para decompor uma tarefa, o Claude normalmente é bem competente em descobrir as etapas necessárias e começar [No que ele falha] Saber quando precisa ler a tela Como tirar uma captura de tela é caro, a IA tende a assumir que sua operação foi bem-sucedida Por exemplo, ela pode digitar em um campo, mas se ele não estiver em foco, depois fica muito difícil detectar isso. As chamadas de função do sistema precisam descrever com muita precisão se o resultado pretendido realmente aconteceu Essa é a forma mais comum de o Claude travar. Quando chega a hora de tirar uma nova captura de tela, ele já não sabe mais em que ponto está Obter mais dados Se você pedir para encontrar as 3 lojas de shawarma mais próximas, o Claude vai digitar 'shawarma' no Google Maps e selecionar os 3 primeiros resultados Se tiver que clicar, ele quase nunca vai primeiro em 'ordenar por distância' no menu Isso talvez possa ser resolvido com uma estrutura de prompt melhor Lembrar do estado No Computer Use, uma parte maior do estado do programa fica armazenada em imagens, e ele parece mais vulnerável para recordar isso Isso também vale para coisas feitas no passado, como abas abertas anteriormente ou aplicativos que foram alterados É melhor fazer o Claude emitir em texto o máximo possível do estado relevante e fornecer o estado do sistema por ferramentas Navegar por modais e pop-ups O Claude se confunde com mais frequência com modais e pop-ups, não sabe como clicar para sair deles ou não percebe que não está no estado correto [O que é necessário?] Fornecer o máximo possível de estado do sistema Idealmente, você quer que o Claude Computer use visão só quando for absolutamente necessário Se você fornecer ferramentas que permitam entender facilmente o estado sem usar visão, ele pode agir mais rápido e pensar com mais clareza É muito útil fornecer coisas como: lista de aplicativos abertos qual aplicativo está com foco ativo em que, dentro do aplicativo, está o foco o máximo possível de chamadas de função para navegar especificamente naquele aplicativo ferramentas de navegador são especialmente importantes (por exemplo, para ir a uma URL específica ou pesquisar) Como lidar com a incerteza Esse é o maior problema em aberto no desenvolvimento de agentes O mais importante em agentes é confiança, e confiança exige entrada e feedback Durante os testes, houve várias vezes em que ficou claro que o Claude não sabia o que deveria fazer, e ainda assim ele insistiu em seguir em frente em vez de parar ou perguntar Gastei bastante tempo criando uma ferramenta de perguntas para fazer a IA perguntar ou raciocinar quando estivesse travada. Mas ela quase não foi usada Isso faz sentido. Chamada de função funciona melhor quando se sabe que é preciso alguma informação e só falta buscá-la Mas saber quando se está incerto é outro problema. Desenvolvedores de agentes precisam poder confiar que a IA vai relatar sua própria incerteza [O caminho adiante] O Claude Computer Use é o primeiro passo rumo a um comportamento de agente real É bem provável que ainda não estejamos aproveitando ao máximo as capacidades do modelo atual Mas está claro que, para criar uma experiência de agente de verdade, será necessário mais do que chamadas de função de LLM

(thariq.io)

4 pontos por xguru 2024-10-28 | Ainda não há comentários. | Compartilhar no WhatsApp

Depois de usar a API Computer Use da Anthropic,
- ela é lenta, pouco confiável e fácil de fazer assumir o controle do computador, mas é "extremamente interessante"
O Claude Computer faz você sentir uma experiência real de 'agente' porque a visão é a API que conecta tudo, então ele sempre consegue fazer alguma coisa

Como funciona?

O Claude Computer Use parece ser basicamente o Claude 3.5 ajustado com fine-tuning em dados de interação com computador
Ele entende muito melhor do que outros modelos capturas de tela do computador e do que há nelas

[No que ele é bom]

Ler e navegar pela tela (relativamente)

Quase nunca vi o Claude ler errado o conteúdo de uma captura de tela
Em comparação com outras IAs, ele é bastante bom em entender coordenadas como clique no campo de entrada na posição (500,250) (embora possa errar um pouco dependendo do tamanho da tela)

Chamada de função

Eu estava acostumado a pensar que chamada de função era estritamente pior do que saída estruturada, mas o Claude Computer usa chamada de função bem
Por exemplo, se recebe uma função de ferramenta do navegador que pode ir imediatamente para um site, ele prefere essa função em vez de clicar no ícone do navegador

Raciocínio passo a passo

Quando se pede para decompor uma tarefa, o Claude normalmente é bem competente em descobrir as etapas necessárias e começar

[No que ele falha]

Saber quando precisa ler a tela

Como tirar uma captura de tela é caro, a IA tende a assumir que sua operação foi bem-sucedida
Por exemplo, ela pode digitar em um campo, mas se ele não estiver em foco, depois fica muito difícil detectar isso. As chamadas de função do sistema precisam descrever com muita precisão se o resultado pretendido realmente aconteceu
Essa é a forma mais comum de o Claude travar. Quando chega a hora de tirar uma nova captura de tela, ele já não sabe mais em que ponto está

Obter mais dados

Se você pedir para encontrar as 3 lojas de shawarma mais próximas, o Claude vai digitar 'shawarma' no Google Maps e selecionar os 3 primeiros resultados
Se tiver que clicar, ele quase nunca vai primeiro em 'ordenar por distância' no menu
Isso talvez possa ser resolvido com uma estrutura de prompt melhor

Lembrar do estado

No Computer Use, uma parte maior do estado do programa fica armazenada em imagens, e ele parece mais vulnerável para recordar isso
Isso também vale para coisas feitas no passado, como abas abertas anteriormente ou aplicativos que foram alterados
É melhor fazer o Claude emitir em texto o máximo possível do estado relevante e fornecer o estado do sistema por ferramentas

Navegar por modais e pop-ups

O Claude se confunde com mais frequência com modais e pop-ups, não sabe como clicar para sair deles ou não percebe que não está no estado correto

[O que é necessário?]

Fornecer o máximo possível de estado do sistema

Idealmente, você quer que o Claude Computer use visão só quando for absolutamente necessário
Se você fornecer ferramentas que permitam entender facilmente o estado sem usar visão, ele pode agir mais rápido e pensar com mais clareza
É muito útil fornecer coisas como:
- lista de aplicativos abertos
- qual aplicativo está com foco ativo
- em que, dentro do aplicativo, está o foco
- o máximo possível de chamadas de função para navegar especificamente naquele aplicativo
  - ferramentas de navegador são especialmente importantes (por exemplo, para ir a uma URL específica ou pesquisar)

Como lidar com a incerteza

Esse é o maior problema em aberto no desenvolvimento de agentes
O mais importante em agentes é confiança, e confiança exige entrada e feedback
Durante os testes, houve várias vezes em que ficou claro que o Claude não sabia o que deveria fazer, e ainda assim ele insistiu em seguir em frente em vez de parar ou perguntar
Gastei bastante tempo criando uma ferramenta de perguntas para fazer a IA perguntar ou raciocinar quando estivesse travada. Mas ela quase não foi usada
Isso faz sentido. Chamada de função funciona melhor quando se sabe que é preciso alguma informação e só falta buscá-la
Mas saber quando se está incerto é outro problema. Desenvolvedores de agentes precisam poder confiar que a IA vai relatar sua própria incerteza

[O caminho adiante]

O Claude Computer Use é o primeiro passo rumo a um comportamento de agente real
É bem provável que ainda não estejamos aproveitando ao máximo as capacidades do modelo atual
Mas está claro que, para criar uma experiência de agente de verdade, será necessário mais do que chamadas de função de LLM