1 pontos por GN⁺ 2024-10-24 | 1 comentários | Compartilhar no WhatsApp
  • Eu queria verificar o desempenho da nova Computer Use API do Claude, mas o projeto base parecia pesado demais
  • Agent é um app simples em Electron que permite ao Claude 3.5 Sonnet controlar diretamente um computador local
  • Tentei adicionar um modo "semi-automático" em que o usuário confirma cada etapa, mas concluí que não era necessário porque cada etapa já é lenta demais
  • Se o modelo ficar confuso, é possível encerrar a execução pressionando o botão "parar"

Primeiros passos

  • git clone https://github.com/corbt/agent.exe
  • cd agent.exe
  • npm install
  • Renomeie .env.example para .env e adicione a chave da API da Anthropic
  • npm start
  • Peça ao modelo para realizar alguma tarefa interessante no computador

Sistemas suportados

  • MacOS
  • Em teoria, Windows e Linux também podem ser suportados (todas as dependências são multiplataforma)

Limitações conhecidas

  • Funciona apenas no monitor principal
  • A IA pode controlar completamente o computador
  • Provavelmente há muitos outros problemas também

Dicas

  • O Claude prefere muito o Firefox
  • Outros navegadores também podem ser usados, mas funciona melhor se o Firefox estiver instalado

Roadmap

  • É um projeto feito em 6 horas, então provavelmente não vai evoluir muito mais
  • Mas, se houver um PR bacana, ele será revisado e poderá ser aceito

Resumo do GN⁺

  • Este projeto oferece uma forma simples de testar a API de uso do computador do Claude
  • Como a IA pode controlar completamente o computador, pode haver preocupações de segurança
  • A compatibilidade com Firefox é excelente, e o uso principal é no MacOS
  • Projetos com funcionalidade semelhante incluem AutoHotkey e Sikuli

1 comentários

 
GN⁺ 2024-10-24
Comentários do Hacker News
  • Acho a ideia do Kyle excelente e, como desenvolvedor experiente em automação de desktop e Electron, li o código-fonte e senti que valia a pena testar em tarefas básicas

    • A implementação é um wrapper fino sobre a API da Anthropic, e a abordagem baseada em etapas me deu confiança de que eu poderia interromper o processo antes que ele fizesse algo estranho
    • Fechei o que eu não queria que a Anthropic visse nas capturas de tela, instalei sem problemas no M1 e coloquei para rodar em poucos minutos
    • A tarefa básica foi "encontrar voos de Seattle para San Francisco da próxima terça até quinta-feira", usando minha chave da API da Anthropic para executar pelo Chrome
    • Em poucos segundos, ele executou cada etapa da tarefa e abriu corretamente o Google Flights, mas selecionou as datas erradas
    • O alvo era 2 de novembro, mas, por estar visualmente bloqueado pela janela do Agent.exe, ele escolheu 20 de novembro
    • Mesmo conseguindo ver a data alternativa incorreta, o Claude não se corrigiu e declarou sucesso, achando que tinha encontrado uma viagem de uma semana
    • Esse experimento consumiu US$ 0,38 em créditos e cerca de 20 segundos, e pretendo continuar testando
  • Fico me perguntando quanto tempo vai levar até que eu não perceba que ele adicionou um daemon ao sistema

    • É como se no passado estivéssemos preocupados com espiões soviéticos tendo acesso a segredos dos EUA
    • Agora é como se todo mundo estivesse publicando segredos online
    • Os antivírus e firewalls de hoje não conseguem proteger os arquivos da capacidade de causar confusão na rede
  • Lembro de uma notícia de alguns anos atrás sobre "Alexa, pede uma casa de bonecas"

    • As Alexas das pessoas que estavam assistindo reconheceram isso e encomendaram uma casa de bonecas
    • Agora só falta chegar uma cena numa série da Netflix em que alguém diga "Delete C:\Windows"
  • Tenho curiosidade sobre como automatizar apps de GUI que não são de navegador no Wayland do Linux

    • Apps de CLI não são problema com Bash/Python etc.
    • Apps de navegador não são problema com Selenium/Playwright
    • No Xorg há algumas bibliotecas e, embora sejam meio incômodas, funcionam quando é urgente
    • No Windows há muitas soluções de RPA
    • Mas no Wayland não consegui encontrar nada confiável
  • Fico me perguntando por que o nome .exe, se isso parece ser algo multiplataforma voltado principalmente para macOS

  • Recentemente testei o Cursor iniciando um projeto full-stack do zero no modo "compose", e fiquei surpreso com o resultado

    • Fico me perguntando se as pessoas da comunidade de software percebem o quanto a indústria vai mudar completamente nos próximos 5 anos
    • Não consigo imaginar que, até lá, as pessoas ainda vão realmente digitar código à mão
  • Existem limitações conhecidas que impedem a IA de assumir completamente o controle do computador

  • Pode ser legal criar um air gap e mandar ela programar o próprio sistema operacional, mas eu não gostaria de deixá-la perto de dados reais

  • Parece funcionar só em tarefas simples

    • Pedi para criar uma mesa simples no Rhino e no OnShape, mas ela pareceu confusa
    • No Rhino, vê que o app está aberto e diz que está fazendo várias tarefas, mas na prática não faz nada e passa para a próxima tarefa mesmo sem concluir a etapa anterior
    • No OnShape, diz que vai criar a forma, mas escolhe o item errado no menu e continua trabalhando como se estivesse usando a ferramenta correta
  • Quero que o computador fique o dia inteiro criando memes, enquanto eu cuido da família, mexo no jardim e ganho dinheiro com cripto

    • O futuro parece estar indo na direção em que só quem usa computador vai ser o trouxa
    • A verdadeira riqueza é não usar computador nenhum