- Eu queria verificar o desempenho da nova Computer Use API do Claude, mas o projeto base parecia pesado demais
- Agent é um app simples em Electron que permite ao Claude 3.5 Sonnet controlar diretamente um computador local
- Tentei adicionar um modo "semi-automático" em que o usuário confirma cada etapa, mas concluí que não era necessário porque cada etapa já é lenta demais
- Se o modelo ficar confuso, é possível encerrar a execução pressionando o botão "parar"
Primeiros passos
git clone https://github.com/corbt/agent.exe
cd agent.exe
npm install
- Renomeie
.env.example para .env e adicione a chave da API da Anthropic
npm start
- Peça ao modelo para realizar alguma tarefa interessante no computador
Sistemas suportados
- MacOS
- Em teoria, Windows e Linux também podem ser suportados (todas as dependências são multiplataforma)
Limitações conhecidas
- Funciona apenas no monitor principal
- A IA pode controlar completamente o computador
- Provavelmente há muitos outros problemas também
Dicas
- O Claude prefere muito o Firefox
- Outros navegadores também podem ser usados, mas funciona melhor se o Firefox estiver instalado
Roadmap
- É um projeto feito em 6 horas, então provavelmente não vai evoluir muito mais
- Mas, se houver um PR bacana, ele será revisado e poderá ser aceito
Resumo do GN⁺
- Este projeto oferece uma forma simples de testar a API de uso do computador do Claude
- Como a IA pode controlar completamente o computador, pode haver preocupações de segurança
- A compatibilidade com Firefox é excelente, e o uso principal é no MacOS
- Projetos com funcionalidade semelhante incluem AutoHotkey e Sikuli
1 comentários
Comentários do Hacker News
Acho a ideia do Kyle excelente e, como desenvolvedor experiente em automação de desktop e Electron, li o código-fonte e senti que valia a pena testar em tarefas básicas
Fico me perguntando quanto tempo vai levar até que eu não perceba que ele adicionou um daemon ao sistema
Lembro de uma notícia de alguns anos atrás sobre "Alexa, pede uma casa de bonecas"
Tenho curiosidade sobre como automatizar apps de GUI que não são de navegador no Wayland do Linux
Fico me perguntando por que o nome .exe, se isso parece ser algo multiplataforma voltado principalmente para macOS
Recentemente testei o Cursor iniciando um projeto full-stack do zero no modo "compose", e fiquei surpreso com o resultado
Existem limitações conhecidas que impedem a IA de assumir completamente o controle do computador
Pode ser legal criar um air gap e mandar ela programar o próprio sistema operacional, mas eu não gostaria de deixá-la perto de dados reais
Parece funcionar só em tarefas simples
Quero que o computador fique o dia inteiro criando memes, enquanto eu cuido da família, mexo no jardim e ganho dinheiro com cripto