No momento, desenvolvi uma funcionalidade que fornece, via MCP (Model Context Protocol), um serviço de coleta de notícias/informações de 32 países e snapshots diários dos principais países (EUA, Japão, Reino Unido, Coreia do Sul), além dos mercados de cripto e futuros. Atualmente, com base nisso, estou desenvolvendo um programa de investimento com comportamento livre, semelhante ao OpenClaw.
Há dois pontos sobre os quais estou refletindo.
-
Coexistência entre a 'liberdade' da IA e a UI de frontend
Estou implementando o sistema de forma que, assim como nos softwares tradicionais, ele ofereça por padrão uma UI e funcionalidades definidas, mas que cada uma dessas funcionalidades seja transformada em API para que IDEs ou IAs possam compreendê-las e controlá-las perfeitamente. No fim, acredito que o desenvolvimento de software no futuro passará a se concentrar em quão livremente a IA poderá expandir e executar funcionalidades, ou seja, em 'liberdade da IA'. Gostaria de saber a opinião de vocês. -
Mudança na experiência do usuário: a era do "faz isso pra mim"
No futuro, os usuários vão querer obter o resultado desejado apenas com comandos simples como "faz isso pra mim". Vejo até mesmo que, mesmo para funções que o desenvolvedor não tenha definido previamente, a IA deverá atender às necessidades do usuário pesquisando diretamente na internet ou escrevendo código por conta própria. (Ex.: mesmo em um programa jurídico, se o usuário quiser, a IA deveria conseguir ajudar até no nível de reservar uma passagem aérea.)
Se a tecnologia deve oferecer ao usuário o máximo de conveniência possível, até que ponto nós, desenvolvedores, devemos pensar em 'funcionalidades fechadas' versus 'extensibilidade aberta'? Com o surgimento de agentes como o OpenClaw, essa tem sido uma preocupação cada vez maior para mim ultimamente.
5 comentários
No caso 1, estou testando isso pessoalmente
Como as experiências de fracasso foram se acumulando, ele começou a impor restrições a si mesmo
Só para constar, estou na fase de usar alucinações como um motor de exploração do canal de passagem.
(a) expandir ainda mais as funções de um app existente
(b) expandir funções combinando APIs de vários serviços que antes eram feitos por "pessoas"
No caso de (a), ainda não me passa confiança deixar a IA expandir funcionalidades livremente como quiser.
No caso de (b), por ser algo controlado, parece um pouco melhor.
No entanto, não acredito de forma alguma que um "programa jurídico" vá fazer reserva de avião. Aí ele já não seria mais um programa jurídico. Seria um Her OS de uso geral. Assim como existe um motivo para as organizações e responsabilidades das pessoas serem divididas, acho que programação/arquitetura também foi dividida por um motivo. A ideia de fazer o sistema realmente entender o que eu quero e cuidar de tudo isso do meu jeito parece semelhante à conversa sobre clones digitais.
O "faça isso" seria algo como uma secretária pessoal que me conhece há muito tempo, então eu não precisaria explicar tudo de forma concreta e detalhada (como no que hoje se fala muito sobre spec-driven), mas para isso teria de passar por um processo de escanear tudo sobre mim, acumular conhecimento e guardar memória, e ainda assim acabariam surgindo erros (em Her também há uma cena em que, na configuração inicial, o sistema examina os e-mails e todos os dados do usuário) -- o ponto é quão bem consegue perceber e filtrar esses erros, ou corrigí-los, e nisso ainda parece que estamos longe. Se você já tentou delegar trabalho a pessoas, vai entender: mesmo quem trabalha com você há 10 ou 20 anos muitas vezes não entende exatamente a sua intenção, e quem não tem muita percepção continua errando sem perceber... Se até com pessoas é assim, então acho que primeiro precisamos elevar IAs como a do momento, e sem responsabilidade, a esse nível humano.
Seria bom ir na direção da extensibilidade flexível que você mencionou, mas para isso teria de ser uma IA assistente pessoal realmente de uso geral (e, como outra pessoa escreveu acima, sem fazer a torradeira executar outras tarefas), além de aprender continuamente sobre o usuário por meio da interação. Eu não espero que um carro faça uma declaração de imposto de renda. Com pessoas é a mesma coisa: você dá uma tarefa específica a um funcionário e, se ele fizer outras coisas também, o empregador pode até ficar feliz, mas na maioria dos casos acho que vai é ficar preocupado.
Documentação clara e acessibilidade bem projetada acabam vencendo no final. Não é preciso focar especificamente na liberdade da IA; uma acessibilidade bem projetada é fácil de entender tanto para humanos quanto para IA.
Não, o princípio do menor privilégio deve ser seguido sem exceção. Eu quero que a minha torradeira torre pão, não que acesse a internet para resumir notícias e rodar Doom.
Do ponto de vista filosófico, recomendo a teoria da mente estendida, de Andy Clark. Ela vai lhe dar uma compreensão profunda de como os LLMs, para os quais a plausibilidade é tudo, expandem sua cognição por meio de ferramentas.
Na prática, o OpenCode pode ajudar bastante, já que todas as partes da composição de agentes estão abertas.
O ponto 2 já é realidade. Uma das primeiras ferramentas disponibilizadas foi justamente o interpretador de código. Por isso, minha opinião sobre agentes de domínio específico é que, no fim, trata-se de uma disputa de curto prazo que vai desaparecer.
No caso do domínio em que você está atuando agora, acho que talvez fosse melhor oferecer o ML tradicional via MCP. Modelos de linguagem não têm nenhuma vantagem para análise de padrões ou previsão linear.
Não parece necessário projetar a simetria das ferramentas com base na UI humana. De qualquer forma, webMCP ou MCP automatizados baseados em GDI, nos quais o próprio agente interpreta e controla diretamente a UI, devem chegar num instante. Afinal, será preciso aproveitar inúmeros sistemas legados voltados para humanos. Se for um agente baseado em LLM com multimodalidade nativa, não haverá necessidade de o desenvolvedor se dar ao trabalho de traduzir a GUI para MCP. Como o iOS tem grande controle da GUI na fundação da plataforma, talvez isso comece já na próxima versão.
Quando isso acontecer, bastará instalar qualquer app de ações e já será possível delegar os investimentos ao agente.