- A Anthropic anunciou o Claude 3.5 Sonnet atualizado e o novo modelo Claude 3.5 Haiku
- O recurso de uso do computador (computer use), que permite instruir o Claude a usar um computador como um humano, foi introduzido em beta público
- O desempenho geral foi aprimorado, mantendo os preços e a velocidade existentes
Introdução ao recurso Computer Use
- Desenvolvedores podem instruir o Claude via API a usar um computador como uma pessoa real
- Ele pode executar tarefas como visualizar a tela, mover o cursor, clicar em botões e inserir texto
- No momento, ele ainda está em fase experimental e pode ser incômodo de usar às vezes, além de apresentar erros
- Asana, Canva, Cognition, DoorDash, Replit e The Browser Company já começaram a explorar esse potencial para realizar tarefas que exigem dezenas de etapas e, às vezes, centenas
Claude 3.5 Sonnet: capacidade de engenharia de software no mais alto nível do setor
- O Claude 3.5 Sonnet atualizado mostra melhorias amplas em benchmarks do setor, com ganhos especialmente fortes em tarefas de coding orientado por agentes e uso de ferramentas
- No SWE-bench Verified, o desempenho subiu de 33,4% para 49,0%, registrando uma pontuação superior à de todos os modelos disponíveis publicamente
- No TAU-bench, o desempenho também melhorou de 62,6% para 69,2% no domínio de varejo e de 36,0% para 46,0% no domínio de companhias aéreas
- Segundo o feedback inicial de clientes como GitLab, Cognition e The Browser Company, o Claude 3.5 Sonnet representa um salto significativo no coding com IA
Claude 3.5 Haiku: combinação de tecnologia de ponta com custo-benefício e velocidade
- O Claude 3.5 Haiku é a próxima geração do modelo mais rápido
- Ele foi aprimorado em todas as áreas técnicas com o mesmo custo e velocidade semelhante ao Haiku da geração anterior, superando o antigo modelo topo de linha Claude 3 Opus
- Destaca-se especialmente em tarefas de coding, com 40,6% no SWE-bench Verified, superando muitos agentes que usam modelos públicos de ponta, incluindo o Claude 3.5 Sonnet anterior e o GPT-4o
- Com baixa latência, melhor aderência a instruções e uso de ferramentas mais preciso, ele é adequado para produtos voltados ao usuário, tarefas de subagentes especializados e criação de experiências personalizadas a partir de grandes volumes de dados
Ensinando o Claude a navegar em computadores com responsabilidade
- A empresa está tentando algo fundamentalmente novo com o recurso de uso do computador
- Em vez de criar ferramentas específicas para concluir tarefas individuais, está ensinando ao Claude habilidades gerais de uso de computador
- Desenvolvedores podem usar esse recurso inicial para automatizar processos repetitivos, criar e testar software e executar tarefas abertas, como pesquisa
- No OSWorld, o Claude 3.5 Sonnet alcançou 14,9% na categoria somente com capturas de tela, ficando bem à frente da segunda melhor pontuação entre sistemas de IA, de 7,8%
- O recurso de uso do computador ainda está longe de ser perfeito e pode abrir novos caminhos para ameaças como spam, desinformação e fraude, por isso a empresa está adotando uma abordagem proativa para uma implantação segura
Perspectivas futuras do Computer Use
- Aprender com a implantação inicial dessa tecnologia ainda em estágio inicial ajudará a compreender melhor o potencial e o impacto de sistemas de IA cada vez mais poderosos
- A empresa convida usuários a explorar os novos modelos e a versão beta pública do recurso de uso do computador, além de compartilhar feedback
- Acredita que esses desenvolvimentos abrirão novas possibilidades para a forma como as pessoas colaboram com o Claude
Opinião do GN⁺
- O recurso de uso do computador se parece com RPA (Robotic Process Automation), mas parece oferecer uma abordagem mais flexível e mais geral
- A expectativa é que ele ajude bastante na automação de tarefas repetitivas nas empresas, mas no início é recomendável começar por tarefas menos críticas, considerando a possibilidade de erros
- Espera-se que esse recurso concorra com ferramentas de RPA já existentes, como Power Automate e UiPath, e que, no futuro, a fronteira entre IA e RPA fique ainda mais difusa
- Do ponto de vista de segurança, conceder à IA permissão para controlar computadores pode introduzir novos riscos, portanto serão necessários controles de acesso rigorosos e monitoramento
1 comentários
Comentários do Hacker News