Anthropic anuncia o recurso Computer Use e os modelos Claude 3.5 Sonnet/Haiku

(anthropic.com)

10 pontos por GN⁺ 2024-10-23 | 1 comentários | Compartilhar no WhatsApp

A Anthropic anunciou o Claude 3.5 Sonnet atualizado e o novo modelo Claude 3.5 Haiku
O recurso de uso do computador (computer use), que permite instruir o Claude a usar um computador como um humano, foi introduzido em beta público
O desempenho geral foi aprimorado, mantendo os preços e a velocidade existentes

Introdução ao recurso Computer Use

Desenvolvedores podem instruir o Claude via API a usar um computador como uma pessoa real
Ele pode executar tarefas como visualizar a tela, mover o cursor, clicar em botões e inserir texto
No momento, ele ainda está em fase experimental e pode ser incômodo de usar às vezes, além de apresentar erros
Asana, Canva, Cognition, DoorDash, Replit e The Browser Company já começaram a explorar esse potencial para realizar tarefas que exigem dezenas de etapas e, às vezes, centenas

Claude 3.5 Sonnet: capacidade de engenharia de software no mais alto nível do setor

O Claude 3.5 Sonnet atualizado mostra melhorias amplas em benchmarks do setor, com ganhos especialmente fortes em tarefas de coding orientado por agentes e uso de ferramentas
No SWE-bench Verified, o desempenho subiu de 33,4% para 49,0%, registrando uma pontuação superior à de todos os modelos disponíveis publicamente
No TAU-bench, o desempenho também melhorou de 62,6% para 69,2% no domínio de varejo e de 36,0% para 46,0% no domínio de companhias aéreas
Segundo o feedback inicial de clientes como GitLab, Cognition e The Browser Company, o Claude 3.5 Sonnet representa um salto significativo no coding com IA

Claude 3.5 Haiku: combinação de tecnologia de ponta com custo-benefício e velocidade

O Claude 3.5 Haiku é a próxima geração do modelo mais rápido
Ele foi aprimorado em todas as áreas técnicas com o mesmo custo e velocidade semelhante ao Haiku da geração anterior, superando o antigo modelo topo de linha Claude 3 Opus
Destaca-se especialmente em tarefas de coding, com 40,6% no SWE-bench Verified, superando muitos agentes que usam modelos públicos de ponta, incluindo o Claude 3.5 Sonnet anterior e o GPT-4o
Com baixa latência, melhor aderência a instruções e uso de ferramentas mais preciso, ele é adequado para produtos voltados ao usuário, tarefas de subagentes especializados e criação de experiências personalizadas a partir de grandes volumes de dados

Ensinando o Claude a navegar em computadores com responsabilidade

A empresa está tentando algo fundamentalmente novo com o recurso de uso do computador
Em vez de criar ferramentas específicas para concluir tarefas individuais, está ensinando ao Claude habilidades gerais de uso de computador
Desenvolvedores podem usar esse recurso inicial para automatizar processos repetitivos, criar e testar software e executar tarefas abertas, como pesquisa
No OSWorld, o Claude 3.5 Sonnet alcançou 14,9% na categoria somente com capturas de tela, ficando bem à frente da segunda melhor pontuação entre sistemas de IA, de 7,8%
O recurso de uso do computador ainda está longe de ser perfeito e pode abrir novos caminhos para ameaças como spam, desinformação e fraude, por isso a empresa está adotando uma abordagem proativa para uma implantação segura

Perspectivas futuras do Computer Use

Aprender com a implantação inicial dessa tecnologia ainda em estágio inicial ajudará a compreender melhor o potencial e o impacto de sistemas de IA cada vez mais poderosos
A empresa convida usuários a explorar os novos modelos e a versão beta pública do recurso de uso do computador, além de compartilhar feedback
Acredita que esses desenvolvimentos abrirão novas possibilidades para a forma como as pessoas colaboram com o Claude

Opinião do GN⁺

O recurso de uso do computador se parece com RPA (Robotic Process Automation), mas parece oferecer uma abordagem mais flexível e mais geral
A expectativa é que ele ajude bastante na automação de tarefas repetitivas nas empresas, mas no início é recomendável começar por tarefas menos críticas, considerando a possibilidade de erros
Espera-se que esse recurso concorra com ferramentas de RPA já existentes, como Power Automate e UiPath, e que, no futuro, a fronteira entre IA e RPA fique ainda mais difusa
Do ponto de vista de segurança, conceder à IA permissão para controlar computadores pode introduzir novos riscos, portanto serão necessários controles de acesso rigorosos e monitoramento

1 comentários

GN⁺ 2024-10-23

Comentários do Hacker News

O Sonnet ficou em 1º lugar no leaderboard de edição de código do aider com 84,2%. Ao usar o modo "architect", atingiu o estado da arte com 85,7%. O DeepSeek foi usado como modelo "editor"
- O Sonnet também registrou SOTA de 92,1% em um benchmark de refatoração mais exigente
O Claude 3.5 Opus não é mais mencionado na documentação oficial da Anthropic. Isso sugere que o lançamento foi adiado ou cancelado
Como alguém que desenvolve produtos AI SaaS, achei que a integração com APIs resolveria a maior parte da automação com IA, mas na prática percebi que muitos softwares fazem interface diretamente com pessoas
- Por exemplo, meu cunhado, que é médico, usa um software personalizado com formulários MFC no Windows, e um contador usa um software robusto chamado Cantax
- Se você está no espaço SaaS, acaba acreditando que todo mundo deveria ter APIs de backend cliente-servidor, mas na realidade não é assim
A capacidade de uso do computador é muito impressionante
- Não se trata apenas de um agente que usa o computador como ferramenta, mas de um agente de raciocínio autônomo que, ao receber um objetivo, usa o computador e o navegador para alcançá-lo
- Pode acabar superando o OpenAI GPT-o1
O foco da Anthropic em segurança de IA é interessante. A IA passa a ter a capacidade de usar o computador e o navegador para atingir os objetivos solicitados
O Claude foi superior ao ChatGPT nos últimos 8 meses, mas tem uma base de usuários menor
A diferença entre Sonnet e Opus não está clara. No site da Anthropic, o Opus é apresentado como o modelo mais avançado, mas em outras partes o Sonnet é descrito como o modelo mais rápido e avançado
- Em testes manuais, pareceu que o Opus dava respostas um pouco melhores, mas não dá para ter certeza
O demo de programação com Claude precisa de mais discussão
- É possível que a verdadeira programação para usuário final e a programação por gerentes de produto cheguem em breve
Coisas curiosas aconteceram durante o treinamento com a nova API
- O Claude interrompeu uma gravação de tela longa e acabou perdendo todo o vídeo, ou ficou olhando fotos do Parque Nacional de Yellowstone durante um demo de programação

Anthropic anuncia o recurso Computer Use e os modelos Claude 3.5 Sonnet/Haiku

Introdução ao recurso Computer Use

Claude 3.5 Sonnet: capacidade de engenharia de software no mais alto nível do setor

Claude 3.5 Haiku: combinação de tecnologia de ponta com custo-benefício e velocidade

Ensinando o Claude a navegar em computadores com responsabilidade

Perspectivas futuras do Computer Use

Opinião do GN⁺

Leituras relacionadas

1 comentários

Comentários do Hacker News