10 pontos por GN⁺ 2024-10-23 | 1 comentários | Compartilhar no WhatsApp
  • A Anthropic anunciou o Claude 3.5 Sonnet atualizado e o novo modelo Claude 3.5 Haiku
  • O recurso de uso do computador (computer use), que permite instruir o Claude a usar um computador como um humano, foi introduzido em beta público
  • O desempenho geral foi aprimorado, mantendo os preços e a velocidade existentes

Introdução ao recurso Computer Use

  • Desenvolvedores podem instruir o Claude via API a usar um computador como uma pessoa real
  • Ele pode executar tarefas como visualizar a tela, mover o cursor, clicar em botões e inserir texto
  • No momento, ele ainda está em fase experimental e pode ser incômodo de usar às vezes, além de apresentar erros
  • Asana, Canva, Cognition, DoorDash, Replit e The Browser Company já começaram a explorar esse potencial para realizar tarefas que exigem dezenas de etapas e, às vezes, centenas

Claude 3.5 Sonnet: capacidade de engenharia de software no mais alto nível do setor

  • O Claude 3.5 Sonnet atualizado mostra melhorias amplas em benchmarks do setor, com ganhos especialmente fortes em tarefas de coding orientado por agentes e uso de ferramentas
  • No SWE-bench Verified, o desempenho subiu de 33,4% para 49,0%, registrando uma pontuação superior à de todos os modelos disponíveis publicamente
  • No TAU-bench, o desempenho também melhorou de 62,6% para 69,2% no domínio de varejo e de 36,0% para 46,0% no domínio de companhias aéreas
  • Segundo o feedback inicial de clientes como GitLab, Cognition e The Browser Company, o Claude 3.5 Sonnet representa um salto significativo no coding com IA

Claude 3.5 Haiku: combinação de tecnologia de ponta com custo-benefício e velocidade

  • O Claude 3.5 Haiku é a próxima geração do modelo mais rápido
  • Ele foi aprimorado em todas as áreas técnicas com o mesmo custo e velocidade semelhante ao Haiku da geração anterior, superando o antigo modelo topo de linha Claude 3 Opus
  • Destaca-se especialmente em tarefas de coding, com 40,6% no SWE-bench Verified, superando muitos agentes que usam modelos públicos de ponta, incluindo o Claude 3.5 Sonnet anterior e o GPT-4o
  • Com baixa latência, melhor aderência a instruções e uso de ferramentas mais preciso, ele é adequado para produtos voltados ao usuário, tarefas de subagentes especializados e criação de experiências personalizadas a partir de grandes volumes de dados

Ensinando o Claude a navegar em computadores com responsabilidade

  • A empresa está tentando algo fundamentalmente novo com o recurso de uso do computador
  • Em vez de criar ferramentas específicas para concluir tarefas individuais, está ensinando ao Claude habilidades gerais de uso de computador
  • Desenvolvedores podem usar esse recurso inicial para automatizar processos repetitivos, criar e testar software e executar tarefas abertas, como pesquisa
  • No OSWorld, o Claude 3.5 Sonnet alcançou 14,9% na categoria somente com capturas de tela, ficando bem à frente da segunda melhor pontuação entre sistemas de IA, de 7,8%
  • O recurso de uso do computador ainda está longe de ser perfeito e pode abrir novos caminhos para ameaças como spam, desinformação e fraude, por isso a empresa está adotando uma abordagem proativa para uma implantação segura

Perspectivas futuras do Computer Use

  • Aprender com a implantação inicial dessa tecnologia ainda em estágio inicial ajudará a compreender melhor o potencial e o impacto de sistemas de IA cada vez mais poderosos
  • A empresa convida usuários a explorar os novos modelos e a versão beta pública do recurso de uso do computador, além de compartilhar feedback
  • Acredita que esses desenvolvimentos abrirão novas possibilidades para a forma como as pessoas colaboram com o Claude

Opinião do GN⁺

  • O recurso de uso do computador se parece com RPA (Robotic Process Automation), mas parece oferecer uma abordagem mais flexível e mais geral
  • A expectativa é que ele ajude bastante na automação de tarefas repetitivas nas empresas, mas no início é recomendável começar por tarefas menos críticas, considerando a possibilidade de erros
  • Espera-se que esse recurso concorra com ferramentas de RPA já existentes, como Power Automate e UiPath, e que, no futuro, a fronteira entre IA e RPA fique ainda mais difusa
  • Do ponto de vista de segurança, conceder à IA permissão para controlar computadores pode introduzir novos riscos, portanto serão necessários controles de acesso rigorosos e monitoramento

1 comentários

 
GN⁺ 2024-10-23
Comentários do Hacker News
  • O Sonnet ficou em 1º lugar no leaderboard de edição de código do aider com 84,2%. Ao usar o modo "architect", atingiu o estado da arte com 85,7%. O DeepSeek foi usado como modelo "editor"
    • O Sonnet também registrou SOTA de 92,1% em um benchmark de refatoração mais exigente
  • O Claude 3.5 Opus não é mais mencionado na documentação oficial da Anthropic. Isso sugere que o lançamento foi adiado ou cancelado
  • Como alguém que desenvolve produtos AI SaaS, achei que a integração com APIs resolveria a maior parte da automação com IA, mas na prática percebi que muitos softwares fazem interface diretamente com pessoas
    • Por exemplo, meu cunhado, que é médico, usa um software personalizado com formulários MFC no Windows, e um contador usa um software robusto chamado Cantax
    • Se você está no espaço SaaS, acaba acreditando que todo mundo deveria ter APIs de backend cliente-servidor, mas na realidade não é assim
  • A capacidade de uso do computador é muito impressionante
    • Não se trata apenas de um agente que usa o computador como ferramenta, mas de um agente de raciocínio autônomo que, ao receber um objetivo, usa o computador e o navegador para alcançá-lo
    • Pode acabar superando o OpenAI GPT-o1
  • O foco da Anthropic em segurança de IA é interessante. A IA passa a ter a capacidade de usar o computador e o navegador para atingir os objetivos solicitados
  • O Claude foi superior ao ChatGPT nos últimos 8 meses, mas tem uma base de usuários menor
  • A diferença entre Sonnet e Opus não está clara. No site da Anthropic, o Opus é apresentado como o modelo mais avançado, mas em outras partes o Sonnet é descrito como o modelo mais rápido e avançado
    • Em testes manuais, pareceu que o Opus dava respostas um pouco melhores, mas não dá para ter certeza
  • O demo de programação com Claude precisa de mais discussão
    • É possível que a verdadeira programação para usuário final e a programação por gerentes de produto cheguem em breve
  • Coisas curiosas aconteceram durante o treinamento com a nova API
    • O Claude interrompeu uma gravação de tela longa e acabou perdendo todo o vídeo, ou ficou olhando fotos do Parque Nacional de Yellowstone durante um demo de programação