Anthropic lança o Claude 3.7 Sonnet
(anthropic.com)A Anthropic lançou o Claude 3.7 Sonnet, seu modelo mais inteligente até agora. Este modelo é o primeiro modelo híbrido de raciocínio do mercado, capaz de oferecer tanto respostas imediatas quanto um processo de pensamento passo a passo visível ao usuário.
Principais características:
- Grande melhoria de desempenho em programação e desenvolvimento web frontend
- Introdução da nova ferramenta de linha de comando
Claude Code— os desenvolvedores podem delegar tarefas de engenharia diretamente ao Claude no terminal - Disponível em todos os planos do Claude (Free, Pro, Team, Enterprise), na API da Anthropic, no AWS Bedrock e no Google Cloud Vertex AI
- O modo de pensamento estendido está disponível em todas as plataformas, exceto no nível gratuito
- O preço é o mesmo do modelo anterior: US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída (incluindo tokens de raciocínio)
Melhorias de desempenho:
- Alcançou o melhor desempenho no SWE-bench Verified e no TAU-bench
- Em testes iniciais com Cursor, Cognition, Vercel, Replit e Canva, demonstrou excelente capacidade em lidar com codebases complexas, uso avançado de ferramentas, planejamento e alteração de código e atualizações full-stack
- Mostrou desempenho em geração de código em nível de produção e redução de erros
- Melhorias em matemática, física e capacidade de seguir instruções
Claude Code:
- Pode pesquisar e ler código, editar arquivos, escrever e executar testes, fazer commit e push de código no GitHub e usar ferramentas de linha de comando
- Especialmente útil para desenvolvimento orientado a testes, depuração de problemas complexos e refatorações em larga escala
- Conclui de uma vez tarefas que normalmente levariam mais de 45 minutos, reduzindo drasticamente o tempo de desenvolvimento
- Atualmente disponível como uma prévia de pesquisa limitada
Integração com GitHub:
- A integração com GitHub agora está disponível em todos os planos do Claude
- Baseia-se em uma compreensão mais profunda de projetos pessoais, de trabalho e de código aberto
- Atua como um parceiro forte em correção de bugs, desenvolvimento de recursos e redação de documentação
- Oferece suporte em todos os projetos importantes do usuário no GitHub
Nas melhorias de segurança, houve uma redução de 45% nas recusas desnecessárias em comparação com o modelo anterior, além de uma distinção mais sutil entre solicitações nocivas e inofensivas.
5 comentários
CEO da Anthropic, Dario Amodei: o modelo DeepSeek não é tão surpreendente
Parece que também foi adicionado ao Perplexity.
Mas ainda não dá para usar o modo de raciocínio, pelo visto..
Instalei e testei o Claude Code, e perguntei sobre a visão geral de dois projetos, como no vídeo.
Total cost: $0.1151
Total cost: $0.0855
Dá cerca de US$ 0,2 de uso..?
Se o exemplo do vídeo for uma tarefa que leva mais de 45 minutos, parece que teria ficado uma tarefa bem cara.
É muito caro, não tem bom custo-benefício. No uso real, o
o3-miniaté parece ser melhor, mas para usar em programação, como a etapa de raciocínio é curta e precisa resolver os tokens intermediários, para esse propósito parece ser o melhor. O preço também..Modo de pensamento expandido (Thinking Mode - Extended)
Parece ter adotado uma abordagem diferente de modelos de raciocínio separados, como o o1 da OpenAI ou o R1 da DeepSeek. Ao que tudo indica, os dois modos foram integrados em um único modelo.
Além disso, ao perguntar diretamente ao modelo qual era a data de corte dos dados de treinamento, ele respondeu que foi no fim de outubro de 2024~!