Anthropic lança o Claude 3.7 Sonnet

(anthropic.com)

18 pontos por humblebee 2025-02-25 | 5 comentários | Compartilhar no WhatsApp

A Anthropic lançou o Claude 3.7 Sonnet, seu modelo mais inteligente até agora. Este modelo é o primeiro modelo híbrido de raciocínio do mercado, capaz de oferecer tanto respostas imediatas quanto um processo de pensamento passo a passo visível ao usuário.

Principais características:

Grande melhoria de desempenho em programação e desenvolvimento web frontend
Introdução da nova ferramenta de linha de comando Claude Code — os desenvolvedores podem delegar tarefas de engenharia diretamente ao Claude no terminal
Disponível em todos os planos do Claude (Free, Pro, Team, Enterprise), na API da Anthropic, no AWS Bedrock e no Google Cloud Vertex AI
O modo de pensamento estendido está disponível em todas as plataformas, exceto no nível gratuito
O preço é o mesmo do modelo anterior: US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída (incluindo tokens de raciocínio)

Melhorias de desempenho:

Alcançou o melhor desempenho no SWE-bench Verified e no TAU-bench
Em testes iniciais com Cursor, Cognition, Vercel, Replit e Canva, demonstrou excelente capacidade em lidar com codebases complexas, uso avançado de ferramentas, planejamento e alteração de código e atualizações full-stack
Mostrou desempenho em geração de código em nível de produção e redução de erros
Melhorias em matemática, física e capacidade de seguir instruções

Claude Code:

Pode pesquisar e ler código, editar arquivos, escrever e executar testes, fazer commit e push de código no GitHub e usar ferramentas de linha de comando
Especialmente útil para desenvolvimento orientado a testes, depuração de problemas complexos e refatorações em larga escala
Conclui de uma vez tarefas que normalmente levariam mais de 45 minutos, reduzindo drasticamente o tempo de desenvolvimento
Atualmente disponível como uma prévia de pesquisa limitada

Integração com GitHub:

A integração com GitHub agora está disponível em todos os planos do Claude
Baseia-se em uma compreensão mais profunda de projetos pessoais, de trabalho e de código aberto
Atua como um parceiro forte em correção de bugs, desenvolvimento de recursos e redação de documentação
Oferece suporte em todos os projetos importantes do usuário no GitHub

Nas melhorias de segurança, houve uma redução de 45% nas recusas desnecessárias em comparação com o modelo anterior, além de uma distinção mais sutil entre solicitações nocivas e inofensivas.

5 comentários

yeorinhieut 2025-02-25

CEO da Anthropic, Dario Amodei: o modelo DeepSeek não é tão surpreendente

yeorinhieut 2025-02-25

Parece que também foi adicionado ao Perplexity.
Mas ainda não dá para usar o modo de raciocínio, pelo visto..

bearmett 2025-02-25

Instalei e testei o Claude Code, e perguntei sobre a visão geral de dois projetos, como no vídeo.

Total cost: $0.1151
Total cost: $0.0855

Dá cerca de US$ 0,2 de uso..?

Se o exemplo do vídeo for uma tarefa que leva mais de 45 minutos, parece que teria ficado uma tarefa bem cara.

riskatcher 2025-02-25

É muito caro, não tem bom custo-benefício. No uso real, o o3-mini até parece ser melhor, mas para usar em programação, como a etapa de raciocínio é curta e precisa resolver os tokens intermediários, para esse propósito parece ser o melhor. O preço também..

humblebee 2025-02-25

Modo de pensamento expandido (Thinking Mode - Extended)

Recurso que permite ao modelo pensar de forma mais profunda por meio de autorreflexão antes de responder
Melhora de desempenho em várias tarefas, como matemática, física, cumprimento de instruções e programação
Usuários da API podem controlar por até 128K tokens o tempo que o modelo passa pensando
Oferece flexibilidade para ajustar o equilíbrio entre velocidade (custo) e qualidade da resposta
Assim como humanos lidam com respostas rápidas e pensamento profundo com o mesmo cérebro, o modelo oferece os dois modos em um único modelo, sem precisar de um modelo separado

Parece ter adotado uma abordagem diferente de modelos de raciocínio separados, como o o1 da OpenAI ou o R1 da DeepSeek. Ao que tudo indica, os dois modos foram integrados em um único modelo.

Além disso, ao perguntar diretamente ao modelo qual era a data de corte dos dados de treinamento, ele respondeu que foi no fim de outubro de 2024~!

Anthropic lança o Claude 3.7 Sonnet

Leituras relacionadas

5 comentários