18 pontos por humblebee 2025-02-25 | 5 comentários | Compartilhar no WhatsApp

A Anthropic lançou o Claude 3.7 Sonnet, seu modelo mais inteligente até agora. Este modelo é o primeiro modelo híbrido de raciocínio do mercado, capaz de oferecer tanto respostas imediatas quanto um processo de pensamento passo a passo visível ao usuário.

Principais características:

  • Grande melhoria de desempenho em programação e desenvolvimento web frontend
  • Introdução da nova ferramenta de linha de comando Claude Code — os desenvolvedores podem delegar tarefas de engenharia diretamente ao Claude no terminal
  • Disponível em todos os planos do Claude (Free, Pro, Team, Enterprise), na API da Anthropic, no AWS Bedrock e no Google Cloud Vertex AI
  • O modo de pensamento estendido está disponível em todas as plataformas, exceto no nível gratuito
  • O preço é o mesmo do modelo anterior: US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída (incluindo tokens de raciocínio)

Melhorias de desempenho:

  • Alcançou o melhor desempenho no SWE-bench Verified e no TAU-bench
  • Em testes iniciais com Cursor, Cognition, Vercel, Replit e Canva, demonstrou excelente capacidade em lidar com codebases complexas, uso avançado de ferramentas, planejamento e alteração de código e atualizações full-stack
  • Mostrou desempenho em geração de código em nível de produção e redução de erros
  • Melhorias em matemática, física e capacidade de seguir instruções

Claude Code:

  • Pode pesquisar e ler código, editar arquivos, escrever e executar testes, fazer commit e push de código no GitHub e usar ferramentas de linha de comando
  • Especialmente útil para desenvolvimento orientado a testes, depuração de problemas complexos e refatorações em larga escala
  • Conclui de uma vez tarefas que normalmente levariam mais de 45 minutos, reduzindo drasticamente o tempo de desenvolvimento
  • Atualmente disponível como uma prévia de pesquisa limitada

Integração com GitHub:

  • A integração com GitHub agora está disponível em todos os planos do Claude
  • Baseia-se em uma compreensão mais profunda de projetos pessoais, de trabalho e de código aberto
  • Atua como um parceiro forte em correção de bugs, desenvolvimento de recursos e redação de documentação
  • Oferece suporte em todos os projetos importantes do usuário no GitHub

Nas melhorias de segurança, houve uma redução de 45% nas recusas desnecessárias em comparação com o modelo anterior, além de uma distinção mais sutil entre solicitações nocivas e inofensivas.

5 comentários

 
yeorinhieut 2025-02-25

Parece que também foi adicionado ao Perplexity.
Mas ainda não dá para usar o modo de raciocínio, pelo visto..

 
bearmett 2025-02-25

Instalei e testei o Claude Code, e perguntei sobre a visão geral de dois projetos, como no vídeo.

Total cost: $0.1151
Total cost: $0.0855

Dá cerca de US$ 0,2 de uso..?

Se o exemplo do vídeo for uma tarefa que leva mais de 45 minutos, parece que teria ficado uma tarefa bem cara.

 
riskatcher 2025-02-25

É muito caro, não tem bom custo-benefício. No uso real, o o3-mini até parece ser melhor, mas para usar em programação, como a etapa de raciocínio é curta e precisa resolver os tokens intermediários, para esse propósito parece ser o melhor. O preço também..

 
humblebee 2025-02-25

Modo de pensamento expandido (Thinking Mode - Extended)

  • Recurso que permite ao modelo pensar de forma mais profunda por meio de autorreflexão antes de responder
  • Melhora de desempenho em várias tarefas, como matemática, física, cumprimento de instruções e programação
  • Usuários da API podem controlar por até 128K tokens o tempo que o modelo passa pensando
  • Oferece flexibilidade para ajustar o equilíbrio entre velocidade (custo) e qualidade da resposta
  • Assim como humanos lidam com respostas rápidas e pensamento profundo com o mesmo cérebro, o modelo oferece os dois modos em um único modelo, sem precisar de um modelo separado

Parece ter adotado uma abordagem diferente de modelos de raciocínio separados, como o o1 da OpenAI ou o R1 da DeepSeek. Ao que tudo indica, os dois modos foram integrados em um único modelo.

Além disso, ao perguntar diretamente ao modelo qual era a data de corte dos dados de treinamento, ele respondeu que foi no fim de outubro de 2024~!