1 pontos por GN⁺ 2025-02-25 | 2 comentários | Compartilhar no WhatsApp

Anúncio

  • Claude 3.7 Sonnet e Claude Code foram anunciados. O Claude 3.7 Sonnet é o primeiro modelo híbrido de raciocínio do mercado, oferecendo respostas rápidas e pensamento passo a passo. Usuários da API podem ajustar com precisão o tempo de raciocínio do modelo.
  • O Claude 3.7 Sonnet mostra desempenho particularmente forte em programação e desenvolvimento web frontend. O Claude Code é uma ferramenta de linha de comando que permite delegar tarefas de engenharia diretamente no terminal e é oferecida como uma prévia de pesquisa limitada.
  • O Claude 3.7 Sonnet está disponível em todos os planos do Claude, na API da Anthropic, no Amazon Bedrock e no Vertex AI do Google Cloud. O modo de pensamento expandido está disponível em todas as plataformas, exceto na camada gratuita do Claude.

Claude 3.7 Sonnet: raciocínio de ponta prático

  • O Claude 3.7 Sonnet foi desenvolvido com uma filosofia diferente da dos modelos de raciocínio existentes. Assim como os humanos usam um único cérebro tanto para respostas rápidas quanto para reflexão profunda, acredita-se que o raciocínio deva ser uma capacidade integrada.
  • O Claude 3.7 Sonnet unifica um LLM geral e um modelo de raciocínio em um só, permitindo que o usuário escolha entre respostas normais e pensamento profundo. No modo de pensamento expandido, o desempenho melhora em áreas como matemática, física e programação.
  • Ao usar o Claude 3.7 Sonnet via API, os usuários podem ajustar o orçamento destinado ao raciocínio. Isso permite controlar a velocidade e a qualidade das respostas.
  • O Claude 3.7 Sonnet foca mais em casos reais de uso empresarial do que em problemas de matemática e ciência da computação. Nos testes iniciais, mostrou resultados excelentes em capacidade de programação.

Claude Code

  • O Claude Code é uma ferramenta que ajuda desenvolvedores a pesquisar código, editar arquivos, executar testes e fazer commit e push de código no GitHub.
  • O Claude Code é especialmente útil em desenvolvimento orientado a testes, depuração de problemas complexos e refatorações em larga escala. Nos testes iniciais, reduziu significativamente o tempo de desenvolvimento.
  • O objetivo do Claude Code é entender como os desenvolvedores usam o Claude e refletir isso em futuras melhorias do modelo.

Trabalhando com bases de código com o Claude

  • A experiência de programação no Claude.ai foi aprimorada. A integração com o GitHub agora está disponível em todos os planos do Claude, permitindo que desenvolvedores conectem diretamente seus repositórios de código ao Claude.
  • O Claude 3.7 Sonnet se torna um parceiro poderoso para correção de bugs, desenvolvimento de funcionalidades e redação de documentação graças à compreensão profunda de projetos pessoais, profissionais e de código aberto.

Construindo com responsabilidade

  • O Claude 3.7 Sonnet passou por testes e avaliações extensivos em colaboração com especialistas externos para garantir segurança, proteção e confiabilidade.
  • Foi disponibilizado um system card que aborda os novos resultados de segurança. Ele inclui uma avaliação de política de escalonamento responsável que outros laboratórios e pesquisadores de IA podem aplicar.

Rumo ao futuro

  • O Claude 3.7 Sonnet e o Claude Code representam um passo importante rumo a sistemas de IA capazes de ampliar as capacidades humanas. Eles expandem as conquistas humanas por meio de raciocínio profundo, trabalho autônomo e colaboração eficaz.
  • Há expectativa de que os usuários explorem os novos recursos e criem coisas novas, e feedback é bem-vindo para melhorias contínuas.

2 comentários

 
GN⁺ 2025-02-25
Comentários do Hacker News
  • Claude 3.7 Sonnet alcançou 60,4% no leaderboard multilíngue do Aider

    • Obteve uma pontuação alta mesmo sem modo de raciocínio, superando o resultado do Sonnet 3.5
    • O Aider 0.75.0 oferece suporte ao 3.7 Sonnet
    • Em breve devem sair suporte ao modo de raciocínio e resultados de benchmark
  • Boris, da equipe do Claude Code, deve responder perguntas sobre o produto

  • O benchmark de LLM da Kagi foi atualizado com o Sonnet 3.7 em modo de uso geral e modo de raciocínio

    • Foi avaliado como o segundo LLM de uso geral mais forte, atrás apenas do Gemini 2.0 pro
    • No modo de raciocínio, fica em nível semelhante ao o1-mini e ao o3-mini
    • No geral, oferece alta qualidade e velocidade pelo mesmo preço
    • Deve ser ativado no Kagi Assistant em até 24 horas
  • Há um recurso divertido que permite analisar perfis do HN

    • Está sendo usado para testar o humor do novo modelo
  • A OpenAI está focando em como os LLMs são usados em negócios reais

    • O objetivo é o "modelo mais inteligente", mas na prática ele é usado principalmente para apoio ao estudo, transformação de dados e escrita de código
    • O equilíbrio entre "inteligência" e "praticidade" é importante
  • Faz sentido a Anthropic focar em código

    • Fica a curiosidade sobre como será o concorrente do Devin
  • O Cursor foi atualizado para a versão mais recente e "claude-3.7-sonnet" foi adicionado à lista de modelos

    • "claude-3.7-sonnet-thinking" também funciona
    • Em breve deve ser adicionado um recurso de controle do tempo de raciocínio
  • A primeira interação com o Claude 3.7 Sonnet causou uma impressão profunda

    • Ele ajudou a resolver um problema com uma função de página do CloudFlare
    • O Claude 3.7 identificou exatamente o problema e apresentou uma solução
  • O Claude reescreveu metade de uma monografia de graduação em 30 segundos

    • O Gemini Flash 2 falhou
  • O o1 pro já apresentou resultados impressionantes algumas vezes

    • Ajudou na revisão de código complexo de MCU
    • O o1 pro entendeu o código usando SPI e apontou o problema
    • O modo de raciocínio do Claude 3.7 não foi tão útil
    • O o1 pro ajudou a resolver um problema de VPN IPsec
    • A pessoa está usando ChatGPT e Claude de forma comparativa
 
riskatcher 2025-02-25

A diferença de preço é grande demais para comparar com o flash 2.. fica bem no meio entre o o1pro e o o3-mini