- O Claude 3.5 Sonnet é atualmente o melhor modelo na área de IA conversacional
- O Claude 3.5 Sonnet pode ser usado gratuitamente no Claude.ai e no app iOS do Claude. Também há opção de assinatura para quem quiser limites de uso mais altos
- O conteúdo foi resumido preservando ao máximo a estrutura do documento e organizado de forma clara em Markdown
- É 2x mais rápido que o Claude Opus e também mais barato
- Introduz o novo recurso Artifacts, que permite visualizar e editar em tempo real código, documentos, design de sites e mais em uma janela separada
- OpenAI, Google DeepMind e Anthropic estão todos desenvolvendo grandes modelos de alto desempenho, mas no momento a tendência é focar em modelos rápidos, baratos e ainda assim muito competentes
Benchmark e resultados de avaliação
- Supera modelos anteriores em muitos benchmarks. Em especial, fica em 1º lugar com ampla vantagem no GPQA
- Em avaliação de programação funcional usando Artifacts, resolveu 64% dos problemas, superando com folga o modelo anterior (38%)
- Em avaliações feitas por especialistas em áreas como direito, finanças e filosofia, registrou altas taxas de vitória entre 82% e 73%
- A capacidade de reconhecimento visual também foi melhorada, e o sistema foi projetado para restringir reconhecimento facial por meio de prompts adicionais
Novo recurso Artifacts
- Com o Artifacts, é possível gerar e editar em tempo real código, documentos, design web e mais em uma janela ao lado da conversa
- É visto como o primeiro passo na evolução da IA conversacional para um ambiente de trabalho colaborativo
- Espera-se que no futuro ofereça suporte à colaboração em equipe e evolua para uma ferramenta de gestão de conhecimento em nível organizacional
Revisão de segurança e ética
- O Claude 3.5 Sonnet mantém o nível ASL-2, portanto ainda não apresenta capacidades consideradas preocupantes
- O instituto britânico de segurança em IA (UK AISI) realizou uma avaliação de segurança antes do lançamento
- Também mostrou melhora na taxa de recusa em comparação com o modelo anterior
- Mantém o princípio de não usar dados dos usuários no treinamento do modelo
- Adota uma postura cautelosa em relação ao desenvolvimento de tecnologias de fronteira, mas sem assumir compromissos claros
Impacto na engenharia de software
- O Claude 3.5 Sonnet melhora muito o trabalho de programação dos engenheiros. Resolve dificuldades automaticamente e ainda ajuda com a documentação
- A taxa de aprovação em testes de pull request melhorou bastante, de 38% no Opus para 64% no Sonnet
- Dentro da própria Anthropic, de não especialistas a engenheiros experientes, todos estão usando o Claude para economizar muito tempo
- Deve reduzir de forma significativa o tempo de trabalho dos engenheiros e tornar a programação mais acessível para qualquer pessoa
- A tendência é de aceleração no ganho de produtividade em engenharia com o uso de tecnologias de IA
Limitações do modelo
- Ainda comete erros em alguns quebra-cabeças ou jogos famosos, embora às vezes consiga resolvê-los quando recebe informações de contexto
- Pode ser vulnerável a enganos sofisticados ou ataques
- Parece ter priorizado melhorar a capacidade geral de raciocínio em vez de se fixar em problemas específicos
- Continua dependendo de conhecimento gerado por humanos, e suas limitações fundamentais permanecem
Reações dos usuários
- Está mostrando desempenho impressionante em áreas especializadas como física, química e engenharia mecânica
- Estão surgindo vários casos de uso de Artifacts, como geração de imagens SVG, desenvolvimento de webapps e simulações 3D
- Por outro lado, ainda há opiniões de que ele não supera a criatividade humana
Opinião do GN⁺
- Com a chegada do Claude 3.5 Sonnet, a IA conversacional entra em um ponto de virada importante em sua evolução.
- Houve grandes melhorias em velocidade e custo, o que deve ampliar bastante sua utilidade em diversas áreas. Em especial, a expectativa é de grande contribuição para a produtividade em engenharia de software
- O recurso Artifacts mostra potencial para evoluir além de simples conversas e se tornar uma ferramenta colaborativa útil no trabalho real. No longo prazo, pode até evoluir para um sistema de gestão de conhecimento corporativo
- Os esforços da Anthropic em segurança e ética merecem reconhecimento. Ainda assim, o cenário está longe de ser perfeito e exige pesquisa e monitoramento contínuos
- Com a competição com outros grandes modelos, como o GPT-4, se intensificando, o avanço da tecnologia de IA deve acelerar ainda mais. No longo prazo, não dá para descartar a possibilidade de desenvolvimento de AGI em nível humano
- No geral, o Claude 3.5 Sonnet merece ser considerado a melhor IA conversacional do momento. Deve contribuir muito para a inovação de produtividade de pessoas e empresas, mas este também é um momento que exige preparação para seus impactos sociais
1 comentários
Comentários no Hacker News
Funcionalidade de projetos: O recurso de projetos da Anthropic é útil, e é bom poder tocar vários projetos ao mesmo tempo. Mas a janela de contexto de cada projeto pode parecer pequena. Espero janelas de contexto maiores no futuro.
Claude 3.5 Sonnet: A capacidade de programação do Claude 3.5 Sonnet é muito impressionante. Ele ajuda programadores experientes a trabalhar mais rápido. Para obter código de alta qualidade, são necessárias instruções detalhadas e avaliação dos resultados.
Experimento de programação: Foi feito um experimento de programação com a API da Anthropic, e mais de 95% do projeto foi escrito pelo Claude. O resultado final apresenta alta qualidade.
Consistência do Sonnet 3.5: O Sonnet 3.5 tem excelente consistência e fornece respostas mais estáveis do que os modelos anteriores. Isso é um grande avanço.
Avaliação da capacidade de programação: A capacidade de programação do GPT-4 não é satisfatória. Como a velocidade de resposta ficou mais lenta, estou explorando outras opções.
Comparação entre IAs: O Claude soa mais humano e é forte em perguntas sobre dados. O GPT-4 se destaca mais em raciocínio lógico. O preço e a velocidade de saída são parecidos.
Gráfico de benchmark: Não concordo com a afirmação de que os gráficos de benchmark estão se acelerando. É necessário um gráfico mais detalhado.
Bloqueio de conta: Minha conta foi bloqueada no Anthropic Sonnet após uma revisão automática. Isso me fez preferir a assinatura da OpenAI.
Tecnologia de ponta: O atual ambiente competitivo de desenvolvimento de IA é interessante. É prazeroso vivenciar essa era de perto.
Função de resumo da IA: É muito útil quando a IA resume várias opções de design e novas stacks de tecnologia. O custo da conversa é baixo, inclusive com exemplos de código.
Nivelamento dos modelos de ML: Ao usar o mesmo conjunto de dados, surgem modelos com desempenho semelhante. Os dados podem fazer a diferença no desempenho do modelo. As técnicas de ML ainda são amplamente comuns.