6 pontos por GN⁺ 2024-06-28 | 1 comentários | Compartilhar no WhatsApp
  • O Claude 3.5 Sonnet é atualmente o melhor modelo na área de IA conversacional
  • O Claude 3.5 Sonnet pode ser usado gratuitamente no Claude.ai e no app iOS do Claude. Também há opção de assinatura para quem quiser limites de uso mais altos
  • O conteúdo foi resumido preservando ao máximo a estrutura do documento e organizado de forma clara em Markdown
  • É 2x mais rápido que o Claude Opus e também mais barato
  • Introduz o novo recurso Artifacts, que permite visualizar e editar em tempo real código, documentos, design de sites e mais em uma janela separada
  • OpenAI, Google DeepMind e Anthropic estão todos desenvolvendo grandes modelos de alto desempenho, mas no momento a tendência é focar em modelos rápidos, baratos e ainda assim muito competentes

Benchmark e resultados de avaliação

  • Supera modelos anteriores em muitos benchmarks. Em especial, fica em 1º lugar com ampla vantagem no GPQA
  • Em avaliação de programação funcional usando Artifacts, resolveu 64% dos problemas, superando com folga o modelo anterior (38%)
  • Em avaliações feitas por especialistas em áreas como direito, finanças e filosofia, registrou altas taxas de vitória entre 82% e 73%
  • A capacidade de reconhecimento visual também foi melhorada, e o sistema foi projetado para restringir reconhecimento facial por meio de prompts adicionais

Novo recurso Artifacts

  • Com o Artifacts, é possível gerar e editar em tempo real código, documentos, design web e mais em uma janela ao lado da conversa
  • É visto como o primeiro passo na evolução da IA conversacional para um ambiente de trabalho colaborativo
  • Espera-se que no futuro ofereça suporte à colaboração em equipe e evolua para uma ferramenta de gestão de conhecimento em nível organizacional

Revisão de segurança e ética

  • O Claude 3.5 Sonnet mantém o nível ASL-2, portanto ainda não apresenta capacidades consideradas preocupantes
  • O instituto britânico de segurança em IA (UK AISI) realizou uma avaliação de segurança antes do lançamento
  • Também mostrou melhora na taxa de recusa em comparação com o modelo anterior
  • Mantém o princípio de não usar dados dos usuários no treinamento do modelo
  • Adota uma postura cautelosa em relação ao desenvolvimento de tecnologias de fronteira, mas sem assumir compromissos claros

Impacto na engenharia de software

  • O Claude 3.5 Sonnet melhora muito o trabalho de programação dos engenheiros. Resolve dificuldades automaticamente e ainda ajuda com a documentação
  • A taxa de aprovação em testes de pull request melhorou bastante, de 38% no Opus para 64% no Sonnet
  • Dentro da própria Anthropic, de não especialistas a engenheiros experientes, todos estão usando o Claude para economizar muito tempo
  • Deve reduzir de forma significativa o tempo de trabalho dos engenheiros e tornar a programação mais acessível para qualquer pessoa
  • A tendência é de aceleração no ganho de produtividade em engenharia com o uso de tecnologias de IA

Limitações do modelo

  • Ainda comete erros em alguns quebra-cabeças ou jogos famosos, embora às vezes consiga resolvê-los quando recebe informações de contexto
  • Pode ser vulnerável a enganos sofisticados ou ataques
  • Parece ter priorizado melhorar a capacidade geral de raciocínio em vez de se fixar em problemas específicos
  • Continua dependendo de conhecimento gerado por humanos, e suas limitações fundamentais permanecem

Reações dos usuários

  • Está mostrando desempenho impressionante em áreas especializadas como física, química e engenharia mecânica
  • Estão surgindo vários casos de uso de Artifacts, como geração de imagens SVG, desenvolvimento de webapps e simulações 3D
  • Por outro lado, ainda há opiniões de que ele não supera a criatividade humana

Opinião do GN⁺

  • Com a chegada do Claude 3.5 Sonnet, a IA conversacional entra em um ponto de virada importante em sua evolução.
  • Houve grandes melhorias em velocidade e custo, o que deve ampliar bastante sua utilidade em diversas áreas. Em especial, a expectativa é de grande contribuição para a produtividade em engenharia de software
  • O recurso Artifacts mostra potencial para evoluir além de simples conversas e se tornar uma ferramenta colaborativa útil no trabalho real. No longo prazo, pode até evoluir para um sistema de gestão de conhecimento corporativo
  • Os esforços da Anthropic em segurança e ética merecem reconhecimento. Ainda assim, o cenário está longe de ser perfeito e exige pesquisa e monitoramento contínuos
  • Com a competição com outros grandes modelos, como o GPT-4, se intensificando, o avanço da tecnologia de IA deve acelerar ainda mais. No longo prazo, não dá para descartar a possibilidade de desenvolvimento de AGI em nível humano
  • No geral, o Claude 3.5 Sonnet merece ser considerado a melhor IA conversacional do momento. Deve contribuir muito para a inovação de produtividade de pessoas e empresas, mas este também é um momento que exige preparação para seus impactos sociais

1 comentários

 
GN⁺ 2024-06-28
Comentários no Hacker News
  • Funcionalidade de projetos: O recurso de projetos da Anthropic é útil, e é bom poder tocar vários projetos ao mesmo tempo. Mas a janela de contexto de cada projeto pode parecer pequena. Espero janelas de contexto maiores no futuro.

  • Claude 3.5 Sonnet: A capacidade de programação do Claude 3.5 Sonnet é muito impressionante. Ele ajuda programadores experientes a trabalhar mais rápido. Para obter código de alta qualidade, são necessárias instruções detalhadas e avaliação dos resultados.

  • Experimento de programação: Foi feito um experimento de programação com a API da Anthropic, e mais de 95% do projeto foi escrito pelo Claude. O resultado final apresenta alta qualidade.

  • Consistência do Sonnet 3.5: O Sonnet 3.5 tem excelente consistência e fornece respostas mais estáveis do que os modelos anteriores. Isso é um grande avanço.

  • Avaliação da capacidade de programação: A capacidade de programação do GPT-4 não é satisfatória. Como a velocidade de resposta ficou mais lenta, estou explorando outras opções.

  • Comparação entre IAs: O Claude soa mais humano e é forte em perguntas sobre dados. O GPT-4 se destaca mais em raciocínio lógico. O preço e a velocidade de saída são parecidos.

  • Gráfico de benchmark: Não concordo com a afirmação de que os gráficos de benchmark estão se acelerando. É necessário um gráfico mais detalhado.

  • Bloqueio de conta: Minha conta foi bloqueada no Anthropic Sonnet após uma revisão automática. Isso me fez preferir a assinatura da OpenAI.

  • Tecnologia de ponta: O atual ambiente competitivo de desenvolvimento de IA é interessante. É prazeroso vivenciar essa era de perto.

  • Função de resumo da IA: É muito útil quando a IA resume várias opções de design e novas stacks de tecnologia. O custo da conversa é baixo, inclusive com exemplos de código.

  • Nivelamento dos modelos de ML: Ao usar o mesmo conjunto de dados, surgem modelos com desempenho semelhante. Os dados podem fazer a diferença no desempenho do modelo. As técnicas de ML ainda são amplamente comuns.