12 pontos por xguru 2024-03-05 | 1 comentários | Compartilhar no WhatsApp
  • Anunciada a família de modelos Claude 3 de próxima geração: Haiku, Sonnet e Opus
    • Nessa ordem, eles oferecem desempenho progressivamente mais poderoso, permitindo que os usuários escolham o equilíbrio ideal entre inteligência, velocidade e custo para aplicações específicas
  • O Opus é o modelo mais inteligente, superando outros modelos na maioria dos benchmarks de avaliação de sistemas de IA
    • No MMLU, alcança 86,8%, superando o GPT-4 (86,4%) e o Gemini 1.0 Ultra (83,7%)
    • No HumanEval (Code) 0-Shot, atinge 84,9%, acima do GPT-4 (67%) e do Gemini 1.0 Ultra (74,4%)
  • Todos os modelos Claude 3 melhoraram em análise, previsão, geração de conteúdo, geração de código e conversação em idiomas não ingleses

Resultados quase imediatos

  • Os modelos Claude 3 podem ser usados em chat ao vivo com clientes, autocompletar e tarefas de extração de dados que exigem respostas imediatas em tempo real
  • O Haiku é o modelo mais rápido e com melhor custo-benefício do mercado, capaz de ler artigos de pesquisa ricos em informações e dados em menos de 3 segundos
  • O Sonnet oferece alto nível de inteligência com velocidade 2 vezes maior que o Claude 2 e 2.1, enquanto o Opus entrega um nível de inteligência muito superior com velocidade semelhante à do Claude 2 e 2.1

Fortes capacidades de visão

  • Os modelos Claude 3 têm capacidades visuais sofisticadas para processar vários formatos visuais, como fotos, tabelas, gráficos e diagramas técnicos

Menos recusas

  • Os modelos Claude anteriores frequentemente faziam recusas desnecessárias, mas os modelos Claude 3 reduzem bastante as recusas a prompts próximos dos guardrails do sistema

Maior precisão

  • Como empresas dependem do modelo para atendimento ao cliente, é importante que a saída do modelo mantenha a precisão
  • O Opus dobrou a precisão em relação ao modelo anterior, Claude 2.1, e também reduziu o nível de respostas incorretas

Contexto longo e memória quase perfeita

  • A família de modelos Claude 3 inicialmente oferecerá uma janela de contexto de 200K e poderá processar entradas com mais de 1 milhão de tokens

Projeto responsável

  • A família de modelos Claude 3 é poderosa o suficiente para ser confiável
  • Há uma equipe dedicada ao rastreamento e mitigação de diversos riscos, e continuam desenvolvendo métodos para melhorar segurança e transparência

Fácil de usar

  • Os modelos Claude 3 seguem melhor instruções complexas de múltiplas etapas e são especialmente habilidosos em manter a voz da marca e as diretrizes de resposta

Detalhes dos modelos

  • Claude 3 Opus é o modelo mais inteligente e oferece desempenho líder de mercado em tarefas extremamente complexas
  • Claude 3 Sonnet oferece o equilíbrio ideal entre inteligência e velocidade, sendo particularmente adequado para cargas de trabalho corporativas
  • Claude 3 Haiku é o modelo mais rápido e compacto para respostas quase instantâneas

Disponibilidade dos modelos

  • Opus e Sonnet já estão disponíveis via API, e o Haiku estará disponível em breve

Mais inteligente, mais rápido e mais seguro

  • Eles não acreditam que a inteligência dos modelos tenha chegado ao limite e planejam atualizações frequentes para a família de modelos Claude 3
  • À medida que expandem os limites das capacidades de IA, também trabalham para que os guardrails de segurança evoluam no mesmo ritmo que as melhorias de desempenho

1 comentários

 
xguru 2024-03-05
Comentários do Hacker News
  • O Opus supera o Gemini Pro e o GPT-4 em perguntas complexas

    • Em perguntas complexas que exigiam identificar vários números em um documento PDF de investimento em seguro de vida com 43 páginas, o Opus mostrou desempenho superior ao dos outros modelos.
    • O modelo Claude 3 Sonnet apresentou desempenho próximo, exceto por ter errado apenas uma pergunta.
  • O Claude 3 Sonnet mostrou respostas melhores que o ChatGPT Classic em tarefas simples de programação

    • O Claude 3 Sonnet usou os métodos corretos da biblioteca SQL ORM para trabalhos de banco de dados e frontend, enquanto o GPT-4 usou métodos incorretos.
    • Em outros prompts para geração de SQL, ele deu respostas mais longas que o ChatGPT Classic, mas ainda assim aparentemente corretas.
  • Testando o modelo Opus do Claude Pro com consultas complexas

    • Após assinar o Claude Pro, foi feito um teste com o modelo Opus, combinando imagens e perguntas complexas sobre fine-tuning de SDXL para solicitar um cálculo de custos.
    • O modelo leu o preço da GPU de forma incorreta e cometeu erros no cálculo.
    • Já o ChatGPT 4 leu os preços corretamente na mesma captura de tela e forneceu cálculos matemáticos mais consistentes.
  • O Claude 3 se recusou a escrever um script dizendo que a OpenAI é melhor que a Anthropic

    • Com base no princípio de que deve ser honesto e imparcial, o Claude 3 recusou escrever um script que promovesse ou difamasse uma empresa específica.
    • Em contraste, o ChatGPT 3.5 respondeu imediatamente a um pedido para escrever um script dizendo que a Anthropic é melhor que a OpenAI.
  • Levantam-se dúvidas sobre o desempenho real do Opus

    • Foi levantada a possibilidade de haver uma diferença sistemática entre os resultados de benchmark e o desempenho no mundo real.
    • Em problemas básicos de física, ele mostrou desempenho inferior ao GPT-4.
    • Em perguntas relacionadas a programação, também ficou ligeiramente abaixo do GPT-4.