Lançamento dos modelos Claude 3

xguru · 2024-03-05T09:12:01+09:00

Anunciada a família de modelos Claude 3 de próxima geração: Haiku, Sonnet e Opus Nessa ordem, eles oferecem desempenho progressivamente mais poderoso, permitindo que os usuários escolham o equilíbrio ideal entre inteligência, velocidade e custo para aplicações específicas O Opus é o modelo mais inteligente, superando outros modelos na maioria dos benchmarks de avaliação de sistemas de IA No MMLU, alcança 86,8%, superando o GPT-4 (86,4%) e o Gemini 1.0 Ultra (83,7%) No HumanEval (Code) 0-Shot, atinge 84,9%, acima do GPT-4 (67%) e do Gemini 1.0 Ultra (74,4%) Todos os modelos Claude 3 melhoraram em análise, previsão, geração de conteúdo, geração de código e conversação em idiomas não ingleses Resultados quase imediatos Os modelos Claude 3 podem ser usados em chat ao vivo com clientes, autocompletar e tarefas de extração de dados que exigem respostas imediatas em tempo real O Haiku é o modelo mais rápido e com melhor custo-benefício do mercado, capaz de ler artigos de pesquisa ricos em informações e dados em menos de 3 segundos O Sonnet oferece alto nível de inteligência com velocidade 2 vezes maior que o Claude 2 e 2.1, enquanto o Opus entrega um nível de inteligência muito superior com velocidade semelhante à do Claude 2 e 2.1 Fortes capacidades de visão Os modelos Claude 3 têm capacidades visuais sofisticadas para processar vários formatos visuais, como fotos, tabelas, gráficos e diagramas técnicos Menos recusas Os modelos Claude anteriores frequentemente faziam recusas desnecessárias, mas os modelos Claude 3 reduzem bastante as recusas a prompts próximos dos guardrails do sistema Maior precisão Como empresas dependem do modelo para atendimento ao cliente, é importante que a saída do modelo mantenha a precisão O Opus dobrou a precisão em relação ao modelo anterior, Claude 2.1, e também reduziu o nível de respostas incorretas Contexto longo e memória quase perfeita A família de modelos Claude 3 inicialmente oferecerá uma janela de contexto de 200K e poderá processar entradas com mais de 1 milhão de tokens Projeto responsável A família de modelos Claude 3 é poderosa o suficiente para ser confiável Há uma equipe dedicada ao rastreamento e mitigação de diversos riscos, e continuam desenvolvendo métodos para melhorar segurança e transparência Fácil de usar Os modelos Claude 3 seguem melhor instruções complexas de múltiplas etapas e são especialmente habilidosos em manter a voz da marca e as diretrizes de resposta Detalhes dos modelos Claude 3 Opus é o modelo mais inteligente e oferece desempenho líder de mercado em tarefas extremamente complexas Claude 3 Sonnet oferece o equilíbrio ideal entre inteligência e velocidade, sendo particularmente adequado para cargas de trabalho corporativas Claude 3 Haiku é o modelo mais rápido e compacto para respostas quase instantâneas Disponibilidade dos modelos Opus e Sonnet já estão disponíveis via API, e o Haiku estará disponível em breve Mais inteligente, mais rápido e mais seguro Eles não acreditam que a inteligência dos modelos tenha chegado ao limite e planejam atualizações frequentes para a família de modelos Claude 3 À medida que expandem os limites das capacidades de IA, também trabalham para que os guardrails de segurança evoluam no mesmo ritmo que as melhorias de desempenho

(anthropic.com)

12 pontos por xguru 2024-03-05 | 1 comentários | Compartilhar no WhatsApp

Anunciada a família de modelos Claude 3 de próxima geração: Haiku, Sonnet e Opus
- Nessa ordem, eles oferecem desempenho progressivamente mais poderoso, permitindo que os usuários escolham o equilíbrio ideal entre inteligência, velocidade e custo para aplicações específicas
O Opus é o modelo mais inteligente, superando outros modelos na maioria dos benchmarks de avaliação de sistemas de IA
- No MMLU, alcança 86,8%, superando o GPT-4 (86,4%) e o Gemini 1.0 Ultra (83,7%)
- No HumanEval (Code) 0-Shot, atinge 84,9%, acima do GPT-4 (67%) e do Gemini 1.0 Ultra (74,4%)
Todos os modelos Claude 3 melhoraram em análise, previsão, geração de conteúdo, geração de código e conversação em idiomas não ingleses

Resultados quase imediatos

Os modelos Claude 3 podem ser usados em chat ao vivo com clientes, autocompletar e tarefas de extração de dados que exigem respostas imediatas em tempo real
O Haiku é o modelo mais rápido e com melhor custo-benefício do mercado, capaz de ler artigos de pesquisa ricos em informações e dados em menos de 3 segundos
O Sonnet oferece alto nível de inteligência com velocidade 2 vezes maior que o Claude 2 e 2.1, enquanto o Opus entrega um nível de inteligência muito superior com velocidade semelhante à do Claude 2 e 2.1

Fortes capacidades de visão

Os modelos Claude 3 têm capacidades visuais sofisticadas para processar vários formatos visuais, como fotos, tabelas, gráficos e diagramas técnicos

Menos recusas

Os modelos Claude anteriores frequentemente faziam recusas desnecessárias, mas os modelos Claude 3 reduzem bastante as recusas a prompts próximos dos guardrails do sistema

Maior precisão

Como empresas dependem do modelo para atendimento ao cliente, é importante que a saída do modelo mantenha a precisão
O Opus dobrou a precisão em relação ao modelo anterior, Claude 2.1, e também reduziu o nível de respostas incorretas

Contexto longo e memória quase perfeita

A família de modelos Claude 3 inicialmente oferecerá uma janela de contexto de 200K e poderá processar entradas com mais de 1 milhão de tokens

Projeto responsável

A família de modelos Claude 3 é poderosa o suficiente para ser confiável
Há uma equipe dedicada ao rastreamento e mitigação de diversos riscos, e continuam desenvolvendo métodos para melhorar segurança e transparência

Fácil de usar

Os modelos Claude 3 seguem melhor instruções complexas de múltiplas etapas e são especialmente habilidosos em manter a voz da marca e as diretrizes de resposta

Detalhes dos modelos

Claude 3 Opus é o modelo mais inteligente e oferece desempenho líder de mercado em tarefas extremamente complexas
Claude 3 Sonnet oferece o equilíbrio ideal entre inteligência e velocidade, sendo particularmente adequado para cargas de trabalho corporativas
Claude 3 Haiku é o modelo mais rápido e compacto para respostas quase instantâneas

Disponibilidade dos modelos

Opus e Sonnet já estão disponíveis via API, e o Haiku estará disponível em breve

Mais inteligente, mais rápido e mais seguro

Eles não acreditam que a inteligência dos modelos tenha chegado ao limite e planejam atualizações frequentes para a família de modelos Claude 3
À medida que expandem os limites das capacidades de IA, também trabalham para que os guardrails de segurança evoluam no mesmo ritmo que as melhorias de desempenho

1 comentários

xguru 2024-03-05

Comentários do Hacker News

O Opus supera o Gemini Pro e o GPT-4 em perguntas complexas
- Em perguntas complexas que exigiam identificar vários números em um documento PDF de investimento em seguro de vida com 43 páginas, o Opus mostrou desempenho superior ao dos outros modelos.
- O modelo Claude 3 Sonnet apresentou desempenho próximo, exceto por ter errado apenas uma pergunta.
O Claude 3 Sonnet mostrou respostas melhores que o ChatGPT Classic em tarefas simples de programação
- O Claude 3 Sonnet usou os métodos corretos da biblioteca SQL ORM para trabalhos de banco de dados e frontend, enquanto o GPT-4 usou métodos incorretos.
- Em outros prompts para geração de SQL, ele deu respostas mais longas que o ChatGPT Classic, mas ainda assim aparentemente corretas.
Testando o modelo Opus do Claude Pro com consultas complexas
- Após assinar o Claude Pro, foi feito um teste com o modelo Opus, combinando imagens e perguntas complexas sobre fine-tuning de SDXL para solicitar um cálculo de custos.
- O modelo leu o preço da GPU de forma incorreta e cometeu erros no cálculo.
- Já o ChatGPT 4 leu os preços corretamente na mesma captura de tela e forneceu cálculos matemáticos mais consistentes.
O Claude 3 se recusou a escrever um script dizendo que a OpenAI é melhor que a Anthropic
- Com base no princípio de que deve ser honesto e imparcial, o Claude 3 recusou escrever um script que promovesse ou difamasse uma empresa específica.
- Em contraste, o ChatGPT 3.5 respondeu imediatamente a um pedido para escrever um script dizendo que a Anthropic é melhor que a OpenAI.
Levantam-se dúvidas sobre o desempenho real do Opus
- Foi levantada a possibilidade de haver uma diferença sistemática entre os resultados de benchmark e o desempenho no mundo real.
- Em problemas básicos de física, ele mostrou desempenho inferior ao GPT-4.
- Em perguntas relacionadas a programação, também ficou ligeiramente abaixo do GPT-4.