Família de modelos Claude 3
(anthropic.com)- A Anthropic revelou a família Claude 3, apresentando uma nova linha de modelos com Haiku, Sonnet e Opus para escolher o equilíbrio entre inteligência, velocidade e custo
- O Opus supera modelos da mesma categoria em avaliações importantes como MMLU, GPQA e GSM8K, e toda a linha Claude 3 melhora em análise, previsão, geração de código e conversação em idiomas que não são inglês
- A diferenciação por velocidade é um eixo central: o Haiku lê um artigo do arXiv de cerca de 10k tokens em menos de 3 segundos, e o Sonnet é 2 vezes mais rápido que o Claude 2 e 2.1 na maioria das cargas de trabalho
- O Claude 3 processa entradas visuais como fotos, tabelas, gráficos e diagramas técnicos, e chega com janela de contexto de 200K e possibilidade de entradas acima de 1 milhão de tokens
- Opus e Sonnet estão disponíveis imediatamente no claude.ai e na API do Claude, com a API oferecida em 159 países, enquanto o Haiku será lançado em breve
Composição dos modelos e disponibilidade
- A família Claude 3 é composta, em ordem crescente de desempenho, por Claude 3 Haiku, Claude 3 Sonnet e Claude 3 Opus
- Cada modelo foi projetado para permitir escolher o equilíbrio entre inteligência, velocidade e custo conforme a aplicação
- Opus e Sonnet estão disponíveis no claude.ai e na API do Claude
- A API do Claude está em disponibilidade geral e é oferecida em 159 países
- O Haiku será disponibilizado em breve
- A experiência gratuita do claude.ai é baseada no Sonnet, e o Opus é oferecido para assinantes do Claude Pro
- O Sonnet também está disponível no Amazon Bedrock e em preview privado no Vertex AI Model Garden do Google Cloud
- Opus e Haiku também serão adicionados em breve às duas plataformas
Inteligência, velocidade e desempenho multimodal
- O Opus é o modelo mais inteligente da Anthropic e supera modelos da mesma categoria em diversos benchmarks de avaliação de sistemas de IA, como MMLU, GPQA e GSM8K
- Os modelos Claude 3 mostram capacidades aprimoradas em análise e previsão, geração detalhada de conteúdo, geração de código e conversação em idiomas como espanhol, japonês e francês
- O alcance de uso se amplia para tarefas em que a resposta em tempo real é importante
- chat ao vivo com clientes
- autocompletar
- extração de dados
- O Haiku é o modelo mais rápido e com melhor custo-benefício em sua categoria de inteligência, podendo ler um artigo do arXiv de cerca de 10k tokens com tabelas e gráficos em menos de 3 segundos
- O Sonnet é 2 vezes mais rápido que o Claude 2 e o Claude 2.1 na maioria das cargas de trabalho, além de oferecer maior nível de inteligência
- busca de conhecimento
- automação de vendas
- O Opus mantém velocidade semelhante à do Claude 2 e do Claude 2.1, ao mesmo tempo em que oferece um nível de inteligência mais alto
Entradas visuais, menos recusas e melhor precisão
- Os modelos Claude 3 têm capacidades visuais em nível semelhante ao de outros modelos líderes
- fotos
- tabelas
- gráficos
- diagramas técnicos
- Para alguns clientes corporativos, até 50% da base de conhecimento está armazenada em formatos como PDFs, fluxogramas e slides de apresentação, o que torna esse novo formato de entrada especialmente importante
- Modelos anteriores do Claude frequentemente faziam recusas desnecessárias que pareciam indicar falta de compreensão de contexto, mas no Claude 3, Opus, Sonnet e Haiku têm probabilidade muito menor de recusar respostas para prompts próximos aos guardrails do sistema em comparação com a geração anterior
- O Claude 3 foi aprimorado para entender solicitações com mais nuance e reconhecer danos reais, reduzindo recusas a prompts inofensivos
- A avaliação de precisão usa um conjunto de perguntas factuais complexas voltadas para fraquezas conhecidas dos modelos atuais
- as respostas são classificadas como corretas, incorretas ou alucinações, ou reconhecimento de incerteza
- o Opus dobra a taxa de acerto em perguntas abertas difíceis em comparação com o Claude 2.1 e também reduz o nível de respostas incorretas
- Os modelos Claude 3 receberão em breve um recurso de citações, permitindo apontar frases exatas dos materiais de referência para verificar respostas
Contexto longo e capacidade de recuperação
- A família Claude 3 oferece janela de contexto de 200K já no lançamento
- Os três modelos podem receber entradas acima de 1 milhão de tokens, o que poderá ser oferecido a alguns clientes que precisem de capacidade maior de processamento
- Para lidar corretamente com prompts de contexto longo, é necessária forte capacidade de recuperação
- A avaliação Needle In A Haystack (NIAH) mede a capacidade de recuperar informações com precisão em um corpus massivo de dados
- para aumentar a robustez da avaliação, cada prompt usa um entre 30 pares aleatórios de needle/question
- os testes foram feitos em diferentes corpora de documentos obtidos via crowdsourcing
- O Claude 3 Opus alcança recuperação quase perfeita no NIAH, com precisão acima de 99%
- Em alguns casos, ele chegou a identificar limitações da própria avaliação ao perceber que a frase “needle” parecia ter sido inserida artificialmente por humanos no texto original
Projeto de segurança e mitigação de viés
- A Anthropic está focada em tornar a família Claude 3 tão confiável quanto capaz
- Equipes dedicadas acompanham e mitigam diversos riscos
- desinformação
- CSAM
- uso indevido biológico
- interferência eleitoral
- capacidade de autorreplicação
- A empresa continua desenvolvendo métodos como Constitutional AI para aumentar a segurança e a transparência dos modelos
- Os modelos foram ajustados para mitigar problemas de privacidade que possam surgir com os novos formatos de entrada
- Segundo o Bias Benchmark for Question Answering (BBQ), o Claude 3 apresenta menos viés que modelos anteriores
- A família Claude 3 avançou em medidas-chave de conhecimento biológico, conhecimento relacionado a segurança cibernética e autonomia em relação a modelos anteriores, mas permanece no AI Safety Level 2 (ASL-2) segundo a Responsible Scaling Policy
- A avaliação de red team conclui que o potencial de risco catastrófico dos modelos atuais é mínimo
- a avaliação foi conduzida em linha com os compromissos com a Casa Branca e a ordem executiva dos EUA de 2023
- a Anthropic continuará monitorando o quanto modelos futuros se aproximam do limiar ASL-3
- Mais detalhes de segurança estão no model card do Claude 3
Usabilidade, preços por modelo e casos de uso
- Os modelos Claude 3 seguem melhor instruções complexas em várias etapas
- Eles são mais adequados para cumprir voz de marca e diretrizes de resposta, criando experiências confiáveis voltadas ao cliente
- A capacidade de gerar saídas estruturadas como JSON foi aprimorada, facilitando instruções ao Claude em casos de uso como classificação em linguagem natural e análise de sentimento
-
Claude 3 Opus
- O Claude 3 Opus é o modelo mais inteligente, com desempenho de ponta em tarefas altamente complexas
- Ele lida com prompts abertos e cenários inéditos com alta fluidez e compreensão próxima à humana
- O preço é de US$ 15 por 1 milhão de tokens de entrada e US$ 75 por 1 milhão de tokens de saída
- A janela de contexto é de 200K, com possibilidade de 1 milhão de tokens em casos de uso específicos
- Casos de uso potenciais
- planejamento e execução de tarefas complexas entre APIs e bancos de dados, codificação interativa
- revisão de pesquisa, brainstorming, geração de hipóteses e descoberta de medicamentos
- análise avançada de tabelas e gráficos, finanças, tendências de mercado e previsões
-
Claude 3 Sonnet
- O Claude 3 Sonnet busca equilibrar inteligência e velocidade, com foco especial em cargas de trabalho corporativas
- Ele entrega forte desempenho com custo inferior ao de modelos da mesma categoria e foi projetado para alta resiliência em implantações de IA em grande escala
- O preço é de US$ 3 por 1 milhão de tokens de entrada e US$ 15 por 1 milhão de tokens de saída
- A janela de contexto é de 200K
- Casos de uso potenciais
- RAG ou busca e recuperação sobre grandes volumes de conhecimento
- recomendação de produtos, previsão e marketing segmentado
- geração de código, controle de qualidade e parsing de texto a partir de imagens
-
Claude 3 Haiku
- O Claude 3 Haiku é o modelo mais rápido e menor, voltado para resposta quase instantânea
- Ele responde com extrema rapidez a consultas e solicitações simples, com o objetivo de construir experiências de IA fluidas que imitam a interação humana
- O preço é de US$ 0,25 por 1 milhão de tokens de entrada e US$ 1,25 por 1 milhão de tokens de saída
- A janela de contexto é de 200K
- Casos de uso potenciais
- suporte ao cliente rápido e preciso em interações ao vivo, tradução
- moderação de conteúdo para detectar comportamento de risco ou solicitações de clientes
- otimização de logística, gestão de estoque e extração de conhecimento de dados não estruturados
Recursos futuros e atualizações
- A Anthropic considera que a inteligência dos modelos ainda está longe do limite e planeja lançar atualizações frequentes para a família Claude 3 nos próximos meses
- Estão previstos recursos para fortalecer as capacidades dos modelos em casos de uso corporativos e implantações em larga escala
- uso de ferramentas, isto é, function calling
- codificação interativa, isto é, REPL
- funcionalidades de agente mais avançadas
- A diretriz é expandir os limites das capacidades de IA enquanto mantém os guardrails de segurança acompanhando as melhorias de desempenho
- O ponto de entrada para começar a desenvolver com Claude é anthropic.com/claude
1 comentários
Comentários do Hacker News
Acabei de publicar um plugin que adiciona suporte aos modelos Claude 3 à minha ferramenta de linha de comando para LLM
Depois de configurar com
pipx install llm,llm install llm-claude-3ellm keys set claude, dá para executar algo comollm -m claude-3-opus '3 fun facts about pelicans'Código: https://github.com/simonw/llm-claude-3
Explicação da LLM: https://llm.datasette.io/
llm -m gpt-4e mostrar o resultado em uma caixa de diálogo doosascript, e isso ficou muito útilAgora posso selecionar texto em qualquer app e depois executar
LLMno menu Serviços, além de ter até um atalho de teclado, usando isso para interpretar erros de terminal, fazer buscas rápidas e inserir prompts diretamente no editor de texto/IDEEle pega posts e comentários da API do
hn.algolia.com, expande comjqe depois envia parallm -m claude-3-opuspara gerar um resumo em Markdown por temas com citações diretasResultado ao rodar isso neste tópico com mais de 300 comentários: https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
Isso aumentaria a quantidade de software que pode ser instalado via
pipouapte sair funcionando de imediato, já que hoje ainda existe a etapa incômoda de um humano colar a chave de APITambém dá para brincar que, ao se aproximar do limite da API, seria bem a cara da era da IA minerar um pouco de bitcoin com a GPU para pagar automaticamente por mais capacidade da API
O Opus e os modelos Claude anteriores ainda não conseguem resolver direito o problema da Sally
Para a pergunta “Sally tem 3 irmãos e cada irmão tem 2 irmãs; quantas irmãs Sally tem?”, o Claude conclui que, excluindo a própria Sally, ela não tem nenhuma irmã e responde 0
https://imgur.com/a/EawcbeL
Por causa da importância da forma do prompt, fica bem difícil comparar o desempenho máximo dos modelos, e o estilo de prompt que extrai o melhor de cada modelo também varia
Por exemplo, Sally e os três irmãos compartilham a mesma mãe, mas têm pais diferentes, e os irmãos têm duas irmãs, Sally e Mary, mas Mary e Sally podem não ser irmãs entre si porque o conjunto de pais delas é diferente
Dizem que ela tem inteligência de nível PhD, mas não consegue raciocinar direito nem nesse problema; quantidade de informação de nível PhD e raciocínio avançado são coisas diferentes, e parece que muita gente não distingue isso
Na direção autônoma também é parecido: seguir a faixa é fácil, mas identificar a faixa e identificar objetos é difícil; do mesmo modo que o carro fazer o básico pode dar a falsa impressão de que entende a situação, com LLMs parece ocorrer algo semelhante
Em vez de focar apenas nos erros do modelo, também vale olhar para as coisas impressionantes que ele consegue fazer direito
70,2% no benchmark APPS do Claude 3 Opus mostra que ele pode ser bem útil para programação
O APPS mede a capacidade de transformar descrições de problemas em código Python, e o comprimento médio dos problemas é de quase 300 palavras
Curiosamente, outros modelos de ponta não divulgaram resultados nesse benchmark
Model card do Claude 3: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
Tabela 1: https://twitter.com/karinanguyen_/status/1764666528220557320
Dataset APPS: https://huggingface.co/datasets/codeparrot/apps
Artigo do APPS: https://arxiv.org/abs/2105.09938v3
As médias dos alunos são 64,4 e 61,5, respectivamente, enquanto o Opus 3 registrou 72 e 63
É bem provável que os participantes do AMC 12 sejam menos de 100 mil entre os 3 a 4 milhões de alunos do 12º ano nos EUA, e mesmo assumindo que só metade dos melhores alunos participe, a média do AMC pode representar os 2% a 4% melhores estudantes do ensino médio americano
https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
A explicação é que doutores de outras áreas, mesmo usando a internet e levando mais de 30 minutos para resolver, ficam em 34%, e doutores da mesma área, também com internet, chegam a 65%~75% de acurácia
https://twitter.com/idavidrein/status/1764675668175094169
GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
Em comparação com o ChatGPT-4, pareceu ordens de magnitude pior, e a experiência prática deu a impressão de um grande retrocesso
Mesmo só no introductory já seria um bom resultado, mas seria melhor saber qual foi o critério
Durante a explicação do Claude 3, continuo me incomodando com a parte de que ele faz menos recusas desnecessárias do que o modelo anterior
Entendo que a empresa não queira vender um produto que permita a qualquer um aprender a fazer drogas ou bombas, mas é irritante quando um modelo rodando no meu computador se recusa a fazer o que eu peço
Você acaba tendo que convencer ou enganar o modelo para obter o resultado desejado, e parece um insulto à relação entre humanos e ferramentas quando uma ferramenta se recusa a obedecer ao dono
Se eu quiser usar um martelo em um parafuso, essa é uma escolha minha, não algo que o martelo deva decidir; não entendo por que existe tanta obsessão em fazer ferramentas de IA recusarem comandos do proprietário por causa de uma “segurança” definida por terceiros
Não querem carregar um peso na consciência pelas ações de outras pessoas usando suas ferramentas
Só que muita gente acredita em crime de pensamento e tem visões puritanas sobre sexo, então, se você não se alinhar a isso, surgem custos de reputação e de captação de recursos
Se um usuário cometer um crime com o modelo, o sistema legal que resolva; não vejo necessidade de um Big Brother fiscalizando até crime de pensamento
Hoje a analogia do martelo pode parecer em grande parte correta, mas, na área de alinhamento de IA, acredita-se que esses sistemas em breve — no máximo dentro de 10 anos — terão capacidades muito maiores
O estado padrão de uma ferramenta é ser moralmente neutra e tornar tanto pessoas boas quanto ruins mais eficazes; se ataque e defesa fossem simétricos, o problema seria menor, mas não há motivo para supor isso
O motivo de existir regulação para metralhadoras automáticas de alta capacidade também é que a assimetria entre a capacidade ofensiva de um agente malicioso solitário e a impossibilidade de defesa é grande demais; se ataques com IA se tornarem muito mais fáceis do que defesa, a ideologia da abertura pode fracassar na prática
Ainda assim, é problemático que os guardrails sejam definidos por um grupo pequeno, e isso parece um efeito colateral da IA ter chegado rápido demais
Poderiam fazer isso por pressão do governo ou por marketing competitivo do tipo “nosso martelo não machuca bebês por acidente”, e a ausência dessa função no martelo talvez não seja uma escolha, mas um subproduto das limitações
Você também acha irritante o Photoshop impedir a edição de imagens de dinheiro? O modelo não é do usuário, e não foi o usuário quem gastou bilhões de dólares para desenvolvê-lo
Como sempre acontece com software comercial, ou você usa nos termos definidos pelo desenvolvedor, ou simplesmente não usa
O mercado-alvo são grandes empresas que querem automatizar várias tarefas e economizar de centenas de milhões a dezenas de bilhões de dólares em custos trabalhistas, e o que elas querem são modelos confiáveis, com informação correta e bons guardrails
Uma grande seguradora multinacional não vai aceitar o risco de seu chatbot de atendimento ao cliente escrever erotica para um cliente levado na brincadeira
O usuário importante não é o indivíduo, e sim os empregadores que querem substituir equipes de atendimento ao cliente que fazem trabalho emocional; eles querem substitutos humanos controlados, educados e com guardrails
O Opus atropelou o Gemini Pro e o GPT-4 em perguntas complexas
Foi uma tarefa de encontrar vários números em um PDF de investimento em seguro de vida com 43 páginas, e os outros modelos nem chegaram perto
Só o Claude 3 Sonnet chegou relativamente perto, no nível de deixar passar uma pergunta
Para um PDF de 43 páginas isso pode ser ideal, e eu tenho acesso, então posso testar com o Pro 1.5
Assinei o Claude Pro para testar o Opus, fiz perguntas complexas sobre imagens e fine-tuning de SDXL, e mandei comparar custos entre RTX 6000 Ada e H100, mas houve muitos erros
Dei um screenshot de preços de GPU do Runpod, e ele leu o preço da RTX 6000 Ada como $0.114 em vez de $1.14; depois, nos cálculos,
.278 * $0.114e.116 * $4.69também não batiam com os totais apresentadosJá o ChatGPT 4 leu os preços corretamente no mesmo screenshot, percebeu sozinho que a RTX 6000 Ada não estava disponível, substituiu por uma 4090 e fez cálculos mais consistentes
Não vejo outra forma de corrigir isso sem identificar os itens da expressão, mandá-los para um parser artesanal e uma função, e depois reinserir o resultado nos tokens de saída
Referência: Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
Ainda não houve nenhum LLM com uma calculadora emergente
Isso quer dizer que a capacidade de visão aumenta a inteligência até em tarefas sem entrada de imagem?
Por exemplo, em uma expressão aritmética complexa, a resposta correta da calculadora era 22.08555452004, o GPT-4 sem Python deu 22.3038, e o Claude 3 Opus deu 22.0492
Depois disso, seria só soltar bots de r/wallStreetBets à vontade
Testei um prompt simples de tarefa de programação envolvendo banco de dados e frontend, e o Claude 3 Sonnet, que é gratuito e um modelo mais fraco, deu uma resposta melhor que o ChatGPT Classic
Usou o método correto de uma biblioteca SQL ORM menos conhecida, enquanto o GPT-4 usou o método errado
No entanto, em um prompt de geração de SQL ele deu uma resposta pior que o ChatGPT Classic, e embora parecesse correta, era muito mais longa
Link do ChatGPT 1: https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
Link do ChatGPT 2: https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba
O ícone verde significa o modelo ChatGPT de primeira geração, provavelmente GPT-3.5 Turbo
Ao executar com GPT-4, sai o resultado esperado: https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
É um bom exemplo para mostrar que muitos dos casos de fracasso do ChatGPT na internet são resultados de modelos fracos
O ícone da OpenAI com fundo verde é GPT-3.5, e os ícones preto ou roxo são GPT-4; o GPT-4 Turbo da API se saiu um pouco melhor, talvez por ter mais conhecimento sobre Drizzle
Depois de usar um pouco o Opus, comecei a suspeitar que os benchmarks estão sistematicamente desalinhados do desempenho real
Na prática, não parece melhor que o GPT-4 e talvez até um pouco pior
Em perguntas básicas de cálculo/física, mesmo tendo sido explicitado que a desaceleração era proporcional à velocidade, ele assumiu desaceleração constante; e em um teste de simulação de trânsito, esqueceu o conceito de direção discutido antes, ficando até abaixo do resultado já ruim do GPT-4
Também foi pior em um teste de entender as cores básicas da luz depois de ser ensinado dentro do contexto, e em programação ficou ligeiramente atrás do GPT-4 em um problema de cálculo de imposto sobre ganho de capital de longo prazo
O Claude 3 foi adicionado ao Chat do https://double.bot, então dá para usar para programação
Por enquanto é gratuito, e hoje à tarde também devem colocar o Claude 3 no autocompletar
Nos testes iniciais, parece a primeira grande alternativa de API ao GPT-4
O Codeium já tem um suporte bem decente
https://www.codium.ai
https://github.com/Exafunction/codeium.vim
Estou criando um produto na mesma área e já recebi esse pedido algumas vezes; sendo uma extensão de IDE, parece que deveria conseguir se conectar a qualquer modelo de IA, esteja ele rodando onde estiver
Independentemente do modelo, superar o GPT-4 é algo grande, e é muito impressionante que tenham conseguido
Ainda assim, o GPT-4 é um modelo de um ano atrás, e a OpenAI ainda não revelou o modelo da próxima geração
O artigo do GPT-3 saiu em 2020, e a Anthropic só foi fundada em 2021, então, enquanto a OpenAI já acumulava experiência de três gerações, a Anthropic na prática partiu do zero e ainda assim conseguiu ficar temporariamente à frente em alguns benchmarks
O modelo de próxima geração da OpenAI provavelmente já terminou o treinamento e está em ajuste fino e avaliação de segurança, mas como a razão de existir da Anthropic é segurança, é difícil achar que eles tenham feito essa parte de qualquer jeito só para lançar esse modelo às pressas
GPT-4-1106-previeweGPT-4-0125-previewReferência: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
Aqui ele ficou um pouquinho à frente do GPT-4, e isso por si só é impressionante, porque até agora parece que nenhum outro modelo tinha conseguido isso