1 pontos por GN⁺ 2024-03-05 | 1 comentários | Compartilhar no WhatsApp
  • A Anthropic revelou a família Claude 3, apresentando uma nova linha de modelos com Haiku, Sonnet e Opus para escolher o equilíbrio entre inteligência, velocidade e custo
  • O Opus supera modelos da mesma categoria em avaliações importantes como MMLU, GPQA e GSM8K, e toda a linha Claude 3 melhora em análise, previsão, geração de código e conversação em idiomas que não são inglês
  • A diferenciação por velocidade é um eixo central: o Haiku lê um artigo do arXiv de cerca de 10k tokens em menos de 3 segundos, e o Sonnet é 2 vezes mais rápido que o Claude 2 e 2.1 na maioria das cargas de trabalho
  • O Claude 3 processa entradas visuais como fotos, tabelas, gráficos e diagramas técnicos, e chega com janela de contexto de 200K e possibilidade de entradas acima de 1 milhão de tokens
  • Opus e Sonnet estão disponíveis imediatamente no claude.ai e na API do Claude, com a API oferecida em 159 países, enquanto o Haiku será lançado em breve

Composição dos modelos e disponibilidade

  • A família Claude 3 é composta, em ordem crescente de desempenho, por Claude 3 Haiku, Claude 3 Sonnet e Claude 3 Opus
  • Cada modelo foi projetado para permitir escolher o equilíbrio entre inteligência, velocidade e custo conforme a aplicação
  • Opus e Sonnet estão disponíveis no claude.ai e na API do Claude
    • A API do Claude está em disponibilidade geral e é oferecida em 159 países
    • O Haiku será disponibilizado em breve
  • A experiência gratuita do claude.ai é baseada no Sonnet, e o Opus é oferecido para assinantes do Claude Pro
  • O Sonnet também está disponível no Amazon Bedrock e em preview privado no Vertex AI Model Garden do Google Cloud
    • Opus e Haiku também serão adicionados em breve às duas plataformas

Inteligência, velocidade e desempenho multimodal

  • O Opus é o modelo mais inteligente da Anthropic e supera modelos da mesma categoria em diversos benchmarks de avaliação de sistemas de IA, como MMLU, GPQA e GSM8K
  • Os modelos Claude 3 mostram capacidades aprimoradas em análise e previsão, geração detalhada de conteúdo, geração de código e conversação em idiomas como espanhol, japonês e francês
  • O alcance de uso se amplia para tarefas em que a resposta em tempo real é importante
    • chat ao vivo com clientes
    • autocompletar
    • extração de dados
  • O Haiku é o modelo mais rápido e com melhor custo-benefício em sua categoria de inteligência, podendo ler um artigo do arXiv de cerca de 10k tokens com tabelas e gráficos em menos de 3 segundos
  • O Sonnet é 2 vezes mais rápido que o Claude 2 e o Claude 2.1 na maioria das cargas de trabalho, além de oferecer maior nível de inteligência
    • busca de conhecimento
    • automação de vendas
  • O Opus mantém velocidade semelhante à do Claude 2 e do Claude 2.1, ao mesmo tempo em que oferece um nível de inteligência mais alto

Entradas visuais, menos recusas e melhor precisão

  • Os modelos Claude 3 têm capacidades visuais em nível semelhante ao de outros modelos líderes
    • fotos
    • tabelas
    • gráficos
    • diagramas técnicos
  • Para alguns clientes corporativos, até 50% da base de conhecimento está armazenada em formatos como PDFs, fluxogramas e slides de apresentação, o que torna esse novo formato de entrada especialmente importante
  • Modelos anteriores do Claude frequentemente faziam recusas desnecessárias que pareciam indicar falta de compreensão de contexto, mas no Claude 3, Opus, Sonnet e Haiku têm probabilidade muito menor de recusar respostas para prompts próximos aos guardrails do sistema em comparação com a geração anterior
  • O Claude 3 foi aprimorado para entender solicitações com mais nuance e reconhecer danos reais, reduzindo recusas a prompts inofensivos
  • A avaliação de precisão usa um conjunto de perguntas factuais complexas voltadas para fraquezas conhecidas dos modelos atuais
    • as respostas são classificadas como corretas, incorretas ou alucinações, ou reconhecimento de incerteza
    • o Opus dobra a taxa de acerto em perguntas abertas difíceis em comparação com o Claude 2.1 e também reduz o nível de respostas incorretas
  • Os modelos Claude 3 receberão em breve um recurso de citações, permitindo apontar frases exatas dos materiais de referência para verificar respostas

Contexto longo e capacidade de recuperação

  • A família Claude 3 oferece janela de contexto de 200K já no lançamento
  • Os três modelos podem receber entradas acima de 1 milhão de tokens, o que poderá ser oferecido a alguns clientes que precisem de capacidade maior de processamento
  • Para lidar corretamente com prompts de contexto longo, é necessária forte capacidade de recuperação
  • A avaliação Needle In A Haystack (NIAH) mede a capacidade de recuperar informações com precisão em um corpus massivo de dados
    • para aumentar a robustez da avaliação, cada prompt usa um entre 30 pares aleatórios de needle/question
    • os testes foram feitos em diferentes corpora de documentos obtidos via crowdsourcing
  • O Claude 3 Opus alcança recuperação quase perfeita no NIAH, com precisão acima de 99%
  • Em alguns casos, ele chegou a identificar limitações da própria avaliação ao perceber que a frase “needle” parecia ter sido inserida artificialmente por humanos no texto original

Projeto de segurança e mitigação de viés

  • A Anthropic está focada em tornar a família Claude 3 tão confiável quanto capaz
  • Equipes dedicadas acompanham e mitigam diversos riscos
    • desinformação
    • CSAM
    • uso indevido biológico
    • interferência eleitoral
    • capacidade de autorreplicação
  • A empresa continua desenvolvendo métodos como Constitutional AI para aumentar a segurança e a transparência dos modelos
  • Os modelos foram ajustados para mitigar problemas de privacidade que possam surgir com os novos formatos de entrada
  • Segundo o Bias Benchmark for Question Answering (BBQ), o Claude 3 apresenta menos viés que modelos anteriores
  • A família Claude 3 avançou em medidas-chave de conhecimento biológico, conhecimento relacionado a segurança cibernética e autonomia em relação a modelos anteriores, mas permanece no AI Safety Level 2 (ASL-2) segundo a Responsible Scaling Policy
  • A avaliação de red team conclui que o potencial de risco catastrófico dos modelos atuais é mínimo
  • Mais detalhes de segurança estão no model card do Claude 3

Usabilidade, preços por modelo e casos de uso

  • Os modelos Claude 3 seguem melhor instruções complexas em várias etapas
  • Eles são mais adequados para cumprir voz de marca e diretrizes de resposta, criando experiências confiáveis voltadas ao cliente
  • A capacidade de gerar saídas estruturadas como JSON foi aprimorada, facilitando instruções ao Claude em casos de uso como classificação em linguagem natural e análise de sentimento
  • Claude 3 Opus

    • O Claude 3 Opus é o modelo mais inteligente, com desempenho de ponta em tarefas altamente complexas
    • Ele lida com prompts abertos e cenários inéditos com alta fluidez e compreensão próxima à humana
    • O preço é de US$ 15 por 1 milhão de tokens de entrada e US$ 75 por 1 milhão de tokens de saída
    • A janela de contexto é de 200K, com possibilidade de 1 milhão de tokens em casos de uso específicos
    • Casos de uso potenciais
      • planejamento e execução de tarefas complexas entre APIs e bancos de dados, codificação interativa
      • revisão de pesquisa, brainstorming, geração de hipóteses e descoberta de medicamentos
      • análise avançada de tabelas e gráficos, finanças, tendências de mercado e previsões
  • Claude 3 Sonnet

    • O Claude 3 Sonnet busca equilibrar inteligência e velocidade, com foco especial em cargas de trabalho corporativas
    • Ele entrega forte desempenho com custo inferior ao de modelos da mesma categoria e foi projetado para alta resiliência em implantações de IA em grande escala
    • O preço é de US$ 3 por 1 milhão de tokens de entrada e US$ 15 por 1 milhão de tokens de saída
    • A janela de contexto é de 200K
    • Casos de uso potenciais
      • RAG ou busca e recuperação sobre grandes volumes de conhecimento
      • recomendação de produtos, previsão e marketing segmentado
      • geração de código, controle de qualidade e parsing de texto a partir de imagens
  • Claude 3 Haiku

    • O Claude 3 Haiku é o modelo mais rápido e menor, voltado para resposta quase instantânea
    • Ele responde com extrema rapidez a consultas e solicitações simples, com o objetivo de construir experiências de IA fluidas que imitam a interação humana
    • O preço é de US$ 0,25 por 1 milhão de tokens de entrada e US$ 1,25 por 1 milhão de tokens de saída
    • A janela de contexto é de 200K
    • Casos de uso potenciais
      • suporte ao cliente rápido e preciso em interações ao vivo, tradução
      • moderação de conteúdo para detectar comportamento de risco ou solicitações de clientes
      • otimização de logística, gestão de estoque e extração de conhecimento de dados não estruturados

Recursos futuros e atualizações

  • A Anthropic considera que a inteligência dos modelos ainda está longe do limite e planeja lançar atualizações frequentes para a família Claude 3 nos próximos meses
  • Estão previstos recursos para fortalecer as capacidades dos modelos em casos de uso corporativos e implantações em larga escala
    • uso de ferramentas, isto é, function calling
    • codificação interativa, isto é, REPL
    • funcionalidades de agente mais avançadas
  • A diretriz é expandir os limites das capacidades de IA enquanto mantém os guardrails de segurança acompanhando as melhorias de desempenho
  • O ponto de entrada para começar a desenvolver com Claude é anthropic.com/claude

1 comentários

 
GN⁺ 2024-03-05
Comentários do Hacker News
  • Acabei de publicar um plugin que adiciona suporte aos modelos Claude 3 à minha ferramenta de linha de comando para LLM
    Depois de configurar com pipx install llm, llm install llm-claude-3 e llm keys set claude, dá para executar algo como llm -m claude-3-opus '3 fun facts about pelicans'
    Código: https://github.com/simonw/llm-claude-3
    Explicação da LLM: https://llm.datasette.io/

    • No Mac, criei uma Ação Rápida no Automator para pegar o texto selecionado, passar para llm -m gpt-4 e mostrar o resultado em uma caixa de diálogo do osascript, e isso ficou muito útil
      Agora posso selecionar texto em qualquer app e depois executar LLM no menu Serviços, além de ter até um atalho de teclado, usando isso para interpretar erros de terminal, fazer buscas rápidas e inserir prompts diretamente no editor de texto/IDE
    • Troquei meu script de resumo do Hacker News para o Claude 3 Opus, e a explicação original está aqui: https://til.simonwillison.net/llms/claude-hacker-news-themes
      Ele pega posts e comentários da API do hn.algolia.com, expande com jq e depois envia para llm -m claude-3-opus para gerar um resumo em Markdown por temas com citações diretas
      Resultado ao rodar isso neste tópico com mais de 300 comentários: https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
    • Como a criação de chave de API da Anthropic parece gratuita, fiquei pensando se não daria para automatizar até a etapa de inserir a chave com um Chrome headless
      Isso aumentaria a quantidade de software que pode ser instalado via pip ou apt e sair funcionando de imediato, já que hoje ainda existe a etapa incômoda de um humano colar a chave de API
      Também dá para brincar que, ao se aproximar do limite da API, seria bem a cara da era da IA minerar um pouco de bitcoin com a GPU para pagar automaticamente por mais capacidade da API
    • Se você usa Raycast no Mac, pode criar um script personalizado para conversar com a CLI de LLM pela interface do Raycast: https://gist.github.com/vladstudio/92efe283453f5f22d4606947b9f82719
  • O Opus e os modelos Claude anteriores ainda não conseguem resolver direito o problema da Sally
    Para a pergunta “Sally tem 3 irmãos e cada irmão tem 2 irmãs; quantas irmãs Sally tem?”, o Claude conclui que, excluindo a própria Sally, ela não tem nenhuma irmã e responde 0
    https://imgur.com/a/EawcbeL

    • A API do GPT-4 e o ChatGPT também erraram por padrão e responderam que “Sally tem 2 irmãs”, mas, com um prompt de sistema pedindo raciocínio passo a passo, acertaram ao responder 1
      Por causa da importância da forma do prompt, fica bem difícil comparar o desempenho máximo dos modelos, e o estilo de prompt que extrai o melhor de cada modelo também varia
    • O LLama 13B Q5 local respondeu a esse problema que Sally tem 1 irmã, que é ela mesma, e que cada um dos 3 irmãos tem 3 irmãs, então seriam 9 no total e, tirando a parte da Sally, ficam 8
    • Os pais de Sally e os pais dos irmãos podem ser diferentes por recasamento etc., e, se considerarmos que a relação de irmão ou irmã vale mesmo compartilhando apenas um dos pais, a resposta pode não ser única
      Por exemplo, Sally e os três irmãos compartilham a mesma mãe, mas têm pais diferentes, e os irmãos têm duas irmãs, Sally e Mary, mas Mary e Sally podem não ser irmãs entre si porque o conjunto de pais delas é diferente
    • Exemplos assim fazem desconfiar do hype em torno da IA
      Dizem que ela tem inteligência de nível PhD, mas não consegue raciocinar direito nem nesse problema; quantidade de informação de nível PhD e raciocínio avançado são coisas diferentes, e parece que muita gente não distingue isso
      Na direção autônoma também é parecido: seguir a faixa é fácil, mas identificar a faixa e identificar objetos é difícil; do mesmo modo que o carro fazer o básico pode dar a falsa impressão de que entende a situação, com LLMs parece ocorrer algo semelhante
    • Isso certamente é um problema, mas também é o tipo de pergunta que bastante gente comum na rua erraria
      Em vez de focar apenas nos erros do modelo, também vale olhar para as coisas impressionantes que ele consegue fazer direito
  • 70,2% no benchmark APPS do Claude 3 Opus mostra que ele pode ser bem útil para programação
    O APPS mede a capacidade de transformar descrições de problemas em código Python, e o comprimento médio dos problemas é de quase 300 palavras
    Curiosamente, outros modelos de ponta não divulgaram resultados nesse benchmark
    Model card do Claude 3: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
    Tabela 1: https://twitter.com/karinanguyen_/status/1764666528220557320
    Dataset APPS: https://huggingface.co/datasets/codeparrot/apps
    Artigo do APPS: https://arxiv.org/abs/2105.09938v3

    • Pelos resultados do AMC 10 e AMC 12 de 2023 na Tabela 2, o Claude 3 Opus parece ser melhor do que o estudante médio do ensino médio que participa dessa olimpíada de matemática
      As médias dos alunos são 64,4 e 61,5, respectivamente, enquanto o Opus 3 registrou 72 e 63
      É bem provável que os participantes do AMC 12 sejam menos de 100 mil entre os 3 a 4 milhões de alunos do 12º ano nos EUA, e mesmo assumindo que só metade dos melhores alunos participe, a média do AMC pode representar os 2% a 4% melhores estudantes do ensino médio americano
      https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
    • Segundo David Rein, primeiro autor do benchmark GPQA, o Claude 3 teve cerca de 60% de acurácia no GPQA, e essas questões são realmente difíceis
      A explicação é que doutores de outras áreas, mesmo usando a internet e levando mais de 30 minutos para resolver, ficam em 34%, e doutores da mesma área, também com internet, chegam a 65%~75% de acurácia
      https://twitter.com/idavidrein/status/1764675668175094169
      GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
    • Falando como alguém que trabalha na Anthropic, o Opus tem escrito uma parte considerável do meu código de trabalho recentemente
    • Vi os benchmarks e os elogios e assinei o Pro hoje, mas no meu fluxo de trabalho habitual foi um desastre completo
      Em comparação com o ChatGPT-4, pareceu ordens de magnitude pior, e a experiência prática deu a impressão de um grande retrocesso
    • O APPS tem três subconjuntos por dificuldade — introductory, interview e competition — e não está claro em qual deles o Claude 3 foi medido
      Mesmo só no introductory já seria um bom resultado, mas seria melhor saber qual foi o critério
  • Durante a explicação do Claude 3, continuo me incomodando com a parte de que ele faz menos recusas desnecessárias do que o modelo anterior
    Entendo que a empresa não queira vender um produto que permita a qualquer um aprender a fazer drogas ou bombas, mas é irritante quando um modelo rodando no meu computador se recusa a fazer o que eu peço
    Você acaba tendo que convencer ou enganar o modelo para obter o resultado desejado, e parece um insulto à relação entre humanos e ferramentas quando uma ferramenta se recusa a obedecer ao dono
    Se eu quiser usar um martelo em um parafuso, essa é uma escolha minha, não algo que o martelo deva decidir; não entendo por que existe tanta obsessão em fazer ferramentas de IA recusarem comandos do proprietário por causa de uma “segurança” definida por terceiros

    • Eles operam com um princípio parecido com o de muitos desenvolvedores que se recusam a ajudar no desenvolvimento de armas
      Não querem carregar um peso na consciência pelas ações de outras pessoas usando suas ferramentas
      Só que muita gente acredita em crime de pensamento e tem visões puritanas sobre sexo, então, se você não se alinhar a isso, surgem custos de reputação e de captação de recursos
      Se um usuário cometer um crime com o modelo, o sistema legal que resolva; não vejo necessidade de um Big Brother fiscalizando até crime de pensamento
    • A analogia do martelo é ruim, e a analogia “se eu quiser usar armas nucleares, é minha escolha e a responsabilidade pelo mau uso também é minha” também é igualmente ruim
      Hoje a analogia do martelo pode parecer em grande parte correta, mas, na área de alinhamento de IA, acredita-se que esses sistemas em breve — no máximo dentro de 10 anos — terão capacidades muito maiores
      O estado padrão de uma ferramenta é ser moralmente neutra e tornar tanto pessoas boas quanto ruins mais eficazes; se ataque e defesa fossem simétricos, o problema seria menor, mas não há motivo para supor isso
      O motivo de existir regulação para metralhadoras automáticas de alta capacidade também é que a assimetria entre a capacidade ofensiva de um agente malicioso solitário e a impossibilidade de defesa é grande demais; se ataques com IA se tornarem muito mais fáceis do que defesa, a ideologia da abertura pode fracassar na prática
      Ainda assim, é problemático que os guardrails sejam definidos por um grupo pequeno, e isso parece um efeito colateral da IA ter chegado rápido demais
    • Se uma empresa de martelos pudesse, a custo quase zero, impedir que o martelo fosse usado para atacar pessoas, acho que muitas empresas colocariam essa função
      Poderiam fazer isso por pressão do governo ou por marketing competitivo do tipo “nosso martelo não machuca bebês por acidente”, e a ausência dessa função no martelo talvez não seja uma escolha, mas um subproduto das limitações
    • Acho que há um senso de direito exagerado
      Você também acha irritante o Photoshop impedir a edição de imagens de dinheiro? O modelo não é do usuário, e não foi o usuário quem gastou bilhões de dólares para desenvolvê-lo
      Como sempre acontece com software comercial, ou você usa nos termos definidos pelo desenvolvedor, ou simplesmente não usa
    • As pessoas que ficam com raiva das recusas parecem não entender quem são os clientes reais do mercado de IA e onde está o dinheiro
      O mercado-alvo são grandes empresas que querem automatizar várias tarefas e economizar de centenas de milhões a dezenas de bilhões de dólares em custos trabalhistas, e o que elas querem são modelos confiáveis, com informação correta e bons guardrails
      Uma grande seguradora multinacional não vai aceitar o risco de seu chatbot de atendimento ao cliente escrever erotica para um cliente levado na brincadeira
      O usuário importante não é o indivíduo, e sim os empregadores que querem substituir equipes de atendimento ao cliente que fazem trabalho emocional; eles querem substitutos humanos controlados, educados e com guardrails
  • O Opus atropelou o Gemini Pro e o GPT-4 em perguntas complexas
    Foi uma tarefa de encontrar vários números em um PDF de investimento em seguro de vida com 43 páginas, e os outros modelos nem chegaram perto
    Só o Claude 3 Sonnet chegou relativamente perto, no nível de deixar passar uma pergunta

    • Fico curioso se também compararam com a janela de contexto de 1 milhão de tokens do Gemini Pro 1.5
      Para um PDF de 43 páginas isso pode ser ideal, e eu tenho acesso, então posso testar com o Pro 1.5
    • Fiz uma pergunta sobre GAN para o Sonnet e ele foi bem decente, pareceu melhor que o GPT-3.5
    • Usei o Sonnet e não achei muito bom
  • Assinei o Claude Pro para testar o Opus, fiz perguntas complexas sobre imagens e fine-tuning de SDXL, e mandei comparar custos entre RTX 6000 Ada e H100, mas houve muitos erros
    Dei um screenshot de preços de GPU do Runpod, e ele leu o preço da RTX 6000 Ada como $0.114 em vez de $1.14; depois, nos cálculos, .278 * $0.114 e .116 * $4.69 também não batiam com os totais apresentados
    Já o ChatGPT 4 leu os preços corretamente no mesmo screenshot, percebeu sozinho que a RTX 6000 Ada não estava disponível, substituiu por uma 4090 e fez cálculos mais consistentes

    • O GPT parece usar uma função auxiliar separada para tokens de entrada e saída para corrigir o problema de tokenização
      Não vejo outra forma de corrigir isso sem identificar os itens da expressão, mandá-los para um parser artesanal e uma função, e depois reinserir o resultado nos tokens de saída
      Referência: Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
    • Como CISO da Anthropic, agradeço pelo feedback; se puder compartilhar os detalhes da imagem, seria ótimo se enviasse por mensagem privada
      Ainda não houve nenhum LLM com uma calculadora emergente
    • Fico curioso sobre o que exatamente a OpenAI quis dizer quando afirmou que o GPT-4 com visão é mais inteligente do que o GPT-4 sem visão
      Isso quer dizer que a capacidade de visão aumenta a inteligência até em tarefas sem entrada de imagem?
    • A diferença provavelmente está na leitura do screenshot; quando se fornece só o texto, parece ficar em nível parecido com o GPT-4
      Por exemplo, em uma expressão aritmética complexa, a resposta correta da calculadora era 22.08555452004, o GPT-4 sem Python deu 22.3038, e o Claude 3 Opus deu 22.0492
    • O verdadeiro destruidor econômico talvez seja quando for possível dar uma ordem como “invista esses 1.000 dólares, maximize o retorno e transforme isso em 100x”
      Depois disso, seria só soltar bots de r/wallStreetBets à vontade
  • Testei um prompt simples de tarefa de programação envolvendo banco de dados e frontend, e o Claude 3 Sonnet, que é gratuito e um modelo mais fraco, deu uma resposta melhor que o ChatGPT Classic
    Usou o método correto de uma biblioteca SQL ORM menos conhecida, enquanto o GPT-4 usou o método errado
    No entanto, em um prompt de geração de SQL ele deu uma resposta pior que o ChatGPT Classic, e embora parecesse correta, era muito mais longa
    Link do ChatGPT 1: https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
    Link do ChatGPT 2: https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba

    • Parece que naquele chat estava sendo usado GPT-3 ou um modelo mais fraco
      O ícone verde significa o modelo ChatGPT de primeira geração, provavelmente GPT-3.5 Turbo
      Ao executar com GPT-4, sai o resultado esperado: https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
      É um bom exemplo para mostrar que muitos dos casos de fracasso do ChatGPT na internet são resultados de modelos fracos
      O ícone da OpenAI com fundo verde é GPT-3.5, e os ícones preto ou roxo são GPT-4; o GPT-4 Turbo da API se saiu um pouco melhor, talvez por ter mais conhecimento sobre Drizzle
  • Depois de usar um pouco o Opus, comecei a suspeitar que os benchmarks estão sistematicamente desalinhados do desempenho real
    Na prática, não parece melhor que o GPT-4 e talvez até um pouco pior
    Em perguntas básicas de cálculo/física, mesmo tendo sido explicitado que a desaceleração era proporcional à velocidade, ele assumiu desaceleração constante; e em um teste de simulação de trânsito, esqueceu o conceito de direção discutido antes, ficando até abaixo do resultado já ruim do GPT-4
    Também foi pior em um teste de entender as cores básicas da luz depois de ser ensinado dentro do contexto, e em programação ficou ligeiramente atrás do GPT-4 em um problema de cálculo de imposto sobre ganho de capital de longo prazo

    • O canal AI Explained no YouTube já publicou um vídeo dizendo que os testes usados para avaliar LLMs estão cheios de respostas erradas e são quase inúteis
    • Parece que, depois de treinar o modelo e obter os números, a equipe de segurança o lapida até a morte com RLHF
  • O Claude 3 foi adicionado ao Chat do https://double.bot, então dá para usar para programação
    Por enquanto é gratuito, e hoje à tarde também devem colocar o Claude 3 no autocompletar
    Nos testes iniciais, parece a primeira grande alternativa de API ao GPT-4

    • Então o Double é tipo o Copilot, mas grátis? Fico curioso para saber qual é a pegadinha
    • Queria saber como ele se compara ao Codeium e se há planos de suporte à integração com Vim/Neovim
      O Codeium já tem um suporte bem decente
      https://www.codium.ai
      https://github.com/Exafunction/codeium.vim
    • Fico curioso se o Double planeja suportar também modelos open source hospedados localmente ou em instâncias na nuvem
      Estou criando um produto na mesma área e já recebi esse pedido algumas vezes; sendo uma extensão de IDE, parece que deveria conseguir se conectar a qualquer modelo de IA, esteja ele rodando onde estiver
    • A API parece menos estável que o GPT-4 no momento, mas isso é compreensível se o endpoint estiver popular logo após o lançamento
    • Mais precisamente, fico curioso se isso é o Claude 3 Opus ou o modelo Sonnet
  • Independentemente do modelo, superar o GPT-4 é algo grande, e é muito impressionante que tenham conseguido
    Ainda assim, o GPT-4 é um modelo de um ano atrás, e a OpenAI ainda não revelou o modelo da próxima geração

    • É natural esperar que o próximo modelo da OpenAI recupere a liderança, mas é muito impressionante que a Anthropic tenha alcançado esse nível
      O artigo do GPT-3 saiu em 2020, e a Anthropic só foi fundada em 2021, então, enquanto a OpenAI já acumulava experiência de três gerações, a Anthropic na prática partiu do zero e ainda assim conseguiu ficar temporariamente à frente em alguns benchmarks
      O modelo de próxima geração da OpenAI provavelmente já terminou o treinamento e está em ajuste fino e avaliação de segurança, mas como a razão de existir da Anthropic é segurança, é difícil achar que eles tenham feito essa parte de qualquer jeito só para lançar esse modelo às pressas
    • O ChatGPT-4 continua sendo atualizado, e as versões recentes são GPT-4-1106-preview e GPT-4-0125-preview
      Referência: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
    • Segundo as notas de rodapé do blog, engenheiros que otimizaram os prompts de avaliação e exemplos few-shot relataram pontuações mais altas no modelo GPT-4T mais novo
    • Pessoas que tiveram papel central no nascimento do GPT agora trabalham na Anthropic
    • Naquela tabela, a métrica que realmente importa na prática é MMLU, e ela tem forte correlação com a capacidade de raciocínio multitarefa
      Aqui ele ficou um pouquinho à frente do GPT-4, e isso por si só é impressionante, porque até agora parece que nenhum outro modelo tinha conseguido isso