Claude Fable 5/Mythos 5 apresentados, os modelos frontier de 5ª geração da Anthropic
(anthropic.com)- A Anthropic lançou modelos de 5ª geração para tarefas assíncronas de longa duração, em escala de dias. O Fable 5 é uma versão do modelo de nível Mythos tornada segura para usuários gerais, e o Mythos 5 é uma versão do mesmo modelo com algumas salvaguardas afrouxadas
- Mythos é um novo tier de modelo acima do nível Opus. O primeiro modelo, Mythos Preview, foi apresentado em abril como Project Glasswing, e hoje Fable 5 e Mythos 5 dão sequência a isso
- Origem dos nomes: Fable vem do latim fabula (“aquilo que é contado”) e é cognato do grego mythos. O que diferencia os dois modelos são as próprias salvaguardas, por isso eles receberam nomes diferentes
- O preço é de US$ 10 por 1 milhão de tokens de entrada e US$ 50 de saída, menos da metade do Mythos Preview. O nome do modelo na API é
claude-fable-5
Desempenho
- A mensagem central é que, quanto mais longa e complexa a tarefa, maior a vantagem
- Codificação: em testes prévios da Stripe, realizou em um dia a migração completa de uma base de código Ruby com 50 milhões de linhas (algo que a equipe levaria mais de dois meses para fazer manualmente). Escreveu testes por conta própria e usou visão para conferir e validar o resultado contra o design original. Na avaliação FrontierCode da Cognition, obteve a maior pontuação entre os modelos frontier mesmo em medium effort
- Agentes: em ambientes como Claude Code, opera autonomamente por vários dias, fazendo planejamento, delegação para subagentes e até autoverificação
- Visão: reconstrói o código-fonte de um webapp apenas com screenshots e completou Pokémon FireRed com um harness mínimo voltado só para visão (modelos anteriores precisavam de um harness auxiliar complexo)
- Memória: em Slay the Spire, ao receber memória persistente baseada em arquivos, teve desempenho 3 vezes melhor que o Opus 4.8, e também triplicou a frequência de chegada ao ato final
- Trabalho de conhecimento: obteve a maior pontuação entre todos os modelos no benchmark financeiro da Hebbia e passou na avaliação de análise de trading da IMC em quase todas as áreas
Benchmarks
- Alega vantagem ampla em codificação, trabalho de conhecimento, visão e uso de computador, com números como SWE-Bench Pro 80.3% (Opus 4.8: 69.2%, GPT 5.5: 58.6%), GDPval-AA 1932 e OSWorld 85.0%
- Atenção: alguns números da tabela são o maior valor entre Mythos 5 e Fable 5, e os itens com asterisco (biologia, cibersegurança etc.) vêm com a observação de que, por fallback de salvaguarda, o desempenho fica mais próximo do Opus 4.8
Resultados científicos do Mythos 5
- Acelerou em cerca de 10 vezes o processo de design de proteínas e garantiu candidatos promissores em 9 de 14 alvos. Fez seleção do sítio de ligação, execução de ferramentas e recuperação de falhas sem ajuda humana
- Em comparação cega, cientistas preferiram em cerca de 80% dos casos as hipóteses de biologia molecular. Uma hipótese (um novo mecanismo de uma proteína de E. coli) foi validada independentemente por um laboratório que estudava o mesmo problema
- Em mais de uma semana de trabalho autônomo, reuniu dados de milhões de células de 138 espécies animais, desenhou e treinou um modelo de ML customizado e superou, com tamanho 100 vezes menor, um modelo recente publicado na Science
- Avaliação de alinhamento: foi relatado que o nível de comportamento desalinhado do Mythos 5 é baixo e semelhante ao do Opus 4.8
Salvaguardas
- Há três áreas bloqueadas pelo classificador: cibersegurança, biologia e química, e destilação (tentativas de extração de capacidades para treinar modelos concorrentes de estados autoritários). Esses pedidos são automaticamente desviados para o Opus 4.8 e o usuário é avisado (quando há desvio, não há cobrança da tarifa do Fable)
- Mais de 95% das sessões não têm fallback, e as salvaguardas atuam em menos de 5% das sessões em média. Ainda assim, a empresa reconhece que elas foram ajustadas de forma conservadora e às vezes barram pedidos inofensivos, e planeja reduzir os falsos positivos
- Em mais de 1.000 horas de bug bounty externo, não foi encontrado um jailbreak universal. Ainda assim, o UK AISI mostrou progresso próximo disso em testes iniciais curtos. Em um teste de parceiro externo, para 30 técnicas públicas de jailbreak usadas em pedidos nocivos de turno único relacionados a ciberataques, o total de respostas foi 0
- Na avaliação de design de AAV (vetor de entrega para terapia gênica), o nível Mythos superou modelos de linguagem de proteínas dedicados usando apenas raciocínio biológico. Isso é apresentado como evidência de risco de uso dual
- O uso exige retenção de dados por 30 dias para fins de monitoramento de segurança. Isso vale para todo o tráfego, tanto 1st party quanto 3rd party, não é usado para treinamento do modelo nem para fins não relacionados à segurança, há registro de acesso humano e os dados são apagados após 30 dias
Preço e lançamento
- Disponível no plano Enterprise (baseado em consumo), na Claude Platform, AWS, GCP e Microsoft Foundry
- Os planos de assinatura terão rollout gradual: de 9 a 22 de junho, inclusão gratuita em Pro, Max, Team e Enterprise por assento. A partir de 23 de junho, isso será removido e passará a exigir créditos de uso. A configuração padrão deve ser restaurada quando houver capacidade suficiente. A API e o Enterprise baseado em consumo têm disponibilidade total a partir de hoje
- O Mythos 5 pode ser adotado a partir de hoje por usuários atuais do Mythos Preview (como parceiros do Glasswing). Na maioria dos casos, é semelhante ou um pouco mais forte que o Preview, com custo muito menor. A empresa afirma ter a capacidade de cibersegurança mais forte do mundo
- Também será criado um programa separado de trusted access para biologia (no Fable 5, apenas as salvaguardas de biologia e química serão desativadas, enquanto as de cibersegurança serão mantidas)
Ainda não há comentários.