Claude Fable 5/Mythos 5 apresentados, os modelos frontier de 5ª geração da Anthropic

boradi · 2026-06-10T02:46:30+09:00

A Anthropic lançou modelos de 5ª geração para tarefas assíncronas de longa duração, em escala de dias. O Fable 5 é uma versão do modelo de nível Mythos tornada segura para usuários gerais, e o Mythos 5 é uma versão do mesmo modelo com algumas salvaguardas afrouxadas Mythos é um novo tier de modelo acima do nível Opus. O primeiro modelo, Mythos Preview, foi apresentado em abril como Project Glasswing, e hoje Fable 5 e Mythos 5 dão sequência a isso Origem dos nomes: Fable vem do latim fabula (“aquilo que é contado”) e é cognato do grego mythos. O que diferencia os dois modelos são as próprias salvaguardas, por isso eles receberam nomes diferentes O preço é de US$ 10 por 1 milhão de tokens de entrada e US$ 50 de saída, menos da metade do Mythos Preview. O nome do modelo na API é claude-fable-5 Desempenho A mensagem central é que, quanto mais longa e complexa a tarefa, maior a vantagem Codificação: em testes prévios da Stripe, realizou em um dia a migração completa de uma base de código Ruby com 50 milhões de linhas (algo que a equipe levaria mais de dois meses para fazer manualmente). Escreveu testes por conta própria e usou visão para conferir e validar o resultado contra o design original. Na avaliação FrontierCode da Cognition, obteve a maior pontuação entre os modelos frontier mesmo em medium effort Agentes: em ambientes como Claude Code, opera autonomamente por vários dias, fazendo planejamento, delegação para subagentes e até autoverificação Visão: reconstrói o código-fonte de um webapp apenas com screenshots e completou Pokémon FireRed com um harness mínimo voltado só para visão (modelos anteriores precisavam de um harness auxiliar complexo) Memória: em Slay the Spire, ao receber memória persistente baseada em arquivos, teve desempenho 3 vezes melhor que o Opus 4.8, e também triplicou a frequência de chegada ao ato final Trabalho de conhecimento: obteve a maior pontuação entre todos os modelos no benchmark financeiro da Hebbia e passou na avaliação de análise de trading da IMC em quase todas as áreas Benchmarks Alega vantagem ampla em codificação, trabalho de conhecimento, visão e uso de computador, com números como SWE-Bench Pro 80.3% (Opus 4.8: 69.2%, GPT 5.5: 58.6%), GDPval-AA 1932 e OSWorld 85.0% Atenção: alguns números da tabela são o maior valor entre Mythos 5 e Fable 5, e os itens com asterisco (biologia, cibersegurança etc.) vêm com a observação de que, por fallback de salvaguarda, o desempenho fica mais próximo do Opus 4.8 Resultados científicos do Mythos 5 Acelerou em cerca de 10 vezes o processo de design de proteínas e garantiu candidatos promissores em 9 de 14 alvos. Fez seleção do sítio de ligação, execução de ferramentas e recuperação de falhas sem ajuda humana Em comparação cega, cientistas preferiram em cerca de 80% dos casos as hipóteses de biologia molecular. Uma hipótese (um novo mecanismo de uma proteína de E. coli) foi validada independentemente por um laboratório que estudava o mesmo problema Em mais de uma semana de trabalho autônomo, reuniu dados de milhões de células de 138 espécies animais, desenhou e treinou um modelo de ML customizado e superou, com tamanho 100 vezes menor, um modelo recente publicado na Science Avaliação de alinhamento: foi relatado que o nível de comportamento desalinhado do Mythos 5 é baixo e semelhante ao do Opus 4.8 Salvaguardas Há três áreas bloqueadas pelo classificador: cibersegurança, biologia e química, e destilação (tentativas de extração de capacidades para treinar modelos concorrentes de estados autoritários). Esses pedidos são automaticamente desviados para o Opus 4.8 e o usuário é avisado (quando há desvio, não há cobrança da tarifa do Fable) Mais de 95% das sessões não têm fallback, e as salvaguardas atuam em menos de 5% das sessões em média. Ainda assim, a empresa reconhece que elas foram ajustadas de forma conservadora e às vezes barram pedidos inofensivos, e planeja reduzir os falsos positivos Em mais de 1.000 horas de bug bounty externo, não foi encontrado um jailbreak universal. Ainda assim, o UK AISI mostrou progresso próximo disso em testes iniciais curtos. Em um teste de parceiro externo, para 30 técnicas públicas de jailbreak usadas em pedidos nocivos de turno único relacionados a ciberataques, o total de respostas foi 0 Na avaliação de design de AAV (vetor de entrega para terapia gênica), o nível Mythos superou modelos de linguagem de proteínas dedicados usando apenas raciocínio biológico. Isso é apresentado como evidência de risco de uso dual O uso exige retenção de dados por 30 dias para fins de monitoramento de segurança. Isso vale para todo o tráfego, tanto 1st party quanto 3rd party, não é usado para treinamento do modelo nem para fins não relacionados à segurança, há registro de acesso humano e os dados são apagados após 30 dias Preço e lançamento Disponível no plano Enterprise (baseado em consumo), na Claude Platform, AWS, GCP e Microsoft Foundry Os planos de assinatura terão rollout gradual: de 9 a 22 de junho, inclusão gratuita em Pro, Max, Team e Enterprise por assento. A partir de 23 de junho, isso será removido e passará a exigir créditos de uso. A configuração padrão deve ser restaurada quando houver capacidade suficiente. A API e o Enterprise baseado em consumo têm disponibilidade total a partir de hoje O Mythos 5 pode ser adotado a partir de hoje por usuários atuais do Mythos Preview (como parceiros do Glasswing). Na maioria dos casos, é semelhante ou um pouco mais forte que o Preview, com custo muito menor. A empresa afirma ter a capacidade de cibersegurança mais forte do mundo Também será criado um programa separado de trusted access para biologia (no Fable 5, apenas as salvaguardas de biologia e química serão desativadas, enquanto as de cibersegurança serão mantidas)

(anthropic.com)

20 pontos por boradi 2026-06-10 | 14 comentários | Compartilhar no WhatsApp

A Anthropic lançou modelos de 5ª geração para tarefas assíncronas de longa duração, em escala de dias. O Fable 5 é uma versão do modelo de nível Mythos tornada segura para usuários gerais, e o Mythos 5 é uma versão do mesmo modelo com algumas salvaguardas afrouxadas
Mythos é um novo tier de modelo acima do nível Opus. O primeiro modelo, Mythos Preview, foi apresentado em abril como Project Glasswing, e hoje Fable 5 e Mythos 5 dão sequência a isso
Origem dos nomes: Fable vem do latim fabula (“aquilo que é contado”) e é cognato do grego mythos. O que diferencia os dois modelos são as próprias salvaguardas, por isso eles receberam nomes diferentes
O preço é de US$ 10 por 1 milhão de tokens de entrada e US$ 50 de saída, menos da metade do Mythos Preview. O nome do modelo na API é claude-fable-5

Desempenho

A mensagem central é que, quanto mais longa e complexa a tarefa, maior a vantagem
Codificação: em testes prévios da Stripe, realizou em um dia a migração completa de uma base de código Ruby com 50 milhões de linhas (algo que a equipe levaria mais de dois meses para fazer manualmente). Escreveu testes por conta própria e usou visão para conferir e validar o resultado contra o design original. Na avaliação FrontierCode da Cognition, obteve a maior pontuação entre os modelos frontier mesmo em medium effort
Agentes: em ambientes como Claude Code, opera autonomamente por vários dias, fazendo planejamento, delegação para subagentes e até autoverificação
Visão: reconstrói o código-fonte de um webapp apenas com screenshots e completou Pokémon FireRed com um harness mínimo voltado só para visão (modelos anteriores precisavam de um harness auxiliar complexo)
Memória: em Slay the Spire, ao receber memória persistente baseada em arquivos, teve desempenho 3 vezes melhor que o Opus 4.8, e também triplicou a frequência de chegada ao ato final
Trabalho de conhecimento: obteve a maior pontuação entre todos os modelos no benchmark financeiro da Hebbia e passou na avaliação de análise de trading da IMC em quase todas as áreas

Benchmarks

Alega vantagem ampla em codificação, trabalho de conhecimento, visão e uso de computador, com números como SWE-Bench Pro 80.3% (Opus 4.8: 69.2%, GPT 5.5: 58.6%), GDPval-AA 1932 e OSWorld 85.0%
Atenção: alguns números da tabela são o maior valor entre Mythos 5 e Fable 5, e os itens com asterisco (biologia, cibersegurança etc.) vêm com a observação de que, por fallback de salvaguarda, o desempenho fica mais próximo do Opus 4.8

Resultados científicos do Mythos 5

Acelerou em cerca de 10 vezes o processo de design de proteínas e garantiu candidatos promissores em 9 de 14 alvos. Fez seleção do sítio de ligação, execução de ferramentas e recuperação de falhas sem ajuda humana
Em comparação cega, cientistas preferiram em cerca de 80% dos casos as hipóteses de biologia molecular. Uma hipótese (um novo mecanismo de uma proteína de E. coli) foi validada independentemente por um laboratório que estudava o mesmo problema
Em mais de uma semana de trabalho autônomo, reuniu dados de milhões de células de 138 espécies animais, desenhou e treinou um modelo de ML customizado e superou, com tamanho 100 vezes menor, um modelo recente publicado na Science
Avaliação de alinhamento: foi relatado que o nível de comportamento desalinhado do Mythos 5 é baixo e semelhante ao do Opus 4.8

Salvaguardas

Há três áreas bloqueadas pelo classificador: cibersegurança, biologia e química, e destilação (tentativas de extração de capacidades para treinar modelos concorrentes de estados autoritários). Esses pedidos são automaticamente desviados para o Opus 4.8 e o usuário é avisado (quando há desvio, não há cobrança da tarifa do Fable)
Mais de 95% das sessões não têm fallback, e as salvaguardas atuam em menos de 5% das sessões em média. Ainda assim, a empresa reconhece que elas foram ajustadas de forma conservadora e às vezes barram pedidos inofensivos, e planeja reduzir os falsos positivos
Em mais de 1.000 horas de bug bounty externo, não foi encontrado um jailbreak universal. Ainda assim, o UK AISI mostrou progresso próximo disso em testes iniciais curtos. Em um teste de parceiro externo, para 30 técnicas públicas de jailbreak usadas em pedidos nocivos de turno único relacionados a ciberataques, o total de respostas foi 0
Na avaliação de design de AAV (vetor de entrega para terapia gênica), o nível Mythos superou modelos de linguagem de proteínas dedicados usando apenas raciocínio biológico. Isso é apresentado como evidência de risco de uso dual
O uso exige retenção de dados por 30 dias para fins de monitoramento de segurança. Isso vale para todo o tráfego, tanto 1st party quanto 3rd party, não é usado para treinamento do modelo nem para fins não relacionados à segurança, há registro de acesso humano e os dados são apagados após 30 dias

Preço e lançamento

Disponível no plano Enterprise (baseado em consumo), na Claude Platform, AWS, GCP e Microsoft Foundry
Os planos de assinatura terão rollout gradual: de 9 a 22 de junho, inclusão gratuita em Pro, Max, Team e Enterprise por assento. A partir de 23 de junho, isso será removido e passará a exigir créditos de uso. A configuração padrão deve ser restaurada quando houver capacidade suficiente. A API e o Enterprise baseado em consumo têm disponibilidade total a partir de hoje
O Mythos 5 pode ser adotado a partir de hoje por usuários atuais do Mythos Preview (como parceiros do Glasswing). Na maioria dos casos, é semelhante ou um pouco mais forte que o Preview, com custo muito menor. A empresa afirma ter a capacidade de cibersegurança mais forte do mundo
Também será criado um programa separado de trusted access para biologia (no Fable 5, apenas as salvaguardas de biologia e química serão desativadas, enquanto as de cibersegurança serão mantidas)

14 comentários

makekr 2026-06-11

Mesmo quando você pede para reforçar a segurança do seu próprio projeto, aquelas travas de segurança acabam bloqueando.
Lançar isso nesse estado me dá a sensação de que não passa de uma demonstração tecnológica para fins de IPO.

wkang586 2026-06-10

Disseram que já dá para usar no Cursor a partir de hoje, então fui procurar avaliações para ver como está, mas por enquanto ainda não há muita informação.
Dizem que a pontuação nos benchmarks de desempenho é maior que a do Opus, então acho que só testando para saber.
Fico preocupado com quantos tokens ele vai consumir.

gkhcdef 2026-06-11

É um plano 5x mais caro, mas basta rodar uma revisão de código uma vez e ele fica trabalhando por 40 minutos, consumindo todo o limite de 5 horas ;;;; Nem toda revisão de código usa tanto assim, e às vezes ele encontra bons pontos de melhoria, mas enfim...
Falando com um pouco de sarcasmo, se o opus ou o gpt também "trabalhassem tão duro" nesse nível, acho que a diferença no resultado não seria tão grande. Em algumas áreas, trabalhar assim por 40 minutos pode até ser uma vantagem enorme, mas

bluekai17 2026-06-11

Usei ontem e realmente o consumo de tokens acaba bem rápido. A qualidade do código parece ter melhorado, e ele até lida com revisão e questões de segurança de uma vez só.

seoseonyu 2026-06-10

Queria experimentar, mas mesmo pagando pelo Claude,
depois de 23 de junho isso deixa de contar no uso da assinatura, então não anima muito...

awbrg789 2026-06-10

Concordo..

savvykang 2026-06-10

Durante a conversa sobre aquele link, quando mencionei um caso em que o Fable se recusou a resolver uma questão de Biologia I do exame CSAT, ele forçou a mudança para o Opus 4.8 dizendo que o assunto da conversa era perigoso. Estou considerando seriamente fazer downgrade do plano.

dhkd63 2026-06-10

Estou pensando se mudo do Claude para o Codex ou não,
mas não sei. Primeiro vou usar um pouco para ver.

winkagn 2026-06-10

Primeiro, como disseram que os tokens se esgotam 2 vezes mais rápido do que no Opus, eu testei, mas sinceramente não senti muita diferença... E, dependendo da tarefa, há casos em que ele muda automaticamente para o modelo Opus pelos seguintes motivos. (https://support.claude.com/en/articles/15363606)

bluekai17 2026-06-11

Dá para sentir claramente o consumo de tokens. Parece que a troca acontece automaticamente quando o sistema julga que há uma questão sensível de segurança, mas esse limite ainda parece alto demais.

newdps 2026-06-10

Estava usando o codex, experimentei rapidinho e acabei pagando 200 dólares na hora.

shakespeares 2026-06-10

Quais foram as vantagens?

jimmy2056 2026-06-10

Pela minha percepção, a qualidade do trabalho é adequada e o uso de tokens é baixo. Os 200 dólares do Claude não dão conta, mas os 200 dólares do Codex sobram.