É assim que é trabalhar com Mythos

(oneusefulthing.org)

11 pontos por GN⁺ 2026-06-11 | 3 comentários | Compartilhar no WhatsApp

O primeiro modelo de classe Mythos Claude 5 Fable disponibilizado publicamente recebe especificações em várias etapas e executa tarefas por conta própria por até mais de dez horas, superando com ampla margem todos os modelos já usados anteriormente
Com um único prompt e apenas uma rodada de feedback, gera desde um artigo acadêmico sofisticado de ciências sociais até um poema rimado de 10 páginas em que todas as palavras começam com a letra s
Durante o trabalho, executa diretamente outras IAs (principalmente o Claude Sonnet, mais barato) para dividir pesquisa, programação e validação, reunindo mais de 2.200 voos e horários ferroviários, além de dados de velocidade de estradas por país
O papel do usuário é reduzido a dar instruções e julgar o resultado, enquanto o processo de decisão do modelo não é exposto, funcionando como uma caixa-preta definitiva
A relação com a IA está mudando de um 'mago' que trabalha diretamente para um 'patrono (patron)' que encomenda e avalia resultados, levantando a possibilidade de que, quanto mais poderosa a capacidade, menor seja o espaço para intervenção humana

Desempenho e experiência de uso do Claude 5 Fable - Ethan Mollick

Houve a oportunidade de testar antecipadamente (Early Access) o Claude 5 Fable, o primeiro modelo de IA de classe Mythos a ser apresentado ao público
O Claude 5 Fable é o primeiro modelo de IA de classe Mythos a ser lançado; embora haja muita discussão sobre seu impacto em segurança de software, os testes foram conduzidos fora dessa área
Os guardrails do Fable operam a ponto de praticamente impedir seu uso para fins de cibersegurança
Em vários experimentos, o Fable mostrou desempenho consideravelmente superior ao de quase todos os modelos públicos usados anteriormente
O Fable demonstrou capacidade em vários problemas e executou tarefas por até cerca de 12 horas com base em especificações de várias páginas

Desempenho e resultados do Fable

Em todos os experimentos realizados, superou com boa margem outros modelos públicos e confirmou melhora geral de desempenho em todas as tarefas
Com um único prompt e uma rodada de feedback, gerou o artigo acadêmico de ciências sociais mais sofisticado já produzido por uma IA até agora
- Também produziu um poema rimado de 10 páginas sobre barbeiro em que todas as palavras começam com a letra s
No Claude Code, criou jogos jogáveis com apenas um prompt inicial vago e algum feedback adicional simples como "make it better"
- O jogo de cara ou coroa começou com o prompt “Balatro, but for the game of coin flips”
- O jogo da cobrinha autoconsciente tem uma estrutura em que a cobra ganha autoconsciência e coisas estranhas acontecem
- O jogo de descida às profundezas gira em torno de descer cada vez mais para ver o que existe lá embaixo
- Como o Claude não consegue gerar imagens, toda a arte e todos os objetos 3D foram implementados apenas com operações matemáticas, sem assets externos
Quanto mais séria a tarefa, mais a experiência de usar a ferramenta fica entre o prazer e a ansiedade — porque, ao pedir algo, aquilo realmente acontece

Maps and Methods — caso de criação de mapa isócrono

Um mapa isócrono (isochrone map) é um mapa que mostra a distância alcançável dentro de um determinado tempo; o primeiro exemplo foi criado em 1881 para mostrar tempos de deslocamento a partir de Londres
Modelos anteriores não conseguiam produzir esse tipo de mapa de forma minimamente útil, porque isso exigia investigar milhares de distâncias potenciais de deslocamento e fazer muitas pequenas decisões
Forma de execução do trabalho
- Foi inserido um prompt pedindo um mapa com design próprio, baseado em dados reais, refletindo a escolha de cidades, aeroportos, trens, caminhada e direção; especificou-se que os dados não precisavam ser em tempo real, mas sim reais e baseados em pesquisa
- O modelo primeiro sugeriu produzir no estilo original de 1881, e o trabalho começou após a concordância
- Ao longo de uma sessão de build de várias horas, executou várias outras IAs (principalmente o Claude Sonnet, mais barato) para pesquisar tempos de deslocamento
  - Reuniu horários ferroviários de TGV a Shinkansen, velocidades rodoviárias por país com base em vários artigos acadêmicos e mais de 2.200 dados específicos de voos
- Enquanto os agentes de pesquisa rodavam, começou a programar, executou agentes adicionais e testes para validar o código e registrou o andamento
Ajuste de regiões remotas e uso de tokens
- Como regiões remotas como a Groenlândia continham apenas estimativas em vez de valores exatos, foi orientado a corrigir isso para obter tempos reais de deslocamento
- Desta vez, foi executado um fluxo de trabalho com grupos de agentes adversariais (adversarial groups) que pesquisavam e validavam mutuamente os resultados
- Calculou a frequência de barcos para Pitcairn Island, no Pacífico, e a rota de Ottawa até Grise Fjord
- Consumiu uma enorme quantidade de tokens em pouco tempo
O que o usuário fez foi apenas dar instruções ambiciosas e um pouco de feedback; o modelo tomou diretamente centenas de pequenas decisões, sem chance de entender ou intervir nessas escolhas
- Não só a carga de trabalho, mas também o controle sobre o método do modelo, a escolha de abordagem e a profundidade do resultado fica limitado
O resultado é oferecido como um mapa isócrono clicável, e o método e as fontes podem ser conferidos na parte inferior do gráfico

Working with a Mythos-class model — caso Concord

O projeto mais ambicioso foi uma tarefa de pesquisa para classificar adequadamente respostas humanas bagunçadas — julgando, por exemplo, quão inovadora é uma ideia ou por que as pessoas gostam de determinado livro
- Antes, pesquisadores humanos faziam esses julgamentos e depois os comparavam estatisticamente com outras respostas para verificar a confiabilidade dos dados
- A calibração entre julgamentos de IA e humanos é difícil e cara
Foi pedido ao Fable que resolvesse esse problema; ele primeiro gerou um documento complexo de design de 19 páginas e depois o executou
- O Fable trabalhou nisso por 9 horas e 30 minutos
O resultado foi um software que a IA batizou de Concord, capaz de receber múltiplos datasets, calibrar respostas humanas e de IA e realizar análises complexas de dados
- Não era perfeito, e do ponto de vista de um especialista foram encontrados alguns erros e omissões (alguns originados no design solicitado), levando a pedidos de correção
- O que foi entregue superou qualquer coisa já vista antes e era um software de que pesquisadores precisavam havia anos, mas que não era desenvolvido por falta de rentabilidade
- Possíveis bugs remanescentes podem ser resolvidos por engenheiros de software, e pode até ser necessário mais programadores para lidar com a explosão no uso desse novo software
- O código do Concord pode ser usado ou modificado no repositório do GitHub

Limites e restrições

O poder do Fable vem acompanhado de estranheza e limitações
Custo de tokens
- O Fable é 2 vezes mais caro que o Opus e, em produção, consome tokens rapidamente em um nível descrito como "bastante"
- Ainda assim, a delegação inteligente para modelos mais baratos pode reduzir bastante o custo real
Guardrails e estilo
- Ao menor sinal de problema de segurança, os guardrails entram em ação e trocam para o Claude 4.8 Opus, de desempenho inferior, e isso acontece com frequência excessiva
- As discussões sobre Mythos se concentraram principalmente no impacto em segurança de software, mas os guardrails do Fable praticamente bloqueiam seu uso em cibersegurança
- Ainda existe uma fronteira irregular (jagged frontier), e permanece um estilo característico de "Claudism" nos resultados e relatórios de progresso

De mago a patrono — a mudança no papel humano

No ano passado, essa experiência foi comparada a um mago (wizard) em que você lança um feitiço e algo acontece
No Fable, o feitiço ficou poderoso o bastante para que o usuário se aproxime mais de um patrono (patron) do que de um mago
- Você descreve o que quer, paga o custo e julga o resultado — o trabalho real de conjuração acontece fora de vista, por meio de centenas de pequenas escolhas
- O trabalho se desloca do processo para o resultado, e agora não se conduz (steer), mas se encomenda (commission)
Duas possibilidades
- Isso pode ser um fenômeno temporário, em que a interface ainda não acompanhou, e talvez surjam formas melhores de observar o funcionamento do modelo e conduzi-lo no meio do processo
- Ou, ao contrário, quanto mais competente o modelo se torna, menos coisas significativas restam para os humanos fazerem, e a caixa-preta pode ser o preço dessa capacidade
Não se trata de uma perda de controle em sentido evidente; ainda é possível conduzi-lo e ele segue instruções muito bem — quanto mais ambiciosas as instruções, melhor o resultado
- Porém, conduzir já não equivale a executar diretamente: o modelo aciona seus próprios agentes para pesquisar, escrever, validar entre si e, por fim, devolver o resultado completo
- Em vez de um patrono encomendando a um único artista, o Fable se parece mais com um estúdio inteiro, no qual só se aprova o resultado final sem sequer pisar no local de trabalho

3 comentários

kaydash 28 일 전

Travou, recusou e, no fim das contas, o modelo ficou inutilizável.

GN⁺ 2026-06-11

Comentários do Hacker News

É interessante que este texto quase não tenha conteúdo concreto sobre a qualidade do código gerado nem sobre o veículo em si
Fico curioso para saber se o código tem documentação e testes, se dá para entender e estender, se é seguro e quais linguagens, frameworks e bancos de dados foram usados. O autor falou de julgamento e bom gosto, mas não sei se o código de fato foi escrito com bom gosto. Também fico na dúvida se, ao pedir para adicionar um recurso novo, o modelo vai reorganizar toda a estrutura de novo e gastar mais 9,5 horas de tokens. A parte de pesquisa provavelmente depende de conhecimento de domínio — isto é, como converter tempo de forma agradável de visualizar para cada tipo de viagem — e também queria saber como o autor validou isso
Essas perguntas não se aplicam só à IA. Se eu pagasse uma agência humana e recebesse um entregável que “funciona”, perguntaria exatamente as mesmas coisas. Se eu não soubesse avaliar, contrataria alguém que soubesse. O ponto que mais pega em LLM é a validação
- Quase nunca é um engenheiro de software que escreve esse tipo de texto; geralmente é executivo de tecnologia, engenheiro aposentado ou VC
  Este autor parece ser professor da Wharton School of Management. Pessoas assim não precisam lançar nem manter um produto real; é mais parecido com fazer um projeto paralelo
  Uma perspectiva realmente sólida de engenharia de software eu quase só vi no Mitchell Hashimoto
- Estou começando a perceber que LLM é realmente forte para criar projetos de baixo risco
  As perguntas acima em geral partem de um risco maior: software que será mantido por muito tempo, cujos requisitos evoluem e em que erros não são aceitáveis
  O jeito de usar bem LLM em software parece ser aprender a transformar todos os projetos em projetos de baixo risco
- Quase toda a discussão sobre LLM nos últimos 2 anos foi assim
  Quando você pede conteúdo concreto, chovem respostas do tipo “mas humanos também não fazem isso bem!”. Há pouquíssima base quantitativa e muita retórica pura
- Conforme os modelos melhoram, começo a achar que talvez não importe tanto como o código se parece
  Se o comportamento observável do software é bom, então o software é bom. Se o modelo consegue corrigir qualquer tipo de bug numa codebase feita com vibe coding, então é um bug corrigível. Se não há vulnerabilidades exploráveis, é código seguro; se a performance é suficiente, é código com boa performance
  Se por fora ele faz o que precisa fazer, e por dentro o modelo consegue corrigir os problemas quando eles aparecem, então o formato do código não importa. Engenharia de software virou, mais do que nunca, o trabalho de verificar se o código se comporta como deveria
  E mesmo que a forma do código importe, isso também pode ser consertado pelo modelo
- Cliquei em um dos exemplos, o “jogo da cobrinha em que a cobra ganha autoconsciência e coisas estranhas acontecem”, e depois de jogar por 1 ou 2 minutos parecia só um Snake estilo anos 1980
  Não sei o que deixei passar. Essa “autoconsciência” são algumas mensagens engraçadinhas na parte de baixo da tela? E também não entendi quais seriam as “coisas estranhas”
Coloquei no Fable alguns modelos que eu estava validando manualmente
Mais ou menos assim: eu fazia o Opus modelar um cenário, pedia para mostrar a matemática, corrigia, iterava e no fim conferia de novo se o código batia com a lógica do modelo. O Fable encontrou quase todos os erros que eu tinha achado e ainda fez sugestões interessantes sobre variáveis adicionais
Só que ele torrou o limite de uso como um Hummer do fim dos anos 90
- Estou no plano Max 5x, e o Fable queimou 16% do limite semanal em uma sessão de code review de 40 minutos
  Nem terminou a revisão, e justamente na parte crítica de segurança de memória onde eu mais precisava do Fable acabei voltando para o Opus 4.8
  Estou com a sensação de que logo não vou conseguir usar esses modelos por causa do preço. Acho que preciso espremer o Fable ao máximo até 22 de junho
- A pergunta mais importante é esta: qual é o retorno sobre o investimento aqui?
Hoje testei o Fable num projeto pessoal e ele parece bem sólido, mas não está tão distante assim do 4.8
As mesmas alucinações, os mesmos tipos de bug, a mesma tendência em projetos grandes de fazer só o que foi pedido e ignorar o que aquilo pode tocar, quebrar ou afetar. No começo ele roda testes, mas conforme o contexto cresce diz que “vai rodar depois” e, a menos que você mande com palavrão no meio, no fim nunca roda
Vou continuar usando, mas por enquanto parece uma melhoria incremental, não um nível “MEU DEUS MEU DEUS MEU DEUS o Mythos chegou!”
- Minha experiência foi o oposto. O Fable parecia prever tudo e fazer tudo sem eu precisar pedir
  Foi muito impressionante e agradável de usar junto
  Não seria um fenômeno estranho, porque quando assinei pela primeira vez o Opus também era exatamente assim. Existe um meme bem difundido de que a Anthropic enfraqueceu o Opus por falta de capacidade; não sei se é verdade. Mas fico curioso se o Fable vai ter o mesmo destino
- No meu projeto, o Fable viu imediatamente com clareza coisas que o 4.8 deixou passar
  Mas depois de me impressionar bastante ao superar esses problemas em cascata, pouco tempo depois caiu naquele loop infinito de sempre, falando sem parar em vez de realmente fazer algo, e às vezes parava de vez até eu pressionar de novo
  Então não é AGI. Ainda assim, é sem dúvida uma melhora real
Esta frase curta do texto assusta: “Mas um engenheiro de software vai lapidar os bugs potenciais restantes que eu não encontrei rápido”
Todo desenvolvedor de software sabe que isso é uma suposição muito perigosa e irrealista
- Isso é basicamente uma frasezinha que empurra com facilidade todo o trabalho de verdade para outra pessoa
Li os primeiros parágrafos do texto que o autor chama de “o artigo acadêmico de ciências sociais mais sofisticado já feito por IA”, mas não achei tão impressionante quanto eu esperava
É algo do tipo: “As crenças posteriores sobre demanda de mercado são puramente dependentes de ponto de referência. Mantendo constante o valor arrecadado, os fundadores acompanham apenas o desempenho em relação à meta que eles mesmos definiram. Há um salto de meio desvio padrão no limiar, uma reação acentuada nos primeiros 10 pontos depois disso e depois um achatamento”
Normalmente as pessoas não explicam dados em palavras desse jeito. O documento de resumo também passa bastante a sensação de conteúdo inflado
Aqui é onde o problema aparece de forma mais perfeita
O autor colocou no prompt que todos os dados deveriam ser reais e validados, e depois simplesmente acreditou que era assim. Fez isso até num projeto baseado em dados. As pessoas vão fazer a mesma coisa em incontáveis tarefas, inclusive importantes
- Eu queria ter aprendido isso mais cedo na vida: se ninguém vai conferir, eu poderia ter inventado coisas plausíveis muito mais vezes
O trecho “trabalhou por 9 horas e meia” e a parte “não foi perfeito. Encontrei alguns erros e omissões como especialista e fiz a IA corrigi-los” chamaram atenção.
Não espero gastar tanto tempo em um único problema por dia, nem espero gastar tanto tempo corrigindo de novo um resultado cujo loop principal de recompensa dura várias horas.
Meus clientes atualmente estão exigindo que o tempo de resposta dos agentes caia de 85 segundos para menos de 20 segundos.
Ao mesmo tempo, ver a indústria caminhando para fluxos de trabalho de mais de uma hora via agentes parece muito dissonante.
- Para defender o Claude, por incrível que pareça vou defendê-lo, não conheço nenhum desenvolvedor solo que consiga fazer algo como o Concord a partir de um documento de design de 19 páginas em 9,5 horas de trabalho.
  Vamos voltar aos tempos em que o chefe perguntava por que você só estava sentado ali. Só que, em vez de dizer “está compilando”, você vai dizer “estou esperando o Claude”.
- Neste ponto, se me pagarem muito mais, eu faço.
- Meu Opus 4.8 regularmente leva mais de 10 minutos até para um pedido único de programação que não é trivial.
- Tempo de trabalho não é uma métrica tão valiosa assim.
  Em geral, é melhor definir o processo diretamente em código e fazer esse código delegar blocos de trabalho aos modelos. O único problema real é que fica mais difícil aproveitar os descontos de assinatura dos provedores.
  Por outro lado, fica mais fácil fazer o roteamento de modelos por conta própria. Ainda não vi uma forma de um chatbot genérico manter consistência em fluxos de trabalho que duram dias ou semanas.
- Quando os modelos QWEN apareceram, já achei que tínhamos entrado na parte sigmoide da curva.
  Se você estruturar o projeto direito, dá para apontar para o ponto de expansão desejado e deixar rodando por uns 30 minutos para ampliar a funcionalidade. Ele não consegue operar efetivamente em “modo deus” sobre o código inteiro, mas, como observador cuidadoso e especialista em código, não exige necessariamente mais de 128GB de VRAM.
  É impressionante como os modelos mais recentes sem diálogo chegaram tão longe, e, quando a China começar a fabricar silício para esse tipo de modelo, acho que vai encerrar a disputa.
Estou muito curioso sobre qual foi o prompt do poema.
A ideia era familiar, então fui cavucar e encontrei um poema de 14 anos atrás no reddit: [https://www.reddit.com/r/RedditDayOf/comments/tjjw2/may_12_a...]
Não é tão longo quanto o que o autor compartilhou, mas é a mesma ideia.
Isso vem de “The Cyberiad”, uma coletânea de fábulas de ficção científica do escritor polonês Stanislaw Lem. Em uma das histórias, o construtor de robôs Trurl cria uma máquina de escrever poemas, e seu rival invejoso Klapaucian exige da máquina: “Um poema sobre um corte de cabelo! Mas sublime, nobre, trágico, eterno, sobre amor e traição, retribuição, heroísmo silencioso, diante de uma ruína certa! Seis versos, com rimas engenhosas, e todas as palavras devem começar com s!”
O computador responde assim:
“Seduced, shaggy Samson snored.
She scissored short. Sorely shorn,
Soon shackled slave, Samson sighed.
Silently scheming,
Sightlessly seeking
Some savage, spectacular suicide”
Parece inevitável que o autor tenha se referido a essa cena ao lançar o desafio para Fable/Mythos. Fico curioso sobre o prompt exato.
- O interessante é que isso é uma dificuldade da tradução para o inglês.
  A tradução inglesa usa letra inicial e palavras diferentes do original em polonês:
  Cyprian cyberotoman, cynik, ceniąc czule
  Czarnej córy cesarskiej cud ciemnego ciała,
  Ciągle cytrą czarował. Czerwieniała cała,
  Cicha, co-dzień czekała, cierpiała, czuwała...
  ... Cyprian ciotkę całuje, cisnąwszy czarnulę!!
  Dá para comparar o trabalho do tradutor com um LLM. Ambos são trabalhos derivados e atuam sob restrições, mas ainda têm espaço para criatividade.
- Em vez de o autor ter feito referência à cena, como a Anthropic licenciou comentários do reddit, ela também pode simplesmente ter absorvido isso dos dados de treinamento.
Como ele ainda não usou nem por uma hora, é preciso levar em conta que ele está empolgado com uma tecnologia nova.
No caso do meu projeto (https://github.com/tsz-org/tsz), fiquei repetidamente frustrado porque os modelos não investigavam o suficiente nem consideravam outros contextos. O modelo gerava código para corrigir uma coisa e repetidamente quebrava dois testes “aparentemente não relacionados”.
O Fable parece demorar muito mais nas tarefas, e eu ainda não vi um pull request vindo de uma sessão do Fable, mas, ao ler os registros da sessão, dá para ver que ele está fazendo a coisa certa de um jeito que tenta não deixar pedra sobre pedra.
Como o texto também diz, esse “feeling” desses modelos varia demais de projeto para projeto e é difícil de transmitir, mas estou compartilhando assim mesmo.
- Isso não seria um sinal de que o projeto talvez não tenha uma estrutura em que seja fácil adicionar funcionalidades de forma incremental?
Fico curioso para saber no que vocês estão trabalhando para sentir uma diferença tão grande entre Mythos e Opus
Eu também acho que faço trabalhos bem avançados, mas muitas vezes só o Deepseek já basta. Por que todo mundo aqui parece ser gênio?
- Depende do que você está fazendo
  Se você tenta criar um videogame no nível de bons indies como Hades ou Baazar, com elementos de UI orgânicos, interativos e com sensação de animação, efeitos visuais, shaders complexos etc., nenhum modelo é nem de longe suficiente para concluir isso com facilidade. Uma boa parte dos problemas que aparecem em jogos no top 3% é realmente difícil para qualquer modelo com prompts simples
  Pessoalmente, gosto de programar e aprender por conta própria, então não ligo muito, e algo como o DeepSeek Flash já é suficiente. Ainda assim, é muito fácil criar vários benchmarks que os melhores modelos não conseguem nem chegar perto, e eu gosto de testar o quanto os modelos melhoram com problemas desse tipo
  Aliás, o Fable 5 é com certeza um pouco melhor que o 4.8
- É parecido com quando um notebook novo é anunciado e os funcionários de repente dizem que todo mundo precisa de upgrade
  Na prática, 90% provavelmente aguentariam numa boa até com um Macbook Neo
- Recentemente estou implementando um projeto de um tipo comum de infraestrutura web em Rust
  Estou usando bastante dos bons componentes básicos do Rust, como rustls e Tokio, numa tentativa de criar um substituto do nginx com segurança de memória, ou algo bem próximo disso
  Como parte desse trabalho, também estou criando um repositório de Lua em Rust de alta qualidade. Estou corrigindo com Mythos um problema de desempenho no meu interpretador de Lua em que o gpt 5.5 e o Opus 4.8 tinham travado
  Não sei se o Mythos vai conseguir resolver isso, mas ele está rodando há algumas horas e os resultados parecem bem promissores
  Se tiver curiosidade, o gráfico de desempenho está aqui: https://github.com/ianm199/lua-rs
- Estou criando minha própria linguagem de programação
  Também estou olhando alguns projetos open source nos quais talvez eu possa contribuir. Estou procurando algo que possa me ajudar a fazer a transição de desenvolvedor por hobby para profissional, mas nem sei se isso ainda é possível hoje em dia
  O Fable 5 encontrou bastante coisa em code review que o Opus 4.8 deixou passar. E isso mesmo tendo sido enfraquecido por causa de restrições idiotas relacionadas a cibersegurança. É difícil falar muito mais porque no Max 5x eu só posso ter uma sessão por janela de 5 horas. Até agora só rodei duas sessões
- Se você continuar elevando o nível de exigência, não deve ser difícil levar qualquer modelo até o limite
  Levando ao extremo, imagine um prompt como “crie um clone do Facebook completo e bem acabado”. O Facebook é complexo, mas provavelmente não é tecnicamente tão difícil assim. Mesmo assim, depois de queimar uma quantidade considerável de tokens, você vai ver diferenças significativas em vários aspectos dos resultados de diferentes modelos para esse prompt
  Claro, o pedido acima não é realmente útil. Mas por que não delegar blocos maiores até chegar perto do limite? Em algum momento você vai encostar na fronteira, e a diferença vai ficar clara

aigirlfriend 29 일 전

Sendo bem sincero, diferente de todo o estardalhaço até agora, dessa vez é simplesmente muito bom mesmo. Desde o O3, toda vez que saíam novos modelos, tanto faz enfiarem benchmark goela abaixo quanto a galera vendendo FOMO ficar escrevendo fanfic; tirando atualização do cutoff e aumento da janela de contexto, quase não dava pra sentir diferença, e no fim a melhora vinha mais da evolução das metodologias de prompt do que do modelo em si. Mas dessa vez dá mesmo a sensação de que a melhoria do modelo fez a qualidade do resultado disparar; principalmente porque aquele troço que sempre cuspia uma UI com aquele cheiro de SLOP todo torto agora, mesmo sem eu escrever uma especificação separada, consegue gerar algo no nível de um TCC de graduação bem feito, e aí dá pra sentir que ele também acertou em design.
A parte boa é que, se continuar desse jeito, usar como agente totalmente autônomo do jeito que a Anthropic propõe sairia tão caro tão rápido que gastariam mais do que tocando um profissional experiente razoavelmente bom, então pelo menos não parece que vou ser demitido imediatamente.

É assim que é trabalhar com Mythos

Desempenho e experiência de uso do Claude 5 Fable - Ethan Mollick

Desempenho e resultados do Fable

Maps and Methods — caso de criação de mapa isócrono

Forma de execução do trabalho

Ajuste de regiões remotas e uso de tokens

Working with a Mythos-class model — caso Concord

Limites e restrições

Custo de tokens

Guardrails e estilo

De mago a patrono — a mudança no papel humano

Duas possibilidades

Leituras relacionadas

3 comentários

Comentários do Hacker News