1 pontos por GN⁺ 4 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • O primeiro modelo de classe Mythos Claude 5 Fable disponibilizado publicamente recebe especificações em várias etapas e executa tarefas por conta própria por até mais de dez horas, superando com ampla margem todos os modelos já usados anteriormente
  • Com um único prompt e apenas uma rodada de feedback, gera desde um artigo acadêmico sofisticado de ciências sociais até um poema rimado de 10 páginas em que todas as palavras começam com a letra s
  • Durante o trabalho, executa diretamente outras IAs (principalmente o Claude Sonnet, mais barato) para dividir pesquisa, programação e validação, reunindo mais de 2.200 voos e horários ferroviários, além de dados de velocidade de estradas por país
  • O papel do usuário é reduzido a dar instruções e julgar o resultado, enquanto o processo de decisão do modelo não é exposto, funcionando como uma caixa-preta definitiva
  • A relação com a IA está mudando de um 'mago' que trabalha diretamente para um 'patrono (patron)' que encomenda e avalia resultados, levantando a possibilidade de que, quanto mais poderosa a capacidade, menor seja o espaço para intervenção humana

Desempenho e experiência de uso do Claude 5 Fable - Ethan Mollick

  • Houve a oportunidade de testar antecipadamente (Early Access) o Claude 5 Fable, o primeiro modelo de IA de classe Mythos a ser apresentado ao público
  • O Claude 5 Fable é o primeiro modelo de IA de classe Mythos a ser lançado; embora haja muita discussão sobre seu impacto em segurança de software, os testes foram conduzidos fora dessa área
  • Os guardrails do Fable operam a ponto de praticamente impedir seu uso para fins de cibersegurança
  • Em vários experimentos, o Fable mostrou desempenho consideravelmente superior ao de quase todos os modelos públicos usados anteriormente
  • O Fable demonstrou capacidade em vários problemas e executou tarefas por até cerca de 12 horas com base em especificações de várias páginas

Desempenho e resultados do Fable

  • Em todos os experimentos realizados, superou com boa margem outros modelos públicos e confirmou melhora geral de desempenho em todas as tarefas
  • Com um único prompt e uma rodada de feedback, gerou o artigo acadêmico de ciências sociais mais sofisticado já produzido por uma IA até agora
  • No Claude Code, criou jogos jogáveis com apenas um prompt inicial vago e algum feedback adicional simples como "make it better"
    • O jogo de cara ou coroa começou com o prompt “Balatro, but for the game of coin flips”
    • O jogo da cobrinha autoconsciente tem uma estrutura em que a cobra ganha autoconsciência e coisas estranhas acontecem
    • O jogo de descida às profundezas gira em torno de descer cada vez mais para ver o que existe lá embaixo
    • Como o Claude não consegue gerar imagens, toda a arte e todos os objetos 3D foram implementados apenas com operações matemáticas, sem assets externos
  • Quanto mais séria a tarefa, mais a experiência de usar a ferramenta fica entre o prazer e a ansiedade — porque, ao pedir algo, aquilo realmente acontece

Maps and Methods — caso de criação de mapa isócrono

  • Um mapa isócrono (isochrone map) é um mapa que mostra a distância alcançável dentro de um determinado tempo; o primeiro exemplo foi criado em 1881 para mostrar tempos de deslocamento a partir de Londres
  • Modelos anteriores não conseguiam produzir esse tipo de mapa de forma minimamente útil, porque isso exigia investigar milhares de distâncias potenciais de deslocamento e fazer muitas pequenas decisões
  • Forma de execução do trabalho

    • Foi inserido um prompt pedindo um mapa com design próprio, baseado em dados reais, refletindo a escolha de cidades, aeroportos, trens, caminhada e direção; especificou-se que os dados não precisavam ser em tempo real, mas sim reais e baseados em pesquisa
    • O modelo primeiro sugeriu produzir no estilo original de 1881, e o trabalho começou após a concordância
    • Ao longo de uma sessão de build de várias horas, executou várias outras IAs (principalmente o Claude Sonnet, mais barato) para pesquisar tempos de deslocamento
      • Reuniu horários ferroviários de TGV a Shinkansen, velocidades rodoviárias por país com base em vários artigos acadêmicos e mais de 2.200 dados específicos de voos
    • Enquanto os agentes de pesquisa rodavam, começou a programar, executou agentes adicionais e testes para validar o código e registrou o andamento
  • Ajuste de regiões remotas e uso de tokens

    • Como regiões remotas como a Groenlândia continham apenas estimativas em vez de valores exatos, foi orientado a corrigir isso para obter tempos reais de deslocamento
    • Desta vez, foi executado um fluxo de trabalho com grupos de agentes adversariais (adversarial groups) que pesquisavam e validavam mutuamente os resultados
    • Calculou a frequência de barcos para Pitcairn Island, no Pacífico, e a rota de Ottawa até Grise Fjord
    • Consumiu uma enorme quantidade de tokens em pouco tempo
  • O que o usuário fez foi apenas dar instruções ambiciosas e um pouco de feedback; o modelo tomou diretamente centenas de pequenas decisões, sem chance de entender ou intervir nessas escolhas
    • Não só a carga de trabalho, mas também o controle sobre o método do modelo, a escolha de abordagem e a profundidade do resultado fica limitado
  • O resultado é oferecido como um mapa isócrono clicável, e o método e as fontes podem ser conferidos na parte inferior do gráfico

Working with a Mythos-class model — caso Concord

  • O projeto mais ambicioso foi uma tarefa de pesquisa para classificar adequadamente respostas humanas bagunçadas — julgando, por exemplo, quão inovadora é uma ideia ou por que as pessoas gostam de determinado livro
    • Antes, pesquisadores humanos faziam esses julgamentos e depois os comparavam estatisticamente com outras respostas para verificar a confiabilidade dos dados
    • A calibração entre julgamentos de IA e humanos é difícil e cara
  • Foi pedido ao Fable que resolvesse esse problema; ele primeiro gerou um documento complexo de design de 19 páginas e depois o executou
    • O Fable trabalhou nisso por 9 horas e 30 minutos
  • O resultado foi um software que a IA batizou de Concord, capaz de receber múltiplos datasets, calibrar respostas humanas e de IA e realizar análises complexas de dados
    • Não era perfeito, e do ponto de vista de um especialista foram encontrados alguns erros e omissões (alguns originados no design solicitado), levando a pedidos de correção
    • O que foi entregue superou qualquer coisa já vista antes e era um software de que pesquisadores precisavam havia anos, mas que não era desenvolvido por falta de rentabilidade
    • Possíveis bugs remanescentes podem ser resolvidos por engenheiros de software, e pode até ser necessário mais programadores para lidar com a explosão no uso desse novo software
    • O código do Concord pode ser usado ou modificado no repositório do GitHub

Limites e restrições

  • O poder do Fable vem acompanhado de estranheza e limitações
  • Custo de tokens

    • O Fable é 2 vezes mais caro que o Opus e, em produção, consome tokens rapidamente em um nível descrito como "bastante"
    • Ainda assim, a delegação inteligente para modelos mais baratos pode reduzir bastante o custo real
  • Guardrails e estilo

    • Ao menor sinal de problema de segurança, os guardrails entram em ação e trocam para o Claude 4.8 Opus, de desempenho inferior, e isso acontece com frequência excessiva
    • As discussões sobre Mythos se concentraram principalmente no impacto em segurança de software, mas os guardrails do Fable praticamente bloqueiam seu uso em cibersegurança
    • Ainda existe uma fronteira irregular (jagged frontier), e permanece um estilo característico de "Claudism" nos resultados e relatórios de progresso

De mago a patrono — a mudança no papel humano

  • No ano passado, essa experiência foi comparada a um mago (wizard) em que você lança um feitiço e algo acontece
  • No Fable, o feitiço ficou poderoso o bastante para que o usuário se aproxime mais de um patrono (patron) do que de um mago
    • Você descreve o que quer, paga o custo e julga o resultado — o trabalho real de conjuração acontece fora de vista, por meio de centenas de pequenas escolhas
    • O trabalho se desloca do processo para o resultado, e agora não se conduz (steer), mas se encomenda (commission)
  • Duas possibilidades

    • Isso pode ser um fenômeno temporário, em que a interface ainda não acompanhou, e talvez surjam formas melhores de observar o funcionamento do modelo e conduzi-lo no meio do processo
    • Ou, ao contrário, quanto mais competente o modelo se torna, menos coisas significativas restam para os humanos fazerem, e a caixa-preta pode ser o preço dessa capacidade
  • Não se trata de uma perda de controle em sentido evidente; ainda é possível conduzi-lo e ele segue instruções muito bemquanto mais ambiciosas as instruções, melhor o resultado
    • Porém, conduzir já não equivale a executar diretamente: o modelo aciona seus próprios agentes para pesquisar, escrever, validar entre si e, por fim, devolver o resultado completo
    • Em vez de um patrono encomendando a um único artista, o Fable se parece mais com um estúdio inteiro, no qual só se aprova o resultado final sem sequer pisar no local de trabalho

1 comentários

 
GN⁺ 4 시간 전
Comentários do Hacker News
  • É interessante que este texto quase não tenha conteúdo concreto sobre a qualidade do código gerado nem sobre o veículo em si
    Fico curioso para saber se o código tem documentação e testes, se dá para entender e estender, se é seguro e quais linguagens, frameworks e bancos de dados foram usados. O autor falou de julgamento e bom gosto, mas não sei se o código de fato foi escrito com bom gosto. Também fico na dúvida se, ao pedir para adicionar um recurso novo, o modelo vai reorganizar toda a estrutura de novo e gastar mais 9,5 horas de tokens. A parte de pesquisa provavelmente depende de conhecimento de domínio — isto é, como converter tempo de forma agradável de visualizar para cada tipo de viagem — e também queria saber como o autor validou isso
    Essas perguntas não se aplicam só à IA. Se eu pagasse uma agência humana e recebesse um entregável que “funciona”, perguntaria exatamente as mesmas coisas. Se eu não soubesse avaliar, contrataria alguém que soubesse. O ponto que mais pega em LLM é a validação

    • Quase nunca é um engenheiro de software que escreve esse tipo de texto; geralmente é executivo de tecnologia, engenheiro aposentado ou VC
      Este autor parece ser professor da Wharton School of Management. Pessoas assim não precisam lançar nem manter um produto real; é mais parecido com fazer um projeto paralelo
      Uma perspectiva realmente sólida de engenharia de software eu quase só vi no Mitchell Hashimoto
    • Estou começando a perceber que LLM é realmente forte para criar projetos de baixo risco
      As perguntas acima em geral partem de um risco maior: software que será mantido por muito tempo, cujos requisitos evoluem e em que erros não são aceitáveis
      O jeito de usar bem LLM em software parece ser aprender a transformar todos os projetos em projetos de baixo risco
    • Quase toda a discussão sobre LLM nos últimos 2 anos foi assim
      Quando você pede conteúdo concreto, chovem respostas do tipo “mas humanos também não fazem isso bem!”. Há pouquíssima base quantitativa e muita retórica pura
    • Conforme os modelos melhoram, começo a achar que talvez não importe tanto como o código se parece
      Se o comportamento observável do software é bom, então o software é bom. Se o modelo consegue corrigir qualquer tipo de bug numa codebase feita com vibe coding, então é um bug corrigível. Se não há vulnerabilidades exploráveis, é código seguro; se a performance é suficiente, é código com boa performance
      Se por fora ele faz o que precisa fazer, e por dentro o modelo consegue corrigir os problemas quando eles aparecem, então o formato do código não importa. Engenharia de software virou, mais do que nunca, o trabalho de verificar se o código se comporta como deveria
      E mesmo que a forma do código importe, isso também pode ser consertado pelo modelo
    • Cliquei em um dos exemplos, o “jogo da cobrinha em que a cobra ganha autoconsciência e coisas estranhas acontecem”, e depois de jogar por 1 ou 2 minutos parecia só um Snake estilo anos 1980
      Não sei o que deixei passar. Essa “autoconsciência” são algumas mensagens engraçadinhas na parte de baixo da tela? E também não entendi quais seriam as “coisas estranhas”
  • Coloquei no Fable alguns modelos que eu estava validando manualmente
    Mais ou menos assim: eu fazia o Opus modelar um cenário, pedia para mostrar a matemática, corrigia, iterava e no fim conferia de novo se o código batia com a lógica do modelo. O Fable encontrou quase todos os erros que eu tinha achado e ainda fez sugestões interessantes sobre variáveis adicionais
    Só que ele torrou o limite de uso como um Hummer do fim dos anos 90

    • Estou no plano Max 5x, e o Fable queimou 16% do limite semanal em uma sessão de code review de 40 minutos
      Nem terminou a revisão, e justamente na parte crítica de segurança de memória onde eu mais precisava do Fable acabei voltando para o Opus 4.8
      Estou com a sensação de que logo não vou conseguir usar esses modelos por causa do preço. Acho que preciso espremer o Fable ao máximo até 22 de junho
    • A pergunta mais importante é esta: qual é o retorno sobre o investimento aqui?
  • Hoje testei o Fable num projeto pessoal e ele parece bem sólido, mas não está tão distante assim do 4.8
    As mesmas alucinações, os mesmos tipos de bug, a mesma tendência em projetos grandes de fazer só o que foi pedido e ignorar o que aquilo pode tocar, quebrar ou afetar. No começo ele roda testes, mas conforme o contexto cresce diz que “vai rodar depois” e, a menos que você mande com palavrão no meio, no fim nunca roda
    Vou continuar usando, mas por enquanto parece uma melhoria incremental, não um nível “MEU DEUS MEU DEUS MEU DEUS o Mythos chegou!”

    • Minha experiência foi o oposto. O Fable parecia prever tudo e fazer tudo sem eu precisar pedir
      Foi muito impressionante e agradável de usar junto
      Não seria um fenômeno estranho, porque quando assinei pela primeira vez o Opus também era exatamente assim. Existe um meme bem difundido de que a Anthropic enfraqueceu o Opus por falta de capacidade; não sei se é verdade. Mas fico curioso se o Fable vai ter o mesmo destino
    • No meu projeto, o Fable viu imediatamente com clareza coisas que o 4.8 deixou passar
      Mas depois de me impressionar bastante ao superar esses problemas em cascata, pouco tempo depois caiu naquele loop infinito de sempre, falando sem parar em vez de realmente fazer algo, e às vezes parava de vez até eu pressionar de novo
      Então não é AGI. Ainda assim, é sem dúvida uma melhora real
  • Esta frase curta do texto assusta: “Mas um engenheiro de software vai lapidar os bugs potenciais restantes que eu não encontrei rápido”
    Todo desenvolvedor de software sabe que isso é uma suposição muito perigosa e irrealista

    • Isso é basicamente uma frasezinha que empurra com facilidade todo o trabalho de verdade para outra pessoa
  • Li os primeiros parágrafos do texto que o autor chama de “o artigo acadêmico de ciências sociais mais sofisticado já feito por IA”, mas não achei tão impressionante quanto eu esperava
    É algo do tipo: “As crenças posteriores sobre demanda de mercado são puramente dependentes de ponto de referência. Mantendo constante o valor arrecadado, os fundadores acompanham apenas o desempenho em relação à meta que eles mesmos definiram. Há um salto de meio desvio padrão no limiar, uma reação acentuada nos primeiros 10 pontos depois disso e depois um achatamento”
    Normalmente as pessoas não explicam dados em palavras desse jeito. O documento de resumo também passa bastante a sensação de conteúdo inflado

  • Aqui é onde o problema aparece de forma mais perfeita
    O autor colocou no prompt que todos os dados deveriam ser reais e validados, e depois simplesmente acreditou que era assim. Fez isso até num projeto baseado em dados. As pessoas vão fazer a mesma coisa em incontáveis tarefas, inclusive importantes

    • Eu queria ter aprendido isso mais cedo na vida: se ninguém vai conferir, eu poderia ter inventado coisas plausíveis muito mais vezes
  • O trecho “trabalhou por 9 horas e meia” e a parte “não foi perfeito. Encontrei alguns erros e omissões como especialista e fiz a IA corrigi-los” chamaram atenção.
    Não espero gastar tanto tempo em um único problema por dia, nem espero gastar tanto tempo corrigindo de novo um resultado cujo loop principal de recompensa dura várias horas.
    Meus clientes atualmente estão exigindo que o tempo de resposta dos agentes caia de 85 segundos para menos de 20 segundos.
    Ao mesmo tempo, ver a indústria caminhando para fluxos de trabalho de mais de uma hora via agentes parece muito dissonante.

    • Para defender o Claude, por incrível que pareça vou defendê-lo, não conheço nenhum desenvolvedor solo que consiga fazer algo como o Concord a partir de um documento de design de 19 páginas em 9,5 horas de trabalho.
      Vamos voltar aos tempos em que o chefe perguntava por que você só estava sentado ali. Só que, em vez de dizer “está compilando”, você vai dizer “estou esperando o Claude”.
    • Neste ponto, se me pagarem muito mais, eu faço.
    • Meu Opus 4.8 regularmente leva mais de 10 minutos até para um pedido único de programação que não é trivial.
    • Tempo de trabalho não é uma métrica tão valiosa assim.
      Em geral, é melhor definir o processo diretamente em código e fazer esse código delegar blocos de trabalho aos modelos. O único problema real é que fica mais difícil aproveitar os descontos de assinatura dos provedores.
      Por outro lado, fica mais fácil fazer o roteamento de modelos por conta própria. Ainda não vi uma forma de um chatbot genérico manter consistência em fluxos de trabalho que duram dias ou semanas.
    • Quando os modelos QWEN apareceram, já achei que tínhamos entrado na parte sigmoide da curva.
      Se você estruturar o projeto direito, dá para apontar para o ponto de expansão desejado e deixar rodando por uns 30 minutos para ampliar a funcionalidade. Ele não consegue operar efetivamente em “modo deus” sobre o código inteiro, mas, como observador cuidadoso e especialista em código, não exige necessariamente mais de 128GB de VRAM.
      É impressionante como os modelos mais recentes sem diálogo chegaram tão longe, e, quando a China começar a fabricar silício para esse tipo de modelo, acho que vai encerrar a disputa.
  • Estou muito curioso sobre qual foi o prompt do poema.
    A ideia era familiar, então fui cavucar e encontrei um poema de 14 anos atrás no reddit: [https://www.reddit.com/r/RedditDayOf/comments/tjjw2/may_12_a...]
    Não é tão longo quanto o que o autor compartilhou, mas é a mesma ideia.
    Isso vem de “The Cyberiad”, uma coletânea de fábulas de ficção científica do escritor polonês Stanislaw Lem. Em uma das histórias, o construtor de robôs Trurl cria uma máquina de escrever poemas, e seu rival invejoso Klapaucian exige da máquina: “Um poema sobre um corte de cabelo! Mas sublime, nobre, trágico, eterno, sobre amor e traição, retribuição, heroísmo silencioso, diante de uma ruína certa! Seis versos, com rimas engenhosas, e todas as palavras devem começar com s!”
    O computador responde assim:
    “Seduced, shaggy Samson snored.
    She scissored short. Sorely shorn,
    Soon shackled slave, Samson sighed.
    Silently scheming,
    Sightlessly seeking
    Some savage, spectacular suicide”
    Parece inevitável que o autor tenha se referido a essa cena ao lançar o desafio para Fable/Mythos. Fico curioso sobre o prompt exato.

    • O interessante é que isso é uma dificuldade da tradução para o inglês.
      A tradução inglesa usa letra inicial e palavras diferentes do original em polonês:
      Cyprian cyberotoman, cynik, ceniąc czule
      Czarnej córy cesarskiej cud ciemnego ciała,
      Ciągle cytrą czarował. Czerwieniała cała,
      Cicha, co-dzień czekała, cierpiała, czuwała...
      ... Cyprian ciotkę całuje, cisnąwszy czarnulę!!
      Dá para comparar o trabalho do tradutor com um LLM. Ambos são trabalhos derivados e atuam sob restrições, mas ainda têm espaço para criatividade.
    • Em vez de o autor ter feito referência à cena, como a Anthropic licenciou comentários do reddit, ela também pode simplesmente ter absorvido isso dos dados de treinamento.
  • Como ele ainda não usou nem por uma hora, é preciso levar em conta que ele está empolgado com uma tecnologia nova.
    No caso do meu projeto (https://github.com/tsz-org/tsz), fiquei repetidamente frustrado porque os modelos não investigavam o suficiente nem consideravam outros contextos. O modelo gerava código para corrigir uma coisa e repetidamente quebrava dois testes “aparentemente não relacionados”.
    O Fable parece demorar muito mais nas tarefas, e eu ainda não vi um pull request vindo de uma sessão do Fable, mas, ao ler os registros da sessão, dá para ver que ele está fazendo a coisa certa de um jeito que tenta não deixar pedra sobre pedra.
    Como o texto também diz, esse “feeling” desses modelos varia demais de projeto para projeto e é difícil de transmitir, mas estou compartilhando assim mesmo.

    • Isso não seria um sinal de que o projeto talvez não tenha uma estrutura em que seja fácil adicionar funcionalidades de forma incremental?
  • Fico curioso para saber no que vocês estão trabalhando para sentir uma diferença tão grande entre Mythos e Opus
    Eu também acho que faço trabalhos bem avançados, mas muitas vezes só o Deepseek já basta. Por que todo mundo aqui parece ser gênio?

    • Depende do que você está fazendo
      Se você tenta criar um videogame no nível de bons indies como Hades ou Baazar, com elementos de UI orgânicos, interativos e com sensação de animação, efeitos visuais, shaders complexos etc., nenhum modelo é nem de longe suficiente para concluir isso com facilidade. Uma boa parte dos problemas que aparecem em jogos no top 3% é realmente difícil para qualquer modelo com prompts simples
      Pessoalmente, gosto de programar e aprender por conta própria, então não ligo muito, e algo como o DeepSeek Flash já é suficiente. Ainda assim, é muito fácil criar vários benchmarks que os melhores modelos não conseguem nem chegar perto, e eu gosto de testar o quanto os modelos melhoram com problemas desse tipo
      Aliás, o Fable 5 é com certeza um pouco melhor que o 4.8
    • É parecido com quando um notebook novo é anunciado e os funcionários de repente dizem que todo mundo precisa de upgrade
      Na prática, 90% provavelmente aguentariam numa boa até com um Macbook Neo
    • Recentemente estou implementando um projeto de um tipo comum de infraestrutura web em Rust
      Estou usando bastante dos bons componentes básicos do Rust, como rustls e Tokio, numa tentativa de criar um substituto do nginx com segurança de memória, ou algo bem próximo disso
      Como parte desse trabalho, também estou criando um repositório de Lua em Rust de alta qualidade. Estou corrigindo com Mythos um problema de desempenho no meu interpretador de Lua em que o gpt 5.5 e o Opus 4.8 tinham travado
      Não sei se o Mythos vai conseguir resolver isso, mas ele está rodando há algumas horas e os resultados parecem bem promissores
      Se tiver curiosidade, o gráfico de desempenho está aqui: https://github.com/ianm199/lua-rs
    • Estou criando minha própria linguagem de programação
      Também estou olhando alguns projetos open source nos quais talvez eu possa contribuir. Estou procurando algo que possa me ajudar a fazer a transição de desenvolvedor por hobby para profissional, mas nem sei se isso ainda é possível hoje em dia
      O Fable 5 encontrou bastante coisa em code review que o Opus 4.8 deixou passar. E isso mesmo tendo sido enfraquecido por causa de restrições idiotas relacionadas a cibersegurança. É difícil falar muito mais porque no Max 5x eu só posso ter uma sessão por janela de 5 horas. Até agora só rodei duas sessões
    • Se você continuar elevando o nível de exigência, não deve ser difícil levar qualquer modelo até o limite
      Levando ao extremo, imagine um prompt como “crie um clone do Facebook completo e bem acabado”. O Facebook é complexo, mas provavelmente não é tecnicamente tão difícil assim. Mesmo assim, depois de queimar uma quantidade considerável de tokens, você vai ver diferenças significativas em vários aspectos dos resultados de diferentes modelos para esse prompt
      Claro, o pedido acima não é realmente útil. Mas por que não delegar blocos maiores até chegar perto do limite? Em algum momento você vai encostar na fronteira, e a diferença vai ficar clara