OpenMythos: surge uma implementação open source de engenharia reversa do Claude Mythos
(github.com/kyegomez)- Projeto open source implementado no formato de um “transformer que pensa iterativamente”, assumindo a arquitetura do Claude Mythos
- O OpenMythos recria a estrutura com base no Claude Mythos, apontado como o modelo de próxima geração da Anthropic, combinando informações públicas e ideias de pesquisa
- Não é o modelo real, mas um projeto que implementa em código a hipótese de que “ele pode funcionar desta forma”
Ideia central
O ponto principal deste projeto é que, diferentemente dos LLMs existentes,
em vez de tornar o modelo maior, ele executa repetidamente a mesma estrutura várias vezes.
Ao rodar a mesma camada várias vezes, ele atualiza gradualmente o estado interno
e, nesse processo, realiza um raciocínio mais profundo.
Estrutura principal
- Estrutura que executa repetidamente o mesmo bloco transformer
- Diferentes especialistas (MoE) são ativados seletivamente durante as repetições
- Resultados intermediários são processados no estado interno, sem serem emitidos como tokens externos
- Aplicação de uma estrutura de attention para melhorar a eficiência de memória
Diferença em relação ao método existente
Enquanto um LLM comum expõe o processo de raciocínio ao gerar tokens,
esta estrutura se aproxima mais de um método que repete cálculos internamente várias vezes e só então produz o resultado final.
Ou seja, em vez de “pensar falando”,
ela busca uma estrutura de “pensar o suficiente por dentro antes de falar”.
Significado
Essa abordagem também se relaciona com o problema de custo causado pelo aumento no uso de tokens.
Isso porque, ao tratar a inferência com repetições internas, é possível reduzir o número de tokens gerados externamente.
Além disso, pode ser vista como uma nova direção por buscar elevar o desempenho do modelo não pelo aumento do número de parâmetros,
mas pelo aumento da quantidade de computação na etapa de inferência.
Limitações
Não há garantia de que seja idêntica à arquitetura real do Claude Mythos,
e ainda faltam desempenho validado e resultados de experimentos em larga escala.
Insight em uma linha
- Em vez de aumentar ainda mais o modelo, fazer o mesmo modelo rodar repetidamente para pensar com mais profundidade pode se tornar o design da próxima geração de LLMs
7 comentários
Seria bom se houvesse downvote no GeekNews.
> Não há garantia de que seja idêntico à arquitetura real do Claude Mythos,
Então isso nem é engenharia reversa de verdade;;
Nem foi divulgado publicamente, então como é que fariam engenharia reversa disso...??
Não é o modelo real, e sim um projeto que implementa em código a hipótese de que “pode funcionar desse jeito”..
Então por que não criar logo o GPT-6 e dizer que ele pode funcionar assim~ kkk
Quando surge algo em evidência, essa pessoa sempre sai produzindo em série seguindo o padrão de nome
open*, então não me parece que a percepção sobre isso seja lá muito boa...Quando vi quem tinha feito isso e percebi que era o líder de um projeto de cripto, acenei com a cabeça em concordância..
Ah, é verdade. Olhando a lista de repositórios, parece que há mais alguns projetos começando com Open..