OpenMythos: surge uma implementação open source de engenharia reversa do Claude Mythos

(github.com/kyegomez)

18 pontos por princox 10 일 전 | 7 comentários | Compartilhar no WhatsApp

Projeto open source implementado no formato de um “transformer que pensa iterativamente”, assumindo a arquitetura do Claude Mythos
O OpenMythos recria a estrutura com base no Claude Mythos, apontado como o modelo de próxima geração da Anthropic, combinando informações públicas e ideias de pesquisa
Não é o modelo real, mas um projeto que implementa em código a hipótese de que “ele pode funcionar desta forma”

Ideia central

O ponto principal deste projeto é que, diferentemente dos LLMs existentes,
em vez de tornar o modelo maior, ele executa repetidamente a mesma estrutura várias vezes.

Ao rodar a mesma camada várias vezes, ele atualiza gradualmente o estado interno
e, nesse processo, realiza um raciocínio mais profundo.

Estrutura principal

Estrutura que executa repetidamente o mesmo bloco transformer
Diferentes especialistas (MoE) são ativados seletivamente durante as repetições
Resultados intermediários são processados no estado interno, sem serem emitidos como tokens externos
Aplicação de uma estrutura de attention para melhorar a eficiência de memória

Diferença em relação ao método existente

Enquanto um LLM comum expõe o processo de raciocínio ao gerar tokens,
esta estrutura se aproxima mais de um método que repete cálculos internamente várias vezes e só então produz o resultado final.

Ou seja, em vez de “pensar falando”,
ela busca uma estrutura de “pensar o suficiente por dentro antes de falar”.

Significado

Essa abordagem também se relaciona com o problema de custo causado pelo aumento no uso de tokens.
Isso porque, ao tratar a inferência com repetições internas, é possível reduzir o número de tokens gerados externamente.

Além disso, pode ser vista como uma nova direção por buscar elevar o desempenho do modelo não pelo aumento do número de parâmetros,
mas pelo aumento da quantidade de computação na etapa de inferência.

Limitações

Não há garantia de que seja idêntica à arquitetura real do Claude Mythos,
e ainda faltam desempenho validado e resultados de experimentos em larga escala.

Insight em uma linha

Em vez de aumentar ainda mais o modelo, fazer o mesmo modelo rodar repetidamente para pensar com mais profundidade pode se tornar o design da próxima geração de LLMs

7 comentários

aliveornot 9 일 전

Seria bom se houvesse downvote no GeekNews.

skageektp 8 일 전

> Não há garantia de que seja idêntico à arquitetura real do Claude Mythos,

Então isso nem é engenharia reversa de verdade;;

rtyu1120 9 일 전

Nem foi divulgado publicamente, então como é que fariam engenharia reversa disso...??

akapwhd 8 일 전

Não é o modelo real, e sim um projeto que implementa em código a hipótese de que “pode funcionar desse jeito”..

Então por que não criar logo o GPT-6 e dizer que ele pode funcionar assim~ kkk

pmc7777 9 일 전

Quando surge algo em evidência, essa pessoa sempre sai produzindo em série seguindo o padrão de nome open*, então não me parece que a percepção sobre isso seja lá muito boa...

twiddlingguidable 9 일 전

Quando vi quem tinha feito isso e percebi que era o líder de um projeto de cripto, acenei com a cabeça em concordância..

princox 9 일 전

Ah, é verdade. Olhando a lista de repositórios, parece que há mais alguns projetos começando com Open..