18 pontos por princox 10 일 전 | 7 comentários | Compartilhar no WhatsApp
  • Projeto open source implementado no formato de um “transformer que pensa iterativamente”, assumindo a arquitetura do Claude Mythos
  • O OpenMythos recria a estrutura com base no Claude Mythos, apontado como o modelo de próxima geração da Anthropic, combinando informações públicas e ideias de pesquisa
  • Não é o modelo real, mas um projeto que implementa em código a hipótese de que “ele pode funcionar desta forma”

Ideia central

O ponto principal deste projeto é que, diferentemente dos LLMs existentes,
em vez de tornar o modelo maior, ele executa repetidamente a mesma estrutura várias vezes.

Ao rodar a mesma camada várias vezes, ele atualiza gradualmente o estado interno
e, nesse processo, realiza um raciocínio mais profundo.

Estrutura principal

  • Estrutura que executa repetidamente o mesmo bloco transformer
  • Diferentes especialistas (MoE) são ativados seletivamente durante as repetições
  • Resultados intermediários são processados no estado interno, sem serem emitidos como tokens externos
  • Aplicação de uma estrutura de attention para melhorar a eficiência de memória

Diferença em relação ao método existente

Enquanto um LLM comum expõe o processo de raciocínio ao gerar tokens,
esta estrutura se aproxima mais de um método que repete cálculos internamente várias vezes e só então produz o resultado final.

Ou seja, em vez de “pensar falando”,
ela busca uma estrutura de “pensar o suficiente por dentro antes de falar”.

Significado

Essa abordagem também se relaciona com o problema de custo causado pelo aumento no uso de tokens.
Isso porque, ao tratar a inferência com repetições internas, é possível reduzir o número de tokens gerados externamente.

Além disso, pode ser vista como uma nova direção por buscar elevar o desempenho do modelo não pelo aumento do número de parâmetros,
mas pelo aumento da quantidade de computação na etapa de inferência.

Limitações

Não há garantia de que seja idêntica à arquitetura real do Claude Mythos,
e ainda faltam desempenho validado e resultados de experimentos em larga escala.

Insight em uma linha

  • Em vez de aumentar ainda mais o modelo, fazer o mesmo modelo rodar repetidamente para pensar com mais profundidade pode se tornar o design da próxima geração de LLMs

7 comentários

 
aliveornot 9 일 전

Seria bom se houvesse downvote no GeekNews.

 
skageektp 8 일 전

> Não há garantia de que seja idêntico à arquitetura real do Claude Mythos,

Então isso nem é engenharia reversa de verdade;;

 
rtyu1120 9 일 전

Nem foi divulgado publicamente, então como é que fariam engenharia reversa disso...??

 
akapwhd 8 일 전

Não é o modelo real, e sim um projeto que implementa em código a hipótese de que “pode funcionar desse jeito”..

Então por que não criar logo o GPT-6 e dizer que ele pode funcionar assim~ kkk

 
pmc7777 9 일 전

Quando surge algo em evidência, essa pessoa sempre sai produzindo em série seguindo o padrão de nome open*, então não me parece que a percepção sobre isso seja lá muito boa...

 
twiddlingguidable 9 일 전

Quando vi quem tinha feito isso e percebi que era o líder de um projeto de cripto, acenei com a cabeça em concordância..

 
princox 9 일 전

Ah, é verdade. Olhando a lista de repositórios, parece que há mais alguns projetos começando com Open..