5 pontos por nextvine 2 일 전 | 4 comentários | Compartilhar no WhatsApp

O que é Mixture of Experts (MoE) — por que o DeepSeek roda barato mesmo tendo 1,6 trilhão de parâmetros

Explica, por meio da arquitetura MoE, por que o DeepSeek V4, mesmo com 1,6 trilhão de parâmetros, pode ser oferecido a um décimo do preço do GPT-5.5.

O MoE é composto por vários submodelos especialistas (Experts) e por um roteador (rede de gating) que decide quais especialistas usar. O ponto central é que, a cada token, apenas parte de todos os parâmetros é ativada de forma seletiva. Em modelos densos tradicionais (Dense Model), todos os parâmetros participam do cálculo independentemente da entrada, mas no MoE o roteador escolhe apenas alguns dos especialistas mais adequados para processar a informação.

No caso do DeepSeek V4-Pro, de um total de 1,6 trilhão de parâmetros, apenas 49 bilhões (cerca de 3%) são ativados por token. Ou seja, ele carrega o conhecimento de um modelo na escala de 1,6 trilhão, mas o custo real de inferência fica próximo ao de um modelo de 49 bilhões. Em geral, o MoE melhora a relação custo-desempenho em 3 a 5 vezes em comparação com um modelo denso de mesmo porte.

Também há desvantagens. Embora o cálculo seja esparso, os parâmetros de todos os especialistas precisam permanecer na memória, o que aumenta a exigência de VRAM, e durante o treinamento é preciso gerenciar separadamente o problema de desequilíbrio, em que a carga se concentra em certos especialistas.

Em 2026, a maioria dos principais modelos de fronteira, como GPT-4, Gemini 1.5, Mixtral e a série DeepSeek, já é baseada em MoE. Isso reflete a mudança do eixo da competição em modelos de IA, que saiu do simples aumento de escala para a relação custo-desempenho, fazendo com que o MoE se consolidasse, na prática, como arquitetura padrão.

4 comentários

 
slowandsnow 2 일 전

Em 2026, GPT-4 e Gemini 1.5? Isso é claramente um texto caça-cliques de IA.

 
nextvine 2 일 전

No caso dos modelos mais recentes, como eles não informam em detalhes a forma de implementação interna, parece que na etapa de pesquisa acabaram entrando modelos anteriores. É bem provável que todos os modelos lançados depois do GPT-5 também tenham herdado a estrutura MoE, porque os modelos paralelos open source usam essa estrutura. No caso dos modelos closed recentes, como a arquitetura não é divulgada, isso não é uma conclusão oficial confirmada.

 
aqqnucs 2 일 전

Então isso quer dizer que, entre os principais modelos de fronteira que usam MoE, o GPT-5.5 não usa MoE?

 
picopress 2 일 전

49B também é bastante impressionante