14 pontos por GN⁺ 2025-07-03 | 1 comentários | Compartilhar no WhatsApp
  • GPT-2, GPT-3, Llama, Mixtral, DeepSeek, Minimax, Hunyuan etc.: um resumo das informações objetivas e da evolução sobre a escala de parâmetros e a arquitetura dos principais modelos de linguagem de grande porte
  • GPT-2 (2019) tinha de 130 milhões a 1,6 bilhão de parâmetros, GPT-3 (2020) tinha 175 bilhões (175B) de parâmetros, e Llama-3.1 (2024) tem 405 bilhões (405B) de parâmetros, mostrando um rápido crescimento no tamanho dos grandes modelos
  • Com o surgimento da arquitetura MoE (Mixture-of-Experts, mistura de especialistas), modelos no nível do GPT-3 ou superiores passaram a poder ser disponibilizados como open source/para download; exemplos representativos incluem DeepSeek V3 Base (671 bilhões), ERNIE-4.5 (424 bilhões) e Mixtral-8x22B (141 bilhões), entre vários outros modelos gigantes
  • A comparação entre modelos Dense (usam todos os parâmetros) e modelos MoE (ativam apenas parte dos parâmetros especialistas) ficou mais complexa, e comparar a "inteligência" real entre eles não é algo simples
  • Mais recentemente, surgiram diversas tendências de avanço, como suporte multimodal e multilíngue, novas arquiteturas e uso de dados sintéticos

  • Este documento organiza informações factuais sobre a mudança de escala dos modelos base de grandes modelos de linguagem (LLMs) nos últimos anos
  • O foco não está em chatbots ou assistentes, mas sim nos modelos em sua essência como motores de geração de texto

História

  • GPT-2(-medium, -large, -xl) (2019): 137 milhões, 380 milhões, 812 milhões e 1,61 bilhão de parâmetros, respectivamente
    • Foi treinado com base em um conjunto WebText de cerca de 40GB (estimado em 1 bilhão de tokens)
    • A lista dos sites usados pode ser conferida em domains.txt
  • GPT-3(davinci, davinci-002) (2020): 175 bilhões de parâmetros
    • Foi treinado com cerca de 400 bilhões de tokens de dados, incluindo CommonCrawl, WebText2, Books1·2 e Wikipedia
    • Exigiu treinamento por vários meses em milhares de GPUs A100 em larga escala
  • GPT-3.5, GPT-4 (2022, 2023): informações oficiais sobre arquitetura e dados não foram divulgadas

Llama

  • Llama é uma série de grandes modelos de linguagem desenvolvida pela Meta (antigo Facebook), que chamou atenção por sua abertura em open source e por uma estrutura que permite uso com recursos relativamente menores
  • O processo de evolução do tamanho dos modelos (número de parâmetros), dos dados de treinamento e da arquitetura ajudou a liderar a tendência open source em LLMs
  • Llama 1 (2023)

    • 7B, 13B, 33B, 65B: oferece 7 bilhões, 13 bilhões, 33 bilhões e 65 bilhões de parâmetros
    • Dados de treinamento: 1,4 trilhão (1.4T) de tokens de texto em larga escala (Books3, CommonCrawl etc.)
    • O Llama 65B era, na época, o maior modelo aberto disponível
    • O Books3 é um grande conjunto de dados que se tornou um ponto importante nas discussões legais sobre direitos autorais
    • Características
      • Pode rodar até mesmo em GPUs relativamente menores (o 65B funciona com 8 GPUs)
      • Com distribuição de pesos abertos, impulsionou a proliferação de modelos derivados e experimentos da comunidade
  • Llama 2 (segundo semestre de 2023)

    • No lançamento, oferecia 7 bilhões, 13 bilhões e 70 bilhões de parâmetros (7B, 13B, 70B)
    • Também foi lançada uma versão conversacional (chatbot), com suporte a fine-tuning e RLHF (aprendizado por reforço com feedback humano)
    • Licença permitindo uso comunitário e comercial (com algumas restrições)
  • Llama 3.1 (2024)

    • 405B: 405 bilhões de parâmetros dense (todos os parâmetros são usados)
    • Dados de treinamento: 2,87 trilhões de tokens + 800 bilhões para contexto longo + 40 milhões de annealing (adições de alta qualidade como código/matemática) → total de 3,67 trilhões de tokens
    • Arquitetura
      • Baseada em Transformer, usando simultaneamente todos os parâmetros na inferência (dense)
      • Maximiza pontuações em benchmarks importantes com a adição de dados de alta qualidade de código e matemática (annealing)
    • Características
      • Modelo dense grande e recente disponível para download (open source)
      • A Meta não divulga publicamente a composição do dataset, e há possibilidade de incluir alguns dados controversos sob o ponto de vista de copyright (como Books3)
      • Em algumas avaliações, houve reforço da "tendência de assistente", o que o distancia um pouco do papel de motor puro de texto
  • Llama 4 (2025)

    • Maior modelo: 2 trilhões (2T) de parâmetros em MoE (Mixture-of-Experts, estrutura de mistura de especialistas)
      • A288B 16E: 288 bilhões de parâmetros ativos, 16 especialistas, com apenas parte dos 2 trilhões de parâmetros totais ativada
    • Situação
      • O modelo 2T não foi publicado (uso interno/experimental), e apenas versões derivadas/reduzidas foram divulgadas externamente (maverick, scout etc.)
      • Muitas avaliações consideram que os modelos derivados têm "inteligência" inferior à do original
      • Durante a divulgação, controvérsias como a manipulação de benchmark (caso lmarena) reduziram a confiança e geraram rumores sobre dissolução da equipe
    • Características da estrutura MoE
      • Ao ativar apenas parte dos parâmetros especialistas, oferece melhor eficiência computacional do que modelos dense com o mesmo número de parâmetros
      • Permite uso prático até mesmo de modelos gigantes (em ambientes distribuídos e com menos recursos)
  • Significado e impacto do Llama

    • A série Llama impulsionou a expansão do ecossistema open source e a popularização dos grandes modelos de linguagem
    • A partir da divulgação do Llama-3.1 405B, baixar e experimentar modelos grandes no nível GPT-3/4 passou a ser algo viável
    • Com a adoção da estrutura MoE, o treinamento e a distribuição de modelos gigantes se intensificaram (influenciando também DeepSeek, Mixtral etc.)
    • Ainda assim, há discussões sobre a mudança de características dos modelos recentes como modelos de linguagem puros, devido à otimização para benchmarks (annealing) e ao reforço da tendência de assistente

The desert – o período de vazio e mudança nos grandes modelos open source

  • Refere-se ao longo período de vazio em que não era possível obter em open source grandes modelos de linguagem no nível do GPT-3 (cerca de 175 bilhões de parâmetros) ou acima disso
  • Nesse período (2020 até meados de 2023), só haviam sido divulgados modelos relativamente menores, como o Llama com até 70B, e
    • em alguns projetos, tentou-se elevar o desempenho por meio de fine-tuning em Llamas menores (por exemplo, 70B) com dados sintéticos gerados pelo GPT-3
    • porém, quando texto criado por IA é reutilizado para treinar outra IA, pode surgir o problema de degradação da qualidade dos dados (data "degeneration")
  • Entre os motivos para a ausência prolongada de modelos open weight no nível do GPT-3,
    • estavam combinados fatores como custo de treinamento (infraestrutura com milhares a dezenas de milhares de GPUs), obtenção de dados e dificuldade de distribuir estruturas com muitos parâmetros
  • Com a divulgação do Llama-3.1 405B (405 bilhões de parâmetros dense), a abertura de modelos gigantes em open source começou de fato
    • pouco antes disso (dezembro de 2023), o Mixtral-8x7B da Mistral (estrutura MoE, 56 bilhões de parâmetros totais) e, em abril de 2024, o Mixtral-8x22B (141 bilhões no total, 39 bilhões ativos), entre outros,
      • tornaram possível treinar e distribuir modelos grandes no nível do GPT-3 com recursos relativamente menores por meio da arquitetura MoE (mistura de especialistas)
  • A estrutura MoE usa várias redes especialistas (Experts), ativando apenas parte delas em cada inferência
    • Com isso, torna possível operar grandes modelos com menos recursos (memória e computação) do que na estrutura dense
    • Devido aos limites de quantidade de GPUs e memória, o MoE teve papel decisivo na popularização dos grandes modelos abertos

Modelos grandes MoE (mistura de especialistas) mais recentes

Deepseek V3 Base (2024)

  • 671 bilhões de parâmetros (MoE), 37 bilhões ativos, treinamento com 14,8 trilhões de tokens de alta qualidade
  • O R1 (modelo especializado em raciocínio) também surgiu, e foi o primeiro modelo baixável a se aproximar de desempenho no nível do GPT-4
  • Logo após a divulgação, teve grande impacto no mercado, inclusive com queda temporária das ações da NVIDIA (NVDA)
  • Depois disso, uma sequência de novos grandes modelos MoE emergentes, inclusive chineses, passou a aparecer
    • alguns modelos introduzem novos tipos de dados no treinamento para oferecer suporte multimodal e multilíngue

Databricks (DBRX, março de 2024)

  • 132 bilhões de parâmetros no total, 36 bilhões ativos, 12 trilhões de tokens
  • Seleciona 4 entre 16 especialistas (mais granular que Mistral e Grok)

Minimax (janeiro de 2025)

  • 456 bilhões de parâmetros no total, 45,9 bilhões ativos, com controle da qualidade dos dados de treinamento por um reward labeler próprio

Dots (junho de 2025)

  • 143 bilhões de parâmetros no total, 14 bilhões ativos, 11,2 trilhões de tokens, contexto de 32K
  • Estrutura de especialistas top-6/128, com desempenho semelhante ao Qwen2.5-72B

Hunyuan (junho de 2025)

  • 80 bilhões em MoE, 13 bilhões ativos, 20 trilhões de tokens, contexto de 256K
  • 8 especialistas não compartilhados são ativados, enquanto especialistas compartilhados permanecem sempre ativos

Ernie (junho de 2025)

  • 424 bilhões de parâmetros no total, 47 bilhões ativos, trilhões de tokens

Conclusão e perspectivas

  • Em 2024~2025, diversos modelos gigantes no nível do GPT-3 (175 bilhões) ou acima dele estão sendo divulgados
  • 405B (405 bilhões) é o modelo base dense mais recente, mas os modelos MoE mais novos também seguem crescendo e se diversificando
  • A comparação de desempenho entre Dense vs MoE ainda é ambígua, e é preciso discutir que tipo de estrutura e escala são necessárias para a verdadeira "inteligência"
  • Novas estruturas (RWKV, byte-latent, bitnet) e uso de dados sintéticos também estão sendo experimentados, mas o avanço essencial como motor puro de texto ainda continua sendo um desafio
  • A maioria dos grandes modelos recentes tende a passar por fine-tuning para o papel de "assistente de IA"; é um momento em que se faz necessária a exploração de LLMs alternativos

1 comentários

 
GN⁺ 2025-07-03
Comentários do Hacker News
  • Continuo sem conseguir deixar de me impressionar não tanto por uma opinião puramente técnica, mas pelo fato de quanto dado está comprimido dentro desses modelos baixáveis. Ontem, num voo sem internet sem fio, baixei o modelo gemma3:12b (8,1 GB) pelo Ollama e fiquei fazendo todo tipo de pergunta com as crianças. Não foi perfeito para perguntas variadas sobre videogames recentes, animais, história etc., mas achei realmente incrível que tanto do conhecimento da humanidade caiba nesse arquivo tão pequeno e ainda possa ser usado offline. É compressão com perdas, mas ainda assim é impressionante conseguir comprimir o conhecimento humano desse jeito

    • Acho realmente fascinante o quanto modelos de linguagem podem ser uma ferramenta de compressão poderosa. Se você treina um modelo para uso como assistant, ele comprime melhor registros de conversas de assistente do que texto comum. Existe uma avaliação chamada UncheatableEval, em que dá para entender a capacidade de compressão de modelos de linguagem aplicada a várias tarefas. Esse critério de avaliação é, na prática, um teste que realmente não dá para “trapacear”. Considero desempenho em compressão um benchmark genuíno, em que não dá para usar atalhos como em um jogo

    • Recomendo o projeto Kiwix, que permite baixar e usar vários materiais offline. Eles também oferecem dispositivos com conteúdo pré-carregado para lugares com acesso à internet instável ou inexistente

    • Como referência, na Wikipedia em inglês (26 de junho de 2025), existem mais de 7 milhões de artigos e 63 milhões de páginas. Só o texto ocupa cerca de 156 GB, e somando todas as versões o banco de dados inteiro chega a cerca de 26 TB

    • 8,1 GB é realmente muito grande. São 64,8 bilhões (64.800.000.000) de bits; talvez dê para imaginar 100 bits ou 1.000 bits, mas 10 mil, 1 milhão, 64 milhões e depois esse número mil vezes maior passam uma noção de escala realmente absurda

    • A área que estuda modelos de linguagem sob a ótica de teoria da informação e compressão ainda é pequena, mas vem se tornando cada vez mais importante por eficiência e escalabilidade. Hoje houve uma discussão sobre isso; quem tiver interesse vale a pena conferir

  • O Deepseek v1 tem cerca de 670 bilhões de parâmetros e um tamanho físico de aproximadamente 1,4 TB. Se comprimirmos todos os livros já digitalizados, imagino que daria alguns TB; a web pública, algo em torno de 50 TB; e todo o texto eletrônico em inglês, compactado em zip, talvez fique em O(100TB). O tamanho atual dos modelos está em cerca de 1% do total, e parece que já entramos numa fase em que aumentar ainda mais o tamanho não eleva mais o desempenho tanto quanto se esperava (veja gpt4.5 vs 4o). Por isso, recentemente, com os modelos de reasoning, o custo computacional está migrando para o lado do tempo de inferência. Para obter utilidade adicional, imagino que daqui para frente a evolução vá para modelos especializados focados em domínios específicos. Acho que 1 TB de VRAM para inferência pode se tornar uma meta de médio prazo para modelos open source de alta qualidade. É uma especificação que até empresas de pequeno e médio porte (SME) poderiam alcançar (estimando algo em torno de 250B parâmetros)

    • Se adicionarmos imagens e vídeos, essas estimativas acima podem começar a soar como aquele velho papo de que 640 KB seriam suficientes para tudo. Depois, se robôs passarem a explorar o mundo por conta própria e coletar dados, ainda mais informação será acumulada. Falando sério, acrescentar dados de imagem e interação provavelmente trará utilidade significativa também para geração de texto

    • Fiz as contas uma vez com números concretos. Usei 157 milhões de artigos científicos e 52 milhões de livros, assumindo em média 10 mil palavras por artigo e 100 mil palavras por livro, e calculei a taxa de compressão com base em uma amostra de livros. O resultado foi cerca de 30 TB sem compressão e 5,5 TB comprimidos. Dá para armazenar isso em 3 cartões microSD de 2 TB (US$ 750 no total)

    • Uma observação pequena: acho inadequado usar notação big O (O(100TB)) para uma quantidade fixa de armazenamento

    • Pergunto se esses 50 TB são baseados na Library of Congress dos EUA. A internet inteira seria muito maior

    • Fiquei curioso sobre de onde vieram esses números de “todos os livros digitalizados comprimem para alguns TB, a web pública dá 50 TB”. Se houver uma fonte, gostaria de ver. Há muito tempo li algo dizendo que todos os registros escritos até certo século davam uns 50 MB, mas não consigo achar a fonte, então talvez eu esteja lembrando errado

  • Estão faltando os modelos da série Gemma e Gemini (Google). E também é uma pena não haver menção à série T5, que teve papel importante em transferência de aprendizado e na disseminação dessa área. Dá para dizer que o T5 foi o ponto de partida de muitos conceitos

    • Os modelos Gemma não entraram na lista porque são pequenos. O T5 é historicamente muito importante, mas tem menos de 11B, então não recebeu tanta atenção em separado. Ainda assim, é um modelo bem significativo e interessante
  • Se quiser ver visualmente, há um material com um gráfico do total de parâmetros por ano: Total Parameters vs. Release Year by Family

    • Esse gráfico mostra com muita clareza o salto gigantesco que o GPT-3 representou e como, por muito tempo depois, ninguém conseguiu alcançar esse nível

    • Material muito legal. Obrigado por ter feito isso. Deixei um screenshot do gráfico, o link e os créditos nos comentários do meu post

  • Texto realmente muito bom. Só que ele parte um pouco da premissa de que só esses modelos de linguagem gigantes são a maior inovação possível. Os grandes players ficaram relativamente quietos por um tempo e, visto de fora, a OpenAI deu só algumas pistas pelo próprio comportamento. Parece que fizeram modelos muito maiores, tiveram resultados decepcionantes e interromperam silenciosamente os experimentos. Na prática, os modelos de reasoning de ponta mais poderosos podem até ser menores do que os grandes modelos públicos

  • A situação é irônica. A comunidade open source tentou várias abordagens para alcançar o GPT-3 (175B) — modelos de 30~70B, RLHF, dados sintéticos etc. — mas a diferença continuava. No fim, ficou claro que o tamanho intrínseco do modelo realmente importa, e só quando surgiram modelos dense verdadeiramente gigantes (405B) ou modelos MoE (DeepSeek V3, DBRX etc.) é que reasoning em nível GPT-4 apareceu também fora dos labs fechados

  • Não concordo com a observação na nota de que “para chegar perto do nível do GPT-3, os modelos open source de 70B em geral foram treinados com dados sintéticos gerados pelo GPT-3”. Se dados sintéticos sempre levassem à degradação de desempenho, os laboratórios de IA jamais os usariam. Na prática, eles estão sendo usados para construir modelos melhores. Existem artigos mostrando degradação quando você deliberadamente cria um “loop de treinamento com a própria saída”, mas isso é diferente de como os labs de IA realmente usam dados sintéticos. Esse tipo de artigo faz sucesso porque a ideia de uma “IA que entra em colapso ao devorar a própria cauda” é atraente demais

    • Concordo. Especialmente no contexto de treinar um modelo menor com a saída de um modelo maior, distillation é uma técnica muito eficaz. Eu mesmo, no passado, fiz ajuste fino de modelos Llama e Mistral para domínios específicos com dados humanos e dados gerados pelo GPT-4, e os resultados melhoraram depois de adicionar dados sintéticos (de boa qualidade)
  • É uma pena que as pessoas continuem repetindo que LLM é compressão com perdas. Como analogia grosseira até funciona, mas o fato mais preciso e interessante é que LLM também funciona como algoritmo de compressão sem perdas (lossless). Há dois casos. 1) Dá para usar codificação aritmética para qualquer texto com um custo próximo à log-verossimilhança do LLM (desde que emissor e receptor tenham os mesmos parâmetros do LLM). 2) Dá para implementar compressão sem perdas usando LLM e SGD (código de treinamento), desde que os parâmetros do modelo não contem no comprimento da descrição. Vale ver o material “compression for AGI”, do Jack Rae

    • Sobre o item 1: técnicas clássicas de compressão também ficam muito eficazes se emissor e receptor tiverem o mesmo grande dicionário
  • Só números como “1.61B” não me dão muita noção de quão grande é o arquivo nem de quanta VRAM é necessária. Queria entender o armazenamento real, os requisitos de hardware, até onde eu conseguiria rodar algo se comprasse uma máquina hoje e que tipo de modelo poderia rodar daqui a 10 anos

    • Se for 1 byte por parâmetro (f8), dá 1,6 GB; se for 2 bytes (f16), dá 2,3 GB. Além de carregar o modelo na GPU, há consumo adicional de memória, então é bom considerar algo como 4× o número de parâmetros. Ou seja, para 2B parâmetros, recomenda-se 8 GB de VRAM

    • A maioria dos modelos é treinada em 16 bits (2 bytes). Um modelo de 1 bilhão de parâmetros ocupa 2 GB. Para uso prático, quantização menor de 8 bits já costuma bastar, e normalmente reduzir de 16 bits para 8 bits quase não causa perda de desempenho. Então a conta simplificada fica: modelo de 1B = 1 GB, modelo de 20B = 20 GB. Dá até para usar bits ainda mais baixos (5 bits, 4 bits etc.) e, dependendo do caso, continuar viável em produção sem grande perda de qualidade. Há inclusive casos em que um modelo treinado diretamente em 4 bits mostrou qualidade melhor do que um modelo quantizado de 16 bits. Em modelos grandes, o gargalo não é capacidade de VRAM, mas largura de banda. Por isso, uma GPU com muita VRAM é importante. Mesmo com 128 GB de RAM do sistema, se você ultrapassar a memória da GPU, a largura de banda entre GPU e CPU fica insuficiente, e o CPU acaba sendo ainda mais lento. Uma GPU (como a RTX 5090) tem 32 GB de VRAM e largura de banda na faixa de 1 Tb/s. A série Apple M oferece 512 Gb/s, e o AMD Strix Halo traz 128 GB de memória unificada com 256 Gb/s de largura de banda. Para experiência prática rodando LLM em hardware de consumidor, vale olhar o Reddit r/LocalLLaMA. Só que lá também aparecem experimentos bem fora do comum, então convém ter cautela. O cenário daqui a 10 anos é imprevisível. TSMC, Samsung e Intel estão todas focadas em produzir GPUs topo de linha para atender a demanda dos hyperscalers, e a indústria de semicondutores está num momento difícil de prever, com várias variáveis em jogo (política, comércio, IA, eventos black swan etc.)