O estado atual dos modelos generativos
(nrehiew.github.io)- Ao longo de 2024, houve grandes avanços tanto na geração de texto quanto de imagem
- Diferentemente do início, quando a OpenAI corria praticamente sozinha, no fim do ano passado diversos laboratórios como Anthropic, DeepSeek e Qwen passaram a expandir competitivamente a fronteira
- Um resumo das tendências de pesquisa de 2024~2025 e uma breve organização das áreas mais promissoras para o futuro
“Um fosso construído apenas com código-fonte fechado não dura muito tempo
Mesmo a OpenAI não conseguirá impedir que os outros a alcancem
No fim, o verdadeiro fosso é fortalecer nossa organização e cultura para formar talentos capazes de inovar”
─ Liang Wenfeng, CEO da DeepSeek
# Language
- Os grandes modelos de linguagem (LLMs) são o núcleo do atual boom de IA e concentram a maior parte da pesquisa e dos investimentos
- Em 2024, houve grandes avanços tanto no desempenho dos modelos quanto em novos paradigmas de scaling
- Architecture
- Novas arquiteturas (Mamba, xLSTM etc.) foram testadas, mas, pelo menos por enquanto, a tendência é que o decoder-only Transformer continue dominante
- Dense Transformer
- Llama 3 é o exemplo representativo, e a Meta está otimizando o vanilla Dense Transformer até o limite
- A forma conhecida como Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE etc.) está, na prática, se consolidando como padrão
- Abordagens como o Multi Latent Attention (MLA) apresentado pela DeepSeek devem receber mais atenção, e também pode surgir alguma técnica que substitua ou modifique o RoPE
- Mixture-of-Experts
- Com os rumores de que o GPT-4 seria um enorme MoE, essa abordagem voltou a ganhar destaque em 2024
- No campo open source, os principais exemplos são Mixtral, da Mistral, e DeepSeek v2·v3
- O MoE tem a desvantagem de não ser fácil de servir em produção, mas a DeepSeek está pesquisando isso ativamente
- No futuro, espera-se pesquisa em várias direções, como mecanismos de roteamento, formas de aplicar MoE em cada camada e interpretabilidade dos especialistas
- Tokenization
- Muitos defendem que é necessária uma inovação para substituir o Byte Pair Encoding, mas como ainda não há um grande problema, ele continua sendo usado
- A Meta chamou atenção ao propor duas tentativas: processar CoT no latent space (byte-based) ou treinar o Transformer diretamente em bytes
- No Byte Latent Transformer (BLT), usa-se uma estrutura de Encoder/Decoder para processar entradas em bytes
- Há preocupação de que a qualidade do byte decoder possa se tornar um gargalo
- Reasoning
- No segundo semestre de 2024, a capacidade de raciocínio em matemática, ciência e programação melhorou rapidamente (o1, o3, DeepSeek r1 etc.)
- Isso está relacionado a um novo paradigma de scaling chamado “inference-time compute”
- O modelo gera um Chain of Thought muito longo e usa esse processo para verificar a si mesmo e aproveitá-lo
- Não se sabe publicamente como OpenAI o1 e o3 foram criados, mas é bastante provável que tenham usado abordagens de RL, como no artigo “Let’s Verify Step by Step”
- Espera-se que Anthropic e outros laboratórios também apresentem reasoners semelhantes no futuro
- Há interesse em saber se isso poderá ir além do foco em STEM e ser aplicado a domínios mais amplos, como escrita criativa
- Distillation
- Há especulação de que a OpenAI não divulgou o Chain of Thought no lançamento do o1 porque retreinamentos com saídas do próprio modelo (como no DeepSeek v3) contribuem muito para melhorar o desempenho
- O DeepSeek v3 não parece reproduzir exatamente o longo CoT característico dos reasoners, mas aparenta distinguir modos internamente e raciocinar quando necessário
- Também é um tema de pesquisa interessante saber se modelos menores (como o1-mini) conseguem se aproximar do desempenho de modelos grandes ou se existe alguma técnica secreta de destilação por trás disso
# Image
- Em imagens, vários laboratórios pequenos e médios entraram na disputa, acelerando a inovação
- Os principais modelos atuais (Flux, Stable Diffusion 3, MidJourney, Sora etc.) são baseados em Diffusion Transformer, com o framework de Flow Matching como dominante
- Architecture
- É comum o uso de Diffusion Transformer combinado com normalização adaptativa, estrutura MM-DIT e afins
- Em 2025, deve aumentar o número de tentativas de substituir o encoder de texto baseado em CLIP por LLMs menores
- Framework
- Formou-se uma tendência de preferir a abordagem de Flow Matching em vez da abordagem probabilística tradicional
- Também há a possibilidade de uma volta dos modelos AutoRegressive, e o artigo sobre Visual Autoregressive Modelling recebeu grande atenção
- A técnica de geração de imagem divulgada pela xAI também é presumivelmente autoregressiva, embora o motivo específico não seja conhecido
# Multimodality
- OpenAI, Anthropic e outras já ofereciam entrada de imagens nos modelos, mas no primeiro semestre de 2024 a pesquisa multimodal em formatos mais abertos se intensificou
- Visual Language Models
- Diversos VLMs, como Qwen e PaliGemma, surgiram para uso em tarefas como legendagem de imagens e parsing de documentos
- A estrutura que conecta Vision Transformer a um LLM pré-treinado se consolidou como padrão
- Em 2025, a expectativa é que esses VLMs sejam integrados em Omni-Models
- Omni-Modal Models
- A OpenAI chegou a mostrar com o GPT-4o um caso que gera até imagens, mas isso não foi totalmente aberto ao público
- Modelos como Chameleon tentaram uma fusão inicial usando image tokenizer + detokenizer
- Há debate sobre os prós e contras de tratar até saídas não textuais como discrete tokens
- Circulam rumores de que o Llama 4 já está sendo treinado como omnimodal, o que gera expectativa
# Agents and Human-AI Interfaces
- A definição de “AI Agent” é ambígua, mas aqui o termo se refere, por enquanto, a uma abordagem em que se dá ao LLM permissão para usar ferramentas e atingir objetivos por conta própria
- Com base no SWE-Bench, espera-se que até o fim de 2025 seja possível automatizar em certo nível o debug de código e a implementação de funcionalidades
- Ainda assim, é cedo para falar em substituição de engenheiros, e a adoção deve começar por áreas com maior tolerância a erros, como roteiros de viagem ou busca de informações
- UIs em formato de editor, como o Cursor, podem ser mais adequadas ao uso de agentes
- Chamadas de agentes têm alto custo em tokens, então ainda é incerto se agentes totalmente autônomos terão boa relação custo-benefício
# 2025
- Já estamos acostumados a ouvir que o avanço da IA é muito rápido, mas na prática as mudanças são tão grandes que é difícil até medir essa velocidade
- Este texto tratou apenas de forma breve do estado atual centrado em texto e imagem e das expectativas para 2025. Entre as áreas relevantes que ficaram de fora, destacam-se:
- otimização de treinamento (Muon, NanoGPT speedruns)
- modelos de vídeo (resolução de problemas de consistência e velocidade de inferência)
- quantização (quantização de 1 bit, precisão abaixo de FP8 etc.)
- pesquisa em interpretabilidade de modelos
- avaliação e benchmarks (espera-se o aumento de avaliações baseadas em tarefas reais, como SWE-Bench)
- Espera-se que 2025 traga ainda mais avanços
2 comentários
Obrigado.
Obrigado pela organização clara.