O estado atual dos modelos generativos

xguru · 2025-01-06T10:21:01+09:00

Ao longo de 2024, houve grandes avanços tanto na geração de texto quanto de imagem Diferentemente do início, quando a OpenAI corria praticamente sozinha, no fim do ano passado diversos laboratórios como Anthropic, DeepSeek e Qwen passaram a expandir competitivamente a fronteira Um resumo das tendências de pesquisa de 2024~2025 e uma breve organização das áreas mais promissoras para o futuro “Um fosso construído apenas com código-fonte fechado não dura muito tempo Mesmo a OpenAI não conseguirá impedir que os outros a alcancem No fim, o verdadeiro fosso é fortalecer nossa organização e cultura para formar talentos capazes de inovar” ─ Liang Wenfeng, CEO da DeepSeek # Language Os grandes modelos de linguagem (LLMs) são o núcleo do atual boom de IA e concentram a maior parte da pesquisa e dos investimentos Em 2024, houve grandes avanços tanto no desempenho dos modelos quanto em novos paradigmas de scaling Architecture Novas arquiteturas (Mamba, xLSTM etc.) foram testadas, mas, pelo menos por enquanto, a tendência é que o decoder-only Transformer continue dominante Dense Transformer Llama 3 é o exemplo representativo, e a Meta está otimizando o vanilla Dense Transformer até o limite A forma conhecida como Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE etc.) está, na prática, se consolidando como padrão Abordagens como o Multi Latent Attention (MLA) apresentado pela DeepSeek devem receber mais atenção, e também pode surgir alguma técnica que substitua ou modifique o RoPE Mixture-of-Experts Com os rumores de que o GPT-4 seria um enorme MoE, essa abordagem voltou a ganhar destaque em 2024 No campo open source, os principais exemplos são Mixtral, da Mistral, e DeepSeek v2·v3 O MoE tem a desvantagem de não ser fácil de servir em produção, mas a DeepSeek está pesquisando isso ativamente No futuro, espera-se pesquisa em várias direções, como mecanismos de roteamento, formas de aplicar MoE em cada camada e interpretabilidade dos especialistas Tokenization Muitos defendem que é necessária uma inovação para substituir o Byte Pair Encoding, mas como ainda não há um grande problema, ele continua sendo usado A Meta chamou atenção ao propor duas tentativas: processar CoT no latent space (byte-based) ou treinar o Transformer diretamente em bytes No Byte Latent Transformer (BLT), usa-se uma estrutura de Encoder/Decoder para processar entradas em bytes Há preocupação de que a qualidade do byte decoder possa se tornar um gargalo Reasoning No segundo semestre de 2024, a capacidade de raciocínio em matemática, ciência e programação melhorou rapidamente (o1, o3, DeepSeek r1 etc.) Isso está relacionado a um novo paradigma de scaling chamado “inference-time compute” O modelo gera um Chain of Thought muito longo e usa esse processo para verificar a si mesmo e aproveitá-lo Não se sabe publicamente como OpenAI o1 e o3 foram criados, mas é bastante provável que tenham usado abordagens de RL, como no artigo “Let’s Verify Step by Step” Espera-se que Anthropic e outros laboratórios também apresentem reasoners semelhantes no futuro Há interesse em saber se isso poderá ir além do foco em STEM e ser aplicado a domínios mais amplos, como escrita criativa Distillation Há especulação de que a OpenAI não divulgou o Chain of Thought no lançamento do o1 porque retreinamentos com saídas do próprio modelo (como no DeepSeek v3) contribuem muito para melhorar o desempenho O DeepSeek v3 não parece reproduzir exatamente o longo CoT característico dos reasoners, mas aparenta distinguir modos internamente e raciocinar quando necessário Também é um tema de pesquisa interessante saber se modelos menores (como o1-mini) conseguem se aproximar do desempenho de modelos grandes ou se existe alguma técnica secreta de destilação por trás disso # Image Em imagens, vários laboratórios pequenos e médios entraram na disputa, acelerando a inovação Os principais modelos atuais (Flux, Stable Diffusion 3, MidJourney, Sora etc.) são baseados em Diffusion Transformer, com o framework de Flow Matching como dominante Architecture É comum o uso de Diffusion Transformer combinado com normalização adaptativa, estrutura MM-DIT e afins Em 2025, deve aumentar o número de tentativas de substituir o encoder de texto baseado em CLIP por LLMs menores Framework Formou-se uma tendência de preferir a abordagem de Flow Matching em vez da abordagem probabilística tradicional Também há a possibilidade de uma volta dos modelos AutoRegressive, e o artigo sobre Visual Autoregressive Modelling recebeu grande atenção A técnica de geração de imagem divulgada pela xAI também é presumivelmente autoregressiva, embora o motivo específico não seja conhecido # Multimodality OpenAI, Anthropic e outras já ofereciam entrada de imagens nos modelos, mas no primeiro semestre de 2024 a pesquisa multimodal em formatos mais abertos se intensificou Visual Language Models Diversos VLMs, como Qwen e PaliGemma, surgiram para uso em tarefas como legendagem de imagens e parsing de documentos A estrutura que conecta Vision Transformer a um LLM pré-treinado se consolidou como padrão Em 2025, a expectativa é que esses VLMs sejam integrados em Omni-Models Omni-Modal Models A OpenAI chegou a mostrar com o GPT-4o um caso que gera até imagens, mas isso não foi totalmente aberto ao público Modelos como Chameleon tentaram uma fusão inicial usando image tokenizer + detokenizer Há debate sobre os prós e contras de tratar até saídas não textuais como discrete tokens Circulam rumores de que o Llama 4 já está sendo treinado como omnimodal, o que gera expectativa # Agents and Human-AI Interfaces A definição de “AI Agent” é ambígua, mas aqui o termo se refere, por enquanto, a uma abordagem em que se dá ao LLM permissão para usar ferramentas e atingir objetivos por conta própria Com base no SWE-Bench, espera-se que até o fim de 2025 seja possível automatizar em certo nível o debug de código e a implementação de funcionalidades Ainda assim, é cedo para falar em substituição de engenheiros, e a adoção deve começar por áreas com maior tolerância a erros, como roteiros de viagem ou busca de informações UIs em formato de editor, como o Cursor, podem ser mais adequadas ao uso de agentes Chamadas de agentes têm alto custo em tokens, então ainda é incerto se agentes totalmente autônomos terão boa relação custo-benefício # 2025 Já estamos acostumados a ouvir que o avanço da IA é muito rápido, mas na prática as mudanças são tão grandes que é difícil até medir essa velocidade Este texto tratou apenas de forma breve do estado atual centrado em texto e imagem e das expectativas para 2025. Entre as áreas relevantes que ficaram de fora, destacam-se: otimização de treinamento (Muon, NanoGPT speedruns) modelos de vídeo (resolução de problemas de consistência e velocidade de inferência) quantização (quantização de 1 bit, precisão abaixo de FP8 etc.) pesquisa em interpretabilidade de modelos avaliação e benchmarks (espera-se o aumento de avaliações baseadas em tarefas reais, como SWE-Bench) Espera-se que 2025 traga ainda mais avanços

(nrehiew.github.io)

20 pontos por xguru 2025-01-06 | 2 comentários | Compartilhar no WhatsApp

Ao longo de 2024, houve grandes avanços tanto na geração de texto quanto de imagem
Diferentemente do início, quando a OpenAI corria praticamente sozinha, no fim do ano passado diversos laboratórios como Anthropic, DeepSeek e Qwen passaram a expandir competitivamente a fronteira
Um resumo das tendências de pesquisa de 2024~2025 e uma breve organização das áreas mais promissoras para o futuro

“Um fosso construído apenas com código-fonte fechado não dura muito tempo
Mesmo a OpenAI não conseguirá impedir que os outros a alcancem
No fim, o verdadeiro fosso é fortalecer nossa organização e cultura para formar talentos capazes de inovar”
─ Liang Wenfeng, CEO da DeepSeek

# Language

Os grandes modelos de linguagem (LLMs) são o núcleo do atual boom de IA e concentram a maior parte da pesquisa e dos investimentos
Em 2024, houve grandes avanços tanto no desempenho dos modelos quanto em novos paradigmas de scaling
Architecture
- Novas arquiteturas (Mamba, xLSTM etc.) foram testadas, mas, pelo menos por enquanto, a tendência é que o decoder-only Transformer continue dominante
- Dense Transformer
  - Llama 3 é o exemplo representativo, e a Meta está otimizando o vanilla Dense Transformer até o limite
  - A forma conhecida como Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE etc.) está, na prática, se consolidando como padrão
  - Abordagens como o Multi Latent Attention (MLA) apresentado pela DeepSeek devem receber mais atenção, e também pode surgir alguma técnica que substitua ou modifique o RoPE
- Mixture-of-Experts
  - Com os rumores de que o GPT-4 seria um enorme MoE, essa abordagem voltou a ganhar destaque em 2024
  - No campo open source, os principais exemplos são Mixtral, da Mistral, e DeepSeek v2·v3
  - O MoE tem a desvantagem de não ser fácil de servir em produção, mas a DeepSeek está pesquisando isso ativamente
  - No futuro, espera-se pesquisa em várias direções, como mecanismos de roteamento, formas de aplicar MoE em cada camada e interpretabilidade dos especialistas
Tokenization
- Muitos defendem que é necessária uma inovação para substituir o Byte Pair Encoding, mas como ainda não há um grande problema, ele continua sendo usado
- A Meta chamou atenção ao propor duas tentativas: processar CoT no latent space (byte-based) ou treinar o Transformer diretamente em bytes
- No Byte Latent Transformer (BLT), usa-se uma estrutura de Encoder/Decoder para processar entradas em bytes
- Há preocupação de que a qualidade do byte decoder possa se tornar um gargalo
Reasoning
- No segundo semestre de 2024, a capacidade de raciocínio em matemática, ciência e programação melhorou rapidamente (o1, o3, DeepSeek r1 etc.)
- Isso está relacionado a um novo paradigma de scaling chamado “inference-time compute”
  - O modelo gera um Chain of Thought muito longo e usa esse processo para verificar a si mesmo e aproveitá-lo
- Não se sabe publicamente como OpenAI o1 e o3 foram criados, mas é bastante provável que tenham usado abordagens de RL, como no artigo “Let’s Verify Step by Step”
- Espera-se que Anthropic e outros laboratórios também apresentem reasoners semelhantes no futuro
- Há interesse em saber se isso poderá ir além do foco em STEM e ser aplicado a domínios mais amplos, como escrita criativa
Distillation
- Há especulação de que a OpenAI não divulgou o Chain of Thought no lançamento do o1 porque retreinamentos com saídas do próprio modelo (como no DeepSeek v3) contribuem muito para melhorar o desempenho
- O DeepSeek v3 não parece reproduzir exatamente o longo CoT característico dos reasoners, mas aparenta distinguir modos internamente e raciocinar quando necessário
- Também é um tema de pesquisa interessante saber se modelos menores (como o1-mini) conseguem se aproximar do desempenho de modelos grandes ou se existe alguma técnica secreta de destilação por trás disso

# Image

Em imagens, vários laboratórios pequenos e médios entraram na disputa, acelerando a inovação
Os principais modelos atuais (Flux, Stable Diffusion 3, MidJourney, Sora etc.) são baseados em Diffusion Transformer, com o framework de Flow Matching como dominante
Architecture
- É comum o uso de Diffusion Transformer combinado com normalização adaptativa, estrutura MM-DIT e afins
- Em 2025, deve aumentar o número de tentativas de substituir o encoder de texto baseado em CLIP por LLMs menores
Framework
- Formou-se uma tendência de preferir a abordagem de Flow Matching em vez da abordagem probabilística tradicional
- Também há a possibilidade de uma volta dos modelos AutoRegressive, e o artigo sobre Visual Autoregressive Modelling recebeu grande atenção
- A técnica de geração de imagem divulgada pela xAI também é presumivelmente autoregressiva, embora o motivo específico não seja conhecido

# Multimodality

OpenAI, Anthropic e outras já ofereciam entrada de imagens nos modelos, mas no primeiro semestre de 2024 a pesquisa multimodal em formatos mais abertos se intensificou
Visual Language Models
- Diversos VLMs, como Qwen e PaliGemma, surgiram para uso em tarefas como legendagem de imagens e parsing de documentos
- A estrutura que conecta Vision Transformer a um LLM pré-treinado se consolidou como padrão
- Em 2025, a expectativa é que esses VLMs sejam integrados em Omni-Models
Omni-Modal Models
- A OpenAI chegou a mostrar com o GPT-4o um caso que gera até imagens, mas isso não foi totalmente aberto ao público
- Modelos como Chameleon tentaram uma fusão inicial usando image tokenizer + detokenizer
- Há debate sobre os prós e contras de tratar até saídas não textuais como discrete tokens
- Circulam rumores de que o Llama 4 já está sendo treinado como omnimodal, o que gera expectativa

# Agents and Human-AI Interfaces

A definição de “AI Agent” é ambígua, mas aqui o termo se refere, por enquanto, a uma abordagem em que se dá ao LLM permissão para usar ferramentas e atingir objetivos por conta própria
Com base no SWE-Bench, espera-se que até o fim de 2025 seja possível automatizar em certo nível o debug de código e a implementação de funcionalidades
Ainda assim, é cedo para falar em substituição de engenheiros, e a adoção deve começar por áreas com maior tolerância a erros, como roteiros de viagem ou busca de informações
UIs em formato de editor, como o Cursor, podem ser mais adequadas ao uso de agentes
Chamadas de agentes têm alto custo em tokens, então ainda é incerto se agentes totalmente autônomos terão boa relação custo-benefício

# 2025

Já estamos acostumados a ouvir que o avanço da IA é muito rápido, mas na prática as mudanças são tão grandes que é difícil até medir essa velocidade
Este texto tratou apenas de forma breve do estado atual centrado em texto e imagem e das expectativas para 2025. Entre as áreas relevantes que ficaram de fora, destacam-se:
- otimização de treinamento (Muon, NanoGPT speedruns)
- modelos de vídeo (resolução de problemas de consistência e velocidade de inferência)
- quantização (quantização de 1 bit, precisão abaixo de FP8 etc.)
- pesquisa em interpretabilidade de modelos
- avaliação e benchmarks (espera-se o aumento de avaliações baseadas em tarefas reais, como SWE-Bench)
Espera-se que 2025 traga ainda mais avanços

2 comentários

lonzino 2025-01-06

Obrigado.

zkdlfrlwl2 2025-01-06

Obrigado pela organização clara.