20 pontos por xguru 2025-01-06 | 2 comentários | Compartilhar no WhatsApp
  • Ao longo de 2024, houve grandes avanços tanto na geração de texto quanto de imagem
  • Diferentemente do início, quando a OpenAI corria praticamente sozinha, no fim do ano passado diversos laboratórios como Anthropic, DeepSeek e Qwen passaram a expandir competitivamente a fronteira
  • Um resumo das tendências de pesquisa de 2024~2025 e uma breve organização das áreas mais promissoras para o futuro

    “Um fosso construído apenas com código-fonte fechado não dura muito tempo
    Mesmo a OpenAI não conseguirá impedir que os outros a alcancem
    No fim, o verdadeiro fosso é fortalecer nossa organização e cultura para formar talentos capazes de inovar”
    ─ Liang Wenfeng, CEO da DeepSeek

# Language

  • Os grandes modelos de linguagem (LLMs) são o núcleo do atual boom de IA e concentram a maior parte da pesquisa e dos investimentos
  • Em 2024, houve grandes avanços tanto no desempenho dos modelos quanto em novos paradigmas de scaling
  • Architecture
    • Novas arquiteturas (Mamba, xLSTM etc.) foram testadas, mas, pelo menos por enquanto, a tendência é que o decoder-only Transformer continue dominante
    • Dense Transformer
      • Llama 3 é o exemplo representativo, e a Meta está otimizando o vanilla Dense Transformer até o limite
      • A forma conhecida como Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE etc.) está, na prática, se consolidando como padrão
      • Abordagens como o Multi Latent Attention (MLA) apresentado pela DeepSeek devem receber mais atenção, e também pode surgir alguma técnica que substitua ou modifique o RoPE
    • Mixture-of-Experts
      • Com os rumores de que o GPT-4 seria um enorme MoE, essa abordagem voltou a ganhar destaque em 2024
      • No campo open source, os principais exemplos são Mixtral, da Mistral, e DeepSeek v2·v3
      • O MoE tem a desvantagem de não ser fácil de servir em produção, mas a DeepSeek está pesquisando isso ativamente
      • No futuro, espera-se pesquisa em várias direções, como mecanismos de roteamento, formas de aplicar MoE em cada camada e interpretabilidade dos especialistas
  • Tokenization
    • Muitos defendem que é necessária uma inovação para substituir o Byte Pair Encoding, mas como ainda não há um grande problema, ele continua sendo usado
    • A Meta chamou atenção ao propor duas tentativas: processar CoT no latent space (byte-based) ou treinar o Transformer diretamente em bytes
    • No Byte Latent Transformer (BLT), usa-se uma estrutura de Encoder/Decoder para processar entradas em bytes
    • Há preocupação de que a qualidade do byte decoder possa se tornar um gargalo
  • Reasoning
    • No segundo semestre de 2024, a capacidade de raciocínio em matemática, ciência e programação melhorou rapidamente (o1, o3, DeepSeek r1 etc.)
    • Isso está relacionado a um novo paradigma de scaling chamado “inference-time compute”
      • O modelo gera um Chain of Thought muito longo e usa esse processo para verificar a si mesmo e aproveitá-lo
    • Não se sabe publicamente como OpenAI o1 e o3 foram criados, mas é bastante provável que tenham usado abordagens de RL, como no artigo “Let’s Verify Step by Step”
    • Espera-se que Anthropic e outros laboratórios também apresentem reasoners semelhantes no futuro
    • Há interesse em saber se isso poderá ir além do foco em STEM e ser aplicado a domínios mais amplos, como escrita criativa
  • Distillation
    • Há especulação de que a OpenAI não divulgou o Chain of Thought no lançamento do o1 porque retreinamentos com saídas do próprio modelo (como no DeepSeek v3) contribuem muito para melhorar o desempenho
    • O DeepSeek v3 não parece reproduzir exatamente o longo CoT característico dos reasoners, mas aparenta distinguir modos internamente e raciocinar quando necessário
    • Também é um tema de pesquisa interessante saber se modelos menores (como o1-mini) conseguem se aproximar do desempenho de modelos grandes ou se existe alguma técnica secreta de destilação por trás disso

# Image

  • Em imagens, vários laboratórios pequenos e médios entraram na disputa, acelerando a inovação
  • Os principais modelos atuais (Flux, Stable Diffusion 3, MidJourney, Sora etc.) são baseados em Diffusion Transformer, com o framework de Flow Matching como dominante
  • Architecture
    • É comum o uso de Diffusion Transformer combinado com normalização adaptativa, estrutura MM-DIT e afins
    • Em 2025, deve aumentar o número de tentativas de substituir o encoder de texto baseado em CLIP por LLMs menores
  • Framework
    • Formou-se uma tendência de preferir a abordagem de Flow Matching em vez da abordagem probabilística tradicional
    • Também há a possibilidade de uma volta dos modelos AutoRegressive, e o artigo sobre Visual Autoregressive Modelling recebeu grande atenção
    • A técnica de geração de imagem divulgada pela xAI também é presumivelmente autoregressiva, embora o motivo específico não seja conhecido

# Multimodality

  • OpenAI, Anthropic e outras já ofereciam entrada de imagens nos modelos, mas no primeiro semestre de 2024 a pesquisa multimodal em formatos mais abertos se intensificou
  • Visual Language Models
    • Diversos VLMs, como Qwen e PaliGemma, surgiram para uso em tarefas como legendagem de imagens e parsing de documentos
    • A estrutura que conecta Vision Transformer a um LLM pré-treinado se consolidou como padrão
    • Em 2025, a expectativa é que esses VLMs sejam integrados em Omni-Models
  • Omni-Modal Models
    • A OpenAI chegou a mostrar com o GPT-4o um caso que gera até imagens, mas isso não foi totalmente aberto ao público
    • Modelos como Chameleon tentaram uma fusão inicial usando image tokenizer + detokenizer
    • Há debate sobre os prós e contras de tratar até saídas não textuais como discrete tokens
    • Circulam rumores de que o Llama 4 já está sendo treinado como omnimodal, o que gera expectativa

# Agents and Human-AI Interfaces

  • A definição de “AI Agent” é ambígua, mas aqui o termo se refere, por enquanto, a uma abordagem em que se dá ao LLM permissão para usar ferramentas e atingir objetivos por conta própria
  • Com base no SWE-Bench, espera-se que até o fim de 2025 seja possível automatizar em certo nível o debug de código e a implementação de funcionalidades
  • Ainda assim, é cedo para falar em substituição de engenheiros, e a adoção deve começar por áreas com maior tolerância a erros, como roteiros de viagem ou busca de informações
  • UIs em formato de editor, como o Cursor, podem ser mais adequadas ao uso de agentes
  • Chamadas de agentes têm alto custo em tokens, então ainda é incerto se agentes totalmente autônomos terão boa relação custo-benefício

# 2025

  • Já estamos acostumados a ouvir que o avanço da IA é muito rápido, mas na prática as mudanças são tão grandes que é difícil até medir essa velocidade
  • Este texto tratou apenas de forma breve do estado atual centrado em texto e imagem e das expectativas para 2025. Entre as áreas relevantes que ficaram de fora, destacam-se:
    • otimização de treinamento (Muon, NanoGPT speedruns)
    • modelos de vídeo (resolução de problemas de consistência e velocidade de inferência)
    • quantização (quantização de 1 bit, precisão abaixo de FP8 etc.)
    • pesquisa em interpretabilidade de modelos
    • avaliação e benchmarks (espera-se o aumento de avaliações baseadas em tarefas reais, como SWE-Bench)
  • Espera-se que 2025 traga ainda mais avanços

2 comentários

 
lonzino 2025-01-06

Obrigado.

 
zkdlfrlwl2 2025-01-06

Obrigado pela organização clara.