Lista de leitura de IA para engenheiros em 2025

(latent.space)

45 pontos por GN⁺ 2025-01-14 | 3 comentários | Compartilhar no WhatsApp

Seleção de 50 artigos, modelos e blogs para engenheiros de IA, divididos em 10 áreas
Inclui as áreas de LLMs, benchmarks, prompting, RAG, agentes, geração de código, visão, voz, difusão e fine-tuning

Seção 1: LLMs na fronteira

Modelos da OpenAI
- GPT1 (artigo), GPT2 (artigo), GPT3 (artigo), Codex (artigo), InstructGPT (artigo), GPT4 (artigo)
- GPT3.5 (introdução ao ChatGPT), 4o (introdução ao GPT-4o), o1 (preview do o1), o3 (system card)
Modelos da Anthropic e do Google
- Claude 3 (artigo), Gemini 1 (artigo)
- Claude 3.5 Sonnet (detalhes), Gemini 2.0 Flash (blog oficial), Flash Thinking (documentação da API Gemini), Gemma 2 (artigo)
Família LLaMA relacionada à Meta
- LLaMA 1 (artigo), LLaMA 2 (artigo), LLaMA 3 (artigo)
- Modelos expandidos: Mistral 7B (artigo), Mixtral (artigo), Pixtral (artigo)
Modelos DeepSeek
- DeepSeek V1 (artigo), Coder (artigo), MoE (artigo), V2 (artigo), V3 (GitHub)
Apple Intelligence
- Apple Intelligence (artigo) - modelo incluído em todos os Macs e iPhones
Outros modelos e pesquisas dignos de nota
- Modelos LLM
  - Família AI2: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
  - Outros: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Pesquisa sobre Scaling Laws
  - Scaling Laws: Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- Modelos de ponta:
  - o1, o3, R1, QwQ, QVQ, f1
- Pesquisa sobre modelos de raciocínio:
  - Let’s Verify Step By Step, STaR, palestra de Noam Brown

Seção 2: Benchmarks e avaliação

MMLU
- MMLU (artigo): padrão dos benchmarks de conhecimento multidisciplinar
  - A pesquisa de ponta em 2025 usa MMLU Pro (artigo), GPQA Diamond (artigo) e BIG-Bench Hard (artigo)
- GPQA (artigo): foco na geração de perguntas e na avaliação de respostas corretas
- BIG-Bench (artigo): benchmark em grande escala com problemas de vários tipos
MuSR (artigo): avaliação em contextos longos
- Pesquisas relacionadas: LongBench (artigo), BABILong (artigo), RULER (introdução)
- Resolução de problemas: Lost in the Middle (artigo), Needle in a Haystack (GitHub)
MATH (artigo): coleção de problemas de olimpíadas de matemática
- A pesquisa de ponta se concentra em FrontierMath (artigo) e em problemas de alta dificuldade
- Subconjuntos: MATH Level 5, AIME, AMC10/AMC12
IFEval (artigo): principal benchmark de avaliação de seguimento de instruções
- Adoção oficial pela Apple (link)
- Benchmark relacionado: MT-Bench (artigo)
ARC AGI (página oficial): benchmark de raciocínio abstrato e de "teste de QI"
- Mantém relevância no longo prazo, ao contrário de outros benchmarks que saturam rapidamente
Materiais adicionais de referência
- Latent Space: Benchmarks 101, Benchmarks 201
- Carlini, LMArena, Braintrust: análises aprofundadas sobre benchmarks
- Materiais relacionados a LLM: LLM-as-Judge, Applied LLMs
- Recursos de datasets: Datasets

Seção 3: Prompting, ICL e cadeia de pensamento

GPT-3 e In-Context Learning (ICL)
- Artigo do GPT-3 (artigo): introduz o conceito de In-Context Learning (ICL)
- ICL está intimamente relacionado a prompting e permite que LLMs aprendam e apliquem conhecimento dentro do contexto
- Prompt Injection: manipulação de prompts e problemas de segurança (resumo de Lilian Weng, série de Simon Willison)
The Prompt Report: survey de artigos sobre prompting
- Visão geral: resume a evolução geral das técnicas de prompting e as tendências mais recentes (podcast relacionado)
Chain-of-Thought (CoT):
- Modelagem do processo de raciocínio passo a passo
- Pesquisas relacionadas:
  - Scratchpads (artigo)
  - Let’s Think Step By Step (artigo)
Tree of Thought:
- Introduz os conceitos de lookahead e backtracking
- Método eficaz para resolver problemas complexos (podcast relacionado)
Prompt Tuning:
- Permite ajustar o desempenho do modelo sem prompts:
  - Prefix-Tuning (artigo)
  - Ajuste de decodificação baseado em entropia (GitHub)
  - Representation Engineering (blog)
Automatic Prompt Engineering:
- Método em que o próprio LLM gera e otimiza prompts
- Implementado no framework DSPy (artigo)
Além de artigos acadêmicos, guias práticos também são úteis:
- Blog sobre Prompt Engineering de Lilian Weng
- Guia de Prompting de Eugene Yan
- Tutoriais e workshops da Anthropic:
  - Interactive Prompt Engineering Tutorial
  - AI Engineer Workshop

Seção 4: RAG (Retrieval-Augmented Generation)

Introduction to Information Retrieval: referência clássica que aborda os fundamentos de recuperação de informação
- RAG é um problema de recuperação de informação (IR) e está intimamente relacionado a um campo com mais de 60 anos de história
- Principais técnicas:
  - TF-IDF, BM25: busca baseada em texto
  - FAISS, HNSW: busca vetorial e busca por vizinhança próxima
Meta RAG (artigo de 2020) : primeira aparição do termo RAG
- HyDE (documentação)
- Chunking (pesquisa)
- Rerankers (blog da Cohere)
- Processamento de dados multimodais (YouTube)
MTEB: benchmark de avaliação de embeddings
- Controvérsias e limitações (discussão relacionada)
- Exemplos de modelos de embedding:
  - SentenceTransformers
  - OpenAI, Nomic Embed, ModernBERT Embed
  - Matryoshka Embeddings (blog do HuggingFace)
GraphRAG: integração de RAG e grafo de conhecimento da Microsoft
- GraphRAG:
  - integra grafos de conhecimento ao fluxo de trabalho de RAG para oferecer resultados melhores com dados pessoais
  - tornou-se open source (blog da Microsoft)
- Pesquisas relacionadas:
  - ColBERT, ColPali, ColQwen
RAGAS: método simples de avaliação de RAG recomendado pela OpenAI
- Nvidia FACTS Framework (artigo)
- Extrinsic Hallucinations in LLMs (análise de Lilian Weng)
- Recall vs Precision de Jason Wei (tweet)
Materiais de estudo e prática de RAG
- LlamaIndex (documentação, curso)
- LangChain (documentação, vídeo tutorial)
- RAG vs Long Context Debate:
  - artigo: comparação entre RAG e abordagens de contexto longo

Seção 5: Agentes

SWE-Bench:
- Benchmark representativo para avaliação de agentes (com foco em programação)
- Adotado por Anthropic, Devin, OpenAI e outros, recebendo grande atenção
- Materiais relacionados:
  - SWE-Agent (artigo)
  - SWE-Bench Multimodal (artigo)
  - Konwinski Prize (site)
- Comparação: WebArena (GitHub), SWE-Gym (tweet relacionado)
ReAct:
- Ponto de partida das pesquisas em LLM sobre uso de ferramentas e chamada de funções
- Pesquisas relacionadas:
  - Gorilla (leaderboard)
  - Toolformer (artigo)
  - HuggingGPT (artigo)
MemGPT:
- Abordagem de emulação de memória de longo prazo
- Principais usos:
  - Memória e controles do ChatGPT
  - Memória episódica do LangGraph
- Sistemas relacionados:
  - MetaGPT (artigo)
  - AutoGen (artigo)
  - Smallville (GitHub)
Voyager:
- Abordagem de arquitetura cognitiva da Nvidia:
  - Melhoria de desempenho com currículo, biblioteca de habilidades e sandbox
- Expansão do conceito:
  - Agent Workflow Memory (artigo)
Anthropic Building Effective Agents:
- Resumo essencial sobre design de agentes em 2024
- Tópicos principais:
  - chaining, roteamento, paralelização, orquestração, avaliação e otimização
- Materiais relacionados:
  - Pesquisa sobre agentes de Lilian Weng (link)
  - Pesquisa sobre agentes com LLM de Shunyu Yao (link)
  - Visão geral de agentes para 2025 de Chip Huyen (link)
Materiais extras de estudo e aulas
- Design de agentes mais recente de 2024: resumo da NeurIPS
- MOOC da UC Berkeley: curso sobre LLM Agents
- Discussão sobre a definição de agente: consulte esta definição se necessário

Seção 6: Geração de código (CodeGen)

The Stack paper
- Começa como o par de dataset aberto focado em código do The Pile
- Trabalhos posteriores:
  - The Stack v2: dataset aprimorado
  - StarCoder: modelo otimizado para geração de código
Artigos sobre modelos abertos de código
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- Muitos consideram Claude 3.5 Sonnet o melhor modelo de código, mas não há artigo oficial
HumanEval/Codex
- Benchmark essencial no domínio de programação (atualmente saturado)
- Benchmarks alternativos mais modernos:
  - Aider
  - Codeforces
  - BigCodeBench
  - LiveCodeBench
  - SciCode
- SWE-Bench
  - Famoso pela avaliação centrada em agentes, mas caro e mais focado em avaliar agentes do que modelos
AlphaCodeium
- Baseado no desempenho de AlphaCode e AlphaCode2 do Google
- Usa Flow Engineering para melhorar drasticamente o desempenho de modelos existentes
CriticGPT
- Foco na detecção de problemas de segurança que surgem na geração de código
  - O CriticGPT da OpenAI foi treinado para identificar problemas de segurança
  - A Anthropic usa SAEs (Safety-relevant Activation Ensembles) para analisar características de LLMs que causam problemas (pesquisa)
A geração de código na indústria está mudando o foco da pesquisa para a prática:
- Uso de agentes de código como o Devin (vídeo)
- Conselhos práticos sobre geração de código (YouTube)

Seção 7: Visão

Pesquisa em visão baseada em Non-LLM
- YOLO:
  - Famoso como modelo de detecção de objetos em tempo real
  - Atualmente evoluiu até a v11 (GitHub)
  - Pesquisa recente: modelos transformer baseados em DETR mostraram desempenho superior ao YOLO
- Referência: preste atenção às várias versões do YOLO e à sua linhagem evolutiva (discussão relacionada)
CLIP:
- Caso de sucesso de modelo multimodal baseado em ViT
- Modelos mais recentes:
  - BLIP, BLIP2
  - SigLIP/PaliGemma
- O CLIP continua sendo um conhecimento de base importante
MMVP benchmark:
- Avalia as limitações do CLIP
- Versões multimodais: MMMU, SWE-Bench Multimodal
Segment Anything Model (SAM):
- Modelo representativo para segmentação de imagens e vídeos
- Pesquisa subsequente: SAM 2 (podcast relacionado)
- Modelo complementar: GroundingDINO
Early Fusion vs Late Fusion:
- Late Fusion: LLaVA (podcast)
- Early Fusion:
  - Flamingo da Meta
  - Chameleon
  - AIMv2 da Apple
  - Core da Reka
- Material de referência: fluxo de pesquisa em visão multimodal
Trabalhos mais recentes ainda não publicados:
- GPT4V System Card e pesquisas derivadas (artigo)
- OpenAI 4o:
  - ajuste fino de visão do 4o
- Modelos mais recentes:
  - Claude 3.5 Sonnet/Haiku
  - Gemini 2.0 Flash
  - o1
  - Outros modelos:
    - Pixtral
    - Llama 3.2
    - Moondream
    - QVQ

Seção 8: Voz

Whisper:
- Modelo ASR bem-sucedido da OpenAI
- Principais versões:
  - Whisper v2 (discussão relacionada)
  - Whisper v3 (discussão relacionada)
  - Distil-Whisper (GitHub)
  - Whisper v3 Turbo (análise)
- O Whisper oferece vários modelos com pesos abertos, mas algumas versões não têm artigo
AudioPaLM:
- O AudioPaLM do Google é uma pesquisa anterior à transição do PaLM para o Gemini
- Referência: exploração de voz do Llama 3 da Meta (artigo)
NaturalSpeech:
- Uma das principais pesquisas em TTS
- Atualizado recentemente para o v3 (artigo)
Kyutai Moshi:
- Modelo open-weight de fala-texto full-duplex
- Demo de alta qualidade (YouTube)
- Modelo de referência: Hume OCTAVE (blog)
OpenAI Realtime API: The Missing Manual:
- Documentação não oficial sobre a API de voz em tempo real da OpenAI
- Ferramenta importante para agentes atuais e trabalhos em tempo real
Recomendação de várias soluções além dos grandes laboratórios:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Referência: State of Voice AI 2024
- Modelo de voz do NotebookLM:
  - O modelo não foi publicado, mas há uma explicação aprofundada do processo de modelagem
Gemini 2.0: modelo multimodal que integra voz e visão de forma natural
- A partir de 2025: a fusão entre as modalidades de voz e visão está evoluindo como um caminho claro

Seção 9: Difusão de imagem/vídeo

Latent Diffusion:
- Artigo central do Stable Diffusion
- Versões expandidas:
  - SD2 (anúncio oficial)
  - SDXL e SD3
- Atualmente, a equipe está desenvolvendo o BFL Flux
Série OpenAI DALL-E:
- DALL-E, DALL-E-2, DALL-E-3
Série Google Imagen:
- Imagen, Imagen 2, Imagen 3
- Referência: Ideogram
Consistency Models:
- Trabalho de destilação de modelos de difusão
- Expansões:
  - LCMs
  - Atualização mais recente: sCMs
Sora:
- Ferramenta de conversão de texto para vídeo da OpenAI (sem artigo oficial)
- Referências:
  - artigo do DiT (mesmos autores)
  - OpenSora: modelo concorrente baseado em pesos abertos
  - resumo de Lilian Weng
ComfyUI:
- Tem ganhado destaque como interface de usuário para modelos de visão (entrevista relacionada)
Áreas especializadas:
- Text Diffusion: modelos de difusão para texto
- Music Diffusion: difusão para geração musical
- Autoregressive Image Generation: geração autoregressiva de imagens
Competição de Open Weights:
- Text-to-Video Arena
Entender as tendências mais recentes:
- Uso dos modelos Stable Diffusion e DALL-E
- Pesquisa sobre a fusão das modalidades de texto e vídeo

Seção 10: Fine-tuning de modelos

LoRA/QLoRA:
- Padrão para fine-tuning de modelos de baixo custo
- Principais aplicações:
  - Também compatível com modelos locais e com o 4o da OpenAI (ouça o podcast)
  - FSDP+QLoRA: material educacional
DPO:
- Compatível com o Preference Finetuning da OpenAI
- Popular como alternativa ao PPO (artigo), mas com desempenho um pouco inferior
ReFT:
- Em vez de ajustar algumas camadas existentes, foca nas features do modelo
- Abordagem eficiente de fine-tuning
Orca 3/AgentInstruct:
- Método adequado para geração de dados sintéticos
- Pesquisa relacionada:
  - Synthetic Data Picks da NeurIPS
Ajuste com RL:
- O RL Finetuning for o1 da OpenAI é controverso, mas um material importante
- Pesquisas relacionadas:
  - Let’s Verify Step By Step
  - palestra de Noam Brown
Notebooks do Unsloth:
- Há notebooks práticos disponíveis no GitHub
Guia da HuggingFace:
- How to fine-tune open LLMs: guia aprofundado de todo o processo de fine-tuning

Encerrando a lista de leitura de 2025 para engenheiros de IA

Esta lista pode parecer vasta e intimidadora, mas tudo bem parar no meio. O importante é recomeçar
Ela continuará sendo atualizada ao longo de 2025 para manter as informações em dia
Você pode criar seu próprio método de estudo, mas vale a pena consultar como ler artigos em uma hora
Dicas de leitura e estudo podem ser conferidas aqui
Estude junto com a comunidade
- Grupos no Discord e Telegram:
  - Grupo no Discord do Krispin: https://app.discuna.com/invite/ai_engineer
  - Grupo no Telegram do Fed of Flow AI, ativo em NYC: AI NYC no Telegram
  - Participe da comunidade no Discord do Latent Space: link de convite do Discord
- Compartilhamento de notas e destaques:
  - Blog iniciado pelo leitor Niels: notas sobre a 2025 AI Engineer Reading List

3 comentários

kipsong133 2025-01-16

Vendo assim, ainda há realmente muito material que vale a pena examinar com bastante atenção.

GN⁺ 2025-01-14

Comentários do Hacker News

A maioria dos artigos se concentra mais na aquisição de conhecimento do que na compreensão profunda. Se você não estiver familiarizado com o tema, é melhor começar por livros-texto em vez de artigos. O mais recente do Bishop, "Deep Learning: Foundations and Concepts (2024)", e "AI Engineering (2024)", de Chip Huyen, são bons materiais. "Dive into Deep Learning" e os materiais da fast.ai também são recomendados
Não sei o que significa a profissão de "AI Engineer", mas questiono se ler artigos de pesquisa é realmente necessário. Se você não estiver lidando com o estado da arte em IA, ler artigos pode não fazer muito sentido. É mais importante entender as respostas de LLMs e construir apps amigáveis para o usuário. Ao usar as APIs da OpenAI ou da Groq, saber a diferença entre "multi head attention" e "single head attention" não é tão útil assim
Montar uma lista é uma tarefa difícil. Há muitos candidatos adequados além dos escolhidos, então isso deve ser visto como um currículo, e os artigos relevantes do momento devem ser entendidos como ponteiros móveis, não como referências fixas. Um clube de leitura de artigos aborda uma lista específica de leitura
A maior parte do ajuste fino por instruções dos modelos open source vem do Alpaca. O artigo sobre Alpaca e os artigos sobre geração de dados sintéticos também deveriam ser incluídos
Em vez de perder tempo lendo e tentando entender artigos sobre IA e LLM, é melhor ler sobre ELIZA e construí-la você mesmo. Você deve se concentrar em tensores, vetores, campos, linguística, arquitetura de computadores e redes
A lista de leitura é de cerca de um ano atrás. Em 2025, é preciso focar em técnicas como KTO, RLOO e DPO. Em 2025, o foco deve estar apenas em destilação e otimização. CoT não é novidade, e o essencial é o CoT modificado
É interessante como o termo "AI" foi quase completamente absorvido pelos avanços recentes em DL. Não há menção a Russell & Norvig, Minsky, Shannon, Lenat etc. Se você tiver interesse em uma introdução a temas mais amplos de IA, a maioria dos programas de pós-graduação usa o mesmo livro
Excelente levantamento. Combinado com o curso abaixo, dá para obter os melhores resultados
Excelente lista

francomoon7 2025-01-16

O que significa construir o Eliza você mesmo?