- Seleção de 50 artigos, modelos e blogs para engenheiros de IA, divididos em 10 áreas
- Inclui as áreas de LLMs, benchmarks, prompting, RAG, agentes, geração de código, visão, voz, difusão e fine-tuning
Seção 1: LLMs na fronteira
- Modelos da OpenAI
- Modelos da Anthropic e do Google
- Família LLaMA relacionada à Meta
- Modelos DeepSeek
- Apple Intelligence
- Apple Intelligence (artigo) - modelo incluído em todos os Macs e iPhones
- Outros modelos e pesquisas dignos de nota
- Modelos LLM
- Família AI2: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
- Outros: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Pesquisa sobre Scaling Laws
- Modelos de ponta:
- Pesquisa sobre modelos de raciocínio:
Seção 2: Benchmarks e avaliação
- MMLU
- MMLU (artigo): padrão dos benchmarks de conhecimento multidisciplinar
- A pesquisa de ponta em 2025 usa MMLU Pro (artigo), GPQA Diamond (artigo) e BIG-Bench Hard (artigo)
- GPQA (artigo): foco na geração de perguntas e na avaliação de respostas corretas
- BIG-Bench (artigo): benchmark em grande escala com problemas de vários tipos
- MuSR (artigo): avaliação em contextos longos
- MATH (artigo): coleção de problemas de olimpíadas de matemática
- A pesquisa de ponta se concentra em FrontierMath (artigo) e em problemas de alta dificuldade
- Subconjuntos: MATH Level 5, AIME, AMC10/AMC12
- IFEval (artigo): principal benchmark de avaliação de seguimento de instruções
- Adoção oficial pela Apple (link)
- Benchmark relacionado: MT-Bench (artigo)
- ARC AGI (página oficial): benchmark de raciocínio abstrato e de "teste de QI"
- Mantém relevância no longo prazo, ao contrário de outros benchmarks que saturam rapidamente
- Materiais adicionais de referência
Seção 3: Prompting, ICL e cadeia de pensamento
- GPT-3 e In-Context Learning (ICL)
- Artigo do GPT-3 (artigo): introduz o conceito de In-Context Learning (ICL)
- ICL está intimamente relacionado a prompting e permite que LLMs aprendam e apliquem conhecimento dentro do contexto
- Prompt Injection: manipulação de prompts e problemas de segurança (resumo de Lilian Weng, série de Simon Willison)
- The Prompt Report: survey de artigos sobre prompting
- Visão geral: resume a evolução geral das técnicas de prompting e as tendências mais recentes (podcast relacionado)
- Chain-of-Thought (CoT):
- Modelagem do processo de raciocínio passo a passo
- Pesquisas relacionadas:
- Tree of Thought:
- Introduz os conceitos de lookahead e backtracking
- Método eficaz para resolver problemas complexos (podcast relacionado)
- Prompt Tuning:
- Permite ajustar o desempenho do modelo sem prompts:
- Prefix-Tuning (artigo)
- Ajuste de decodificação baseado em entropia (GitHub)
- Representation Engineering (blog)
- Automatic Prompt Engineering:
- Método em que o próprio LLM gera e otimiza prompts
- Implementado no framework DSPy (artigo)
- Além de artigos acadêmicos, guias práticos também são úteis:
Seção 4: RAG (Retrieval-Augmented Generation)
- Introduction to Information Retrieval: referência clássica que aborda os fundamentos de recuperação de informação
- RAG é um problema de recuperação de informação (IR) e está intimamente relacionado a um campo com mais de 60 anos de história
- Principais técnicas:
- TF-IDF, BM25: busca baseada em texto
- FAISS, HNSW: busca vetorial e busca por vizinhança próxima
- Meta RAG (artigo de 2020) : primeira aparição do termo RAG
- MTEB: benchmark de avaliação de embeddings
- GraphRAG: integração de RAG e grafo de conhecimento da Microsoft
- GraphRAG:
- integra grafos de conhecimento ao fluxo de trabalho de RAG para oferecer resultados melhores com dados pessoais
- tornou-se open source (blog da Microsoft)
- Pesquisas relacionadas:
- RAGAS: método simples de avaliação de RAG recomendado pela OpenAI
- Materiais de estudo e prática de RAG
Seção 5: Agentes
- SWE-Bench:
- Benchmark representativo para avaliação de agentes (com foco em programação)
- Adotado por Anthropic, Devin, OpenAI e outros, recebendo grande atenção
- Materiais relacionados:
- Comparação: WebArena (GitHub), SWE-Gym (tweet relacionado)
- ReAct:
- Ponto de partida das pesquisas em LLM sobre uso de ferramentas e chamada de funções
- Pesquisas relacionadas:
- MemGPT:
- Abordagem de emulação de memória de longo prazo
- Principais usos:
- Sistemas relacionados:
- Voyager:
- Abordagem de arquitetura cognitiva da Nvidia:
- Melhoria de desempenho com currículo, biblioteca de habilidades e sandbox
- Expansão do conceito:
- Agent Workflow Memory (artigo)
- Anthropic Building Effective Agents:
- Resumo essencial sobre design de agentes em 2024
- Tópicos principais:
- chaining, roteamento, paralelização, orquestração, avaliação e otimização
- Materiais relacionados:
- Pesquisa sobre agentes de Lilian Weng (link)
- Pesquisa sobre agentes com LLM de Shunyu Yao (link)
- Visão geral de agentes para 2025 de Chip Huyen (link)
- Materiais extras de estudo e aulas
Seção 6: Geração de código (CodeGen)
- The Stack paper
- Começa como o par de dataset aberto focado em código do The Pile
- Trabalhos posteriores:
- Artigos sobre modelos abertos de código
- HumanEval/Codex
- Benchmark essencial no domínio de programação (atualmente saturado)
- Benchmarks alternativos mais modernos:
- SWE-Bench
- Famoso pela avaliação centrada em agentes, mas caro e mais focado em avaliar agentes do que modelos
- AlphaCodeium
- Baseado no desempenho de AlphaCode e AlphaCode2 do Google
- Usa Flow Engineering para melhorar drasticamente o desempenho de modelos existentes
- CriticGPT
- Foco na detecção de problemas de segurança que surgem na geração de código
- O CriticGPT da OpenAI foi treinado para identificar problemas de segurança
- A Anthropic usa SAEs (Safety-relevant Activation Ensembles) para analisar características de LLMs que causam problemas (pesquisa)
- A geração de código na indústria está mudando o foco da pesquisa para a prática:
- Uso de agentes de código como o Devin (vídeo)
- Conselhos práticos sobre geração de código (YouTube)
Seção 7: Visão
- Pesquisa em visão baseada em Non-LLM
- YOLO:
- Famoso como modelo de detecção de objetos em tempo real
- Atualmente evoluiu até a v11 (GitHub)
- Pesquisa recente: modelos transformer baseados em DETR mostraram desempenho superior ao YOLO
- Referência: preste atenção às várias versões do YOLO e à sua linhagem evolutiva (discussão relacionada)
- CLIP:
- Caso de sucesso de modelo multimodal baseado em ViT
- Modelos mais recentes:
- O CLIP continua sendo um conhecimento de base importante
- MMVP benchmark:
- Segment Anything Model (SAM):
- Early Fusion vs Late Fusion:
- Trabalhos mais recentes ainda não publicados:
- GPT4V System Card e pesquisas derivadas (artigo)
- OpenAI 4o:
- Modelos mais recentes:
- Claude 3.5 Sonnet/Haiku
- Gemini 2.0 Flash
- o1
- Outros modelos:
Seção 8: Voz
- Whisper:
- Modelo ASR bem-sucedido da OpenAI
- Principais versões:
- O Whisper oferece vários modelos com pesos abertos, mas algumas versões não têm artigo
- AudioPaLM:
- O AudioPaLM do Google é uma pesquisa anterior à transição do PaLM para o Gemini
- Referência: exploração de voz do Llama 3 da Meta (artigo)
- NaturalSpeech:
- Uma das principais pesquisas em TTS
- Atualizado recentemente para o v3 (artigo)
- Kyutai Moshi:
- Modelo open-weight de fala-texto full-duplex
- Demo de alta qualidade (YouTube)
- Modelo de referência: Hume OCTAVE (blog)
- OpenAI Realtime API: The Missing Manual:
- Documentação não oficial sobre a API de voz em tempo real da OpenAI
- Ferramenta importante para agentes atuais e trabalhos em tempo real
- Recomendação de várias soluções além dos grandes laboratórios:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Referência: State of Voice AI 2024
- Modelo de voz do NotebookLM:
- Gemini 2.0: modelo multimodal que integra voz e visão de forma natural
- A partir de 2025: a fusão entre as modalidades de voz e visão está evoluindo como um caminho claro
Seção 9: Difusão de imagem/vídeo
- Latent Diffusion:
- Artigo central do Stable Diffusion
- Versões expandidas:
- Atualmente, a equipe está desenvolvendo o BFL Flux
- Série OpenAI DALL-E:
- Série Google Imagen:
- Consistency Models:
- Trabalho de destilação de modelos de difusão
- Expansões:
- Sora:
- Ferramenta de conversão de texto para vídeo da OpenAI (sem artigo oficial)
- Referências:
- ComfyUI:
- Áreas especializadas:
- Competição de Open Weights:
- Entender as tendências mais recentes:
- Uso dos modelos Stable Diffusion e DALL-E
- Pesquisa sobre a fusão das modalidades de texto e vídeo
Seção 10: Fine-tuning de modelos
- LoRA/QLoRA:
- Padrão para fine-tuning de modelos de baixo custo
- Principais aplicações:
- DPO:
- ReFT:
- Em vez de ajustar algumas camadas existentes, foca nas features do modelo
- Abordagem eficiente de fine-tuning
- Orca 3/AgentInstruct:
- Método adequado para geração de dados sintéticos
- Pesquisa relacionada:
- Ajuste com RL:
- Notebooks do Unsloth:
- Há notebooks práticos disponíveis no GitHub
- Guia da HuggingFace:
Encerrando a lista de leitura de 2025 para engenheiros de IA
- Esta lista pode parecer vasta e intimidadora, mas tudo bem parar no meio. O importante é recomeçar
- Ela continuará sendo atualizada ao longo de 2025 para manter as informações em dia
- Você pode criar seu próprio método de estudo, mas vale a pena consultar como ler artigos em uma hora
- Dicas de leitura e estudo podem ser conferidas aqui
- Estude junto com a comunidade
- Grupos no Discord e Telegram:
- Compartilhamento de notas e destaques:
3 comentários
Vendo assim, ainda há realmente muito material que vale a pena examinar com bastante atenção.
Comentários do Hacker News
A maioria dos artigos se concentra mais na aquisição de conhecimento do que na compreensão profunda. Se você não estiver familiarizado com o tema, é melhor começar por livros-texto em vez de artigos. O mais recente do Bishop, "Deep Learning: Foundations and Concepts (2024)", e "AI Engineering (2024)", de Chip Huyen, são bons materiais. "Dive into Deep Learning" e os materiais da fast.ai também são recomendados
Não sei o que significa a profissão de "AI Engineer", mas questiono se ler artigos de pesquisa é realmente necessário. Se você não estiver lidando com o estado da arte em IA, ler artigos pode não fazer muito sentido. É mais importante entender as respostas de LLMs e construir apps amigáveis para o usuário. Ao usar as APIs da OpenAI ou da Groq, saber a diferença entre "multi head attention" e "single head attention" não é tão útil assim
Montar uma lista é uma tarefa difícil. Há muitos candidatos adequados além dos escolhidos, então isso deve ser visto como um currículo, e os artigos relevantes do momento devem ser entendidos como ponteiros móveis, não como referências fixas. Um clube de leitura de artigos aborda uma lista específica de leitura
A maior parte do ajuste fino por instruções dos modelos open source vem do Alpaca. O artigo sobre Alpaca e os artigos sobre geração de dados sintéticos também deveriam ser incluídos
Em vez de perder tempo lendo e tentando entender artigos sobre IA e LLM, é melhor ler sobre ELIZA e construí-la você mesmo. Você deve se concentrar em tensores, vetores, campos, linguística, arquitetura de computadores e redes
A lista de leitura é de cerca de um ano atrás. Em 2025, é preciso focar em técnicas como KTO, RLOO e DPO. Em 2025, o foco deve estar apenas em destilação e otimização. CoT não é novidade, e o essencial é o CoT modificado
É interessante como o termo "AI" foi quase completamente absorvido pelos avanços recentes em DL. Não há menção a Russell & Norvig, Minsky, Shannon, Lenat etc. Se você tiver interesse em uma introdução a temas mais amplos de IA, a maioria dos programas de pós-graduação usa o mesmo livro
Excelente levantamento. Combinado com o curso abaixo, dá para obter os melhores resultados
Excelente lista
O que significa construir o Eliza você mesmo?