45 pontos por GN⁺ 2025-01-14 | 3 comentários | Compartilhar no WhatsApp
  • Seleção de 50 artigos, modelos e blogs para engenheiros de IA, divididos em 10 áreas
  • Inclui as áreas de LLMs, benchmarks, prompting, RAG, agentes, geração de código, visão, voz, difusão e fine-tuning

Seção 1: LLMs na fronteira

Seção 2: Benchmarks e avaliação

  • MMLU
    • MMLU (artigo): padrão dos benchmarks de conhecimento multidisciplinar
      • A pesquisa de ponta em 2025 usa MMLU Pro (artigo), GPQA Diamond (artigo) e BIG-Bench Hard (artigo)
    • GPQA (artigo): foco na geração de perguntas e na avaliação de respostas corretas
    • BIG-Bench (artigo): benchmark em grande escala com problemas de vários tipos
  • MuSR (artigo): avaliação em contextos longos
  • MATH (artigo): coleção de problemas de olimpíadas de matemática
    • A pesquisa de ponta se concentra em FrontierMath (artigo) e em problemas de alta dificuldade
    • Subconjuntos: MATH Level 5, AIME, AMC10/AMC12
  • IFEval (artigo): principal benchmark de avaliação de seguimento de instruções
    • Adoção oficial pela Apple (link)
    • Benchmark relacionado: MT-Bench (artigo)
  • ARC AGI (página oficial): benchmark de raciocínio abstrato e de "teste de QI"
    • Mantém relevância no longo prazo, ao contrário de outros benchmarks que saturam rapidamente
  • Materiais adicionais de referência

Seção 3: Prompting, ICL e cadeia de pensamento

Seção 4: RAG (Retrieval-Augmented Generation)

  • Introduction to Information Retrieval: referência clássica que aborda os fundamentos de recuperação de informação
    • RAG é um problema de recuperação de informação (IR) e está intimamente relacionado a um campo com mais de 60 anos de história
    • Principais técnicas:
      • TF-IDF, BM25: busca baseada em texto
      • FAISS, HNSW: busca vetorial e busca por vizinhança próxima
  • Meta RAG (artigo de 2020) : primeira aparição do termo RAG
  • MTEB: benchmark de avaliação de embeddings
  • GraphRAG: integração de RAG e grafo de conhecimento da Microsoft
    • GraphRAG:
      • integra grafos de conhecimento ao fluxo de trabalho de RAG para oferecer resultados melhores com dados pessoais
      • tornou-se open source (blog da Microsoft)
    • Pesquisas relacionadas:
  • RAGAS: método simples de avaliação de RAG recomendado pela OpenAI
  • Materiais de estudo e prática de RAG

Seção 5: Agentes

  • SWE-Bench:
    • Benchmark representativo para avaliação de agentes (com foco em programação)
    • Adotado por Anthropic, Devin, OpenAI e outros, recebendo grande atenção
    • Materiais relacionados:
    • Comparação: WebArena (GitHub), SWE-Gym (tweet relacionado)
  • ReAct:
    • Ponto de partida das pesquisas em LLM sobre uso de ferramentas e chamada de funções
    • Pesquisas relacionadas:
  • MemGPT:
  • Voyager:
    • Abordagem de arquitetura cognitiva da Nvidia:
      • Melhoria de desempenho com currículo, biblioteca de habilidades e sandbox
    • Expansão do conceito:
      • Agent Workflow Memory (artigo)
  • Anthropic Building Effective Agents:
    • Resumo essencial sobre design de agentes em 2024
    • Tópicos principais:
      • chaining, roteamento, paralelização, orquestração, avaliação e otimização
    • Materiais relacionados:
      • Pesquisa sobre agentes de Lilian Weng (link)
      • Pesquisa sobre agentes com LLM de Shunyu Yao (link)
      • Visão geral de agentes para 2025 de Chip Huyen (link)
  • Materiais extras de estudo e aulas

Seção 6: Geração de código (CodeGen)

  • The Stack paper
    • Começa como o par de dataset aberto focado em código do The Pile
    • Trabalhos posteriores:
  • Artigos sobre modelos abertos de código
  • HumanEval/Codex
  • AlphaCodeium
    • Baseado no desempenho de AlphaCode e AlphaCode2 do Google
    • Usa Flow Engineering para melhorar drasticamente o desempenho de modelos existentes
  • CriticGPT
    • Foco na detecção de problemas de segurança que surgem na geração de código
      • O CriticGPT da OpenAI foi treinado para identificar problemas de segurança
      • A Anthropic usa SAEs (Safety-relevant Activation Ensembles) para analisar características de LLMs que causam problemas (pesquisa)
  • A geração de código na indústria está mudando o foco da pesquisa para a prática:
    • Uso de agentes de código como o Devin (vídeo)
    • Conselhos práticos sobre geração de código (YouTube)

Seção 7: Visão

Seção 8: Voz

  • Whisper:
  • AudioPaLM:
    • O AudioPaLM do Google é uma pesquisa anterior à transição do PaLM para o Gemini
    • Referência: exploração de voz do Llama 3 da Meta (artigo)
  • NaturalSpeech:
    • Uma das principais pesquisas em TTS
    • Atualizado recentemente para o v3 (artigo)
  • Kyutai Moshi:
    • Modelo open-weight de fala-texto full-duplex
    • Demo de alta qualidade (YouTube)
    • Modelo de referência: Hume OCTAVE (blog)
  • OpenAI Realtime API: The Missing Manual:
    • Documentação não oficial sobre a API de voz em tempo real da OpenAI
    • Ferramenta importante para agentes atuais e trabalhos em tempo real
  • Recomendação de várias soluções além dos grandes laboratórios:
  • Gemini 2.0: modelo multimodal que integra voz e visão de forma natural
    • A partir de 2025: a fusão entre as modalidades de voz e visão está evoluindo como um caminho claro

Seção 9: Difusão de imagem/vídeo

Seção 10: Fine-tuning de modelos

Encerrando a lista de leitura de 2025 para engenheiros de IA

3 comentários

 
kipsong133 2025-01-16

Vendo assim, ainda há realmente muito material que vale a pena examinar com bastante atenção.

 
GN⁺ 2025-01-14
Comentários do Hacker News
  • A maioria dos artigos se concentra mais na aquisição de conhecimento do que na compreensão profunda. Se você não estiver familiarizado com o tema, é melhor começar por livros-texto em vez de artigos. O mais recente do Bishop, "Deep Learning: Foundations and Concepts (2024)", e "AI Engineering (2024)", de Chip Huyen, são bons materiais. "Dive into Deep Learning" e os materiais da fast.ai também são recomendados

  • Não sei o que significa a profissão de "AI Engineer", mas questiono se ler artigos de pesquisa é realmente necessário. Se você não estiver lidando com o estado da arte em IA, ler artigos pode não fazer muito sentido. É mais importante entender as respostas de LLMs e construir apps amigáveis para o usuário. Ao usar as APIs da OpenAI ou da Groq, saber a diferença entre "multi head attention" e "single head attention" não é tão útil assim

  • Montar uma lista é uma tarefa difícil. Há muitos candidatos adequados além dos escolhidos, então isso deve ser visto como um currículo, e os artigos relevantes do momento devem ser entendidos como ponteiros móveis, não como referências fixas. Um clube de leitura de artigos aborda uma lista específica de leitura

  • A maior parte do ajuste fino por instruções dos modelos open source vem do Alpaca. O artigo sobre Alpaca e os artigos sobre geração de dados sintéticos também deveriam ser incluídos

  • Em vez de perder tempo lendo e tentando entender artigos sobre IA e LLM, é melhor ler sobre ELIZA e construí-la você mesmo. Você deve se concentrar em tensores, vetores, campos, linguística, arquitetura de computadores e redes

  • A lista de leitura é de cerca de um ano atrás. Em 2025, é preciso focar em técnicas como KTO, RLOO e DPO. Em 2025, o foco deve estar apenas em destilação e otimização. CoT não é novidade, e o essencial é o CoT modificado

  • É interessante como o termo "AI" foi quase completamente absorvido pelos avanços recentes em DL. Não há menção a Russell & Norvig, Minsky, Shannon, Lenat etc. Se você tiver interesse em uma introdução a temas mais amplos de IA, a maioria dos programas de pós-graduação usa o mesmo livro

  • Excelente levantamento. Combinado com o curso abaixo, dá para obter os melhores resultados

  • Excelente lista

 
francomoon7 2025-01-16

O que significa construir o Eliza você mesmo?