22 pontos por GN⁺ 2025-03-20 | 1 comentários | Compartilhar no WhatsApp
  • Sistemas de recomendação e busca historicamente evoluíram inspirados em modelos de linguagem
    • Word2vec → aprendizado de embeddings de itens (busca baseada em embeddings)
    • GRU, Transformer, BERT → previsão do próximo item recomendado (ranking)
  • Atualmente, o paradigma dos grandes modelos de linguagem (LLMs) também está evoluindo na mesma direção
  • Principais avanços
    • 1. Arquiteturas de modelos aprimoradas com LLM/multimodal

    • 2. Geração e análise de dados baseadas em LLM

    • 3. Scaling Laws, aprendizado por transferência, destilação de conhecimento, LoRA

    • 4. Arquitetura unificada de busca e recomendação

Arquiteturas de modelos aprimoradas com LLM/multimodal

  • Modelos de recomendação estão adotando modelos de linguagem (LLMs) e conteúdo multimodal para superar as limitações das abordagens tradicionais baseadas em ID
  • Combinação dos pontos fortes da modelagem de comportamento com a compreensão de conteúdo → resolução dos problemas de cold start e long tail
  • 1. Semantic IDs (YouTube)

    • Uso de Semantic ID derivados do conteúdo em vez de IDs tradicionais baseados em hash
    • Introdução de um framework em duas etapas:
      1. Encoder de vídeo baseado em Transformer → gera embeddings densos de conteúdo
      2. RQ-VAE (Residual Quantization Variational AutoEncoder) → converte os embeddings em Semantic IDs no formato inteiro
    • Estrutura do RQ-VAE:
      • Espaço latente de 256 dimensões, 8 níveis de quantização, 2048 entradas de codebook por nível
      • Geração de embeddings de 2048 dimensões a partir de um backbone VideoBERT baseado em Transformer
    • Resultados:
      • Embeddings densos diretos tiveram desempenho inferior ao de IDs hash aleatórios
      • Abordagens baseadas em N-gram e SPM (SentencePiece Model) ofereceram desempenho superior, especialmente em cenários de cold start
  • 2. M3CSR (Kuaishou)

    • Embeddings de conteúdo multimodal (visual, texto, áudio) → clusterização com K-means e conversão em IDs aprendíveis
    • Estrutura de duas torres:
      • Torre do lado do usuário: modelagem do comportamento do usuário
      • Torre do lado do item: pré-cálculo e indexação de embeddings dos itens
    • Processo de treinamento:
      • Fusão de embeddings ResNet (visual), Sentence-BERT (texto) e VGGish (áudio) → clusterização com K-means (~1000 clusters)
      • Mapeamento dos IDs de cluster para embeddings aprendíveis
    • Resultados:
      • Em testes A/B, melhorias de +3,4% em cliques, +3,0% em curtidas e +3,1% em follows
      • Em cenários de cold start, melhorias de +1,2% em velocidade e +3,6% em cobertura
  • 3. FLIP (Huawei)

    • Alinhamento entre modelo de recomendação baseado em ID e LLM
    • Aprendizado simultâneo em texto mascarado e dados tabulares → realização de alinhamento multimodal
    • Etapas de treinamento:
      • 1. Conversão modal: transformar dados tabulares em texto
      • 2. Pré-treinamento de alinhamento modal: reconstrução de texto mascarado e de IDs
      • 3. Ajuste fino adaptativo: otimização dos pesos de ambos os modelos para previsão de clique
    • Resultados:
      • Desempenho superior aos modelos baseados em ID, em LLM e em ID + LLM
      • O nível de masking e o alinhamento multimodal tiveram papel importante na melhora de desempenho
  • 4. beeFormer

    • Treinamento de modelo Transformer com base em informações textuais e dados de interação usuário-item
    • Uso de decodificador baseado em ELSA (Scalable Linear Shallow Autoencoder) → reforço no aprendizado de padrões de interação
    • Processo de treinamento:
      • Geração de embeddings com Transformer → aprendizado de padrões de comportamento do usuário por meio do ELSA
      • Uso de gradient checkpointing, expansão do tamanho do batch e negative sampling para otimizar o treinamento em catálogos de grande escala
    • Resultados:
      • Desempenho superior ao de modelos existentes como mpnet-base-v2 e bge-m3
      • Melhorias observadas em aprendizado por transferência entre domínios
  • 5. CALRec (Google)

    • Modelagem das interações usuário-item com prompts baseados em texto
    • Ajuste fino em duas etapas de um modelo baseado em PaLM-2 XXS
    • Etapas de treinamento:
      • 1. Aprendizado multiclasse/categoria: aprendizado de padrões gerais de recomendação
      • 2. Aprendizado de categoria específica: aprendizado de padrões especializados por categoria de item
    • Resultados:
      • Desempenho superior aos modelos baseados em ID e em texto no Amazon Review Dataset
      • O aprendizado multiclasse/categoria e o aprendizado contrastivo contribuíram para a melhora de desempenho
  • 6. EmbSum (Meta)

    • Geração de resumo de interesses do usuário e resumo de itens candidatos
    • Uso dos modelos T5-small e Mixtral-8x22B-Instruct
    • Componentes:
      • User Poly-Embeddings (UPE) → embeddings dos interesses do usuário
      • Content Poly-Embeddings (CPE) → embeddings dos itens
      • Geração de resumos → injeção no encoder → geração da recomendação final
    • Resultados:
      • Desempenho superior ao de modelos de recomendação baseados em conteúdo
      • Agrupamento por sessão e perda de resumo tiveram papel importante no desempenho

Geração e análise de dados baseadas em LLM

  • LLMs são usados para resolver o problema de escassez de dados e reforçar a qualidade dos dados em sistemas de recomendação e busca
  • Principais casos de aplicação:
    • Bing → geração de metadados de páginas web e reforço do desempenho de previsão de cliques
    • Indeed → filtragem de matches de vagas de baixa qualidade
    • Yelp → compreensão de consultas de busca e melhoria de highlights de reviews
    • Spotify → geração de consultas de busca exploratória
    • Amazon → enriquecimento de metadados de playlists e melhoria do desempenho de busca
  • 1. Recommendation Quality Improvement (Bing)

    • Uso do GPT-4 para gerar títulos e resumos de alta qualidade a partir de páginas web
    • Ajuste fino do modelo Mistral-7B com metadados gerados a partir de cerca de 2 milhões de páginas web
    • Treinamento de um cross-encoder baseado em MiniLM para combinar previsão de cliques e score de qualidade
    • Resultados:
      • Redução de 31% em conteúdo clickbait e de 76% em conteúdo duplicado
      • Aumento de 18% em conteúdo autoritativo e de 48% em recomendações cross-media
  • 2. Expected Bad Match (Indeed)

    • Construção do modelo de filtragem de matches de vagas de baixa qualidade (eBadMatch) com ajuste fino do GPT-3.5 em dados de revisão humana
    • Melhoria de custo e velocidade mantendo desempenho no nível do GPT-4
    • O modelo final de filtragem reduziu em 17,68% o número de e-mails de convite para matches, diminuiu a taxa de cancelamento de assinatura em 4,97% e aumentou a taxa de candidatura em 4,13%
    • Resultados:
      • Desempenho AUC-ROC do modelo de filtragem: 0.86
  • 3. Query Understanding (Yelp)

    • Uso de LLM para melhorar a segmentação de consultas de busca e os highlights de reviews
    • Segmentação de consultas:
      • Separação de tópico, nome, tempo, lugar etc. para adicionar tags semânticas
      • Aplicação de técnicas de RAG (Retrieval-Augmented Generation) para reforçar a compreensão contextual das consultas
    • Highlights de reviews:
      • Uso de LLM para gerar highlights → escalonamento em larga escala com chamadas em batch da OpenAI
    • Resultados:
      • Melhora nas sessões de busca e na taxa de cliques
      • Melhora de desempenho também em consultas long tail
  • 4. Query Recommendations (Spotify)

    • Introdução, no Spotify, de recomendações de consultas de busca exploratória além dos resultados de busca diretos
    • Métodos de geração de consultas:
      • Extração de títulos de catálogo, playlists e podcasts
      • Reflexo das buscas recentes dos usuários a partir dos logs de busca
      • Aplicação de técnicas de geração de frases com LLM (Doc2query, InPars etc.)
    • Ranking das recomendações de consulta com embeddings vetoriais personalizados
    • Resultados:
      • Aumento de +9% na proporção de consultas exploratórias
      • Aumento de +30% no comprimento máximo da consulta e de +10% no comprimento médio
  • 5. Playlist Search (Amazon)

    • Uso de LLM para gerar e enriquecer metadados de playlists comunitárias
    • Ajuste fino do modelo Flan-T5-XL para reforçar a eficiência da geração de dados
    • Treinamento de um modelo de encoder bidirecional usando consultas geradas por LLM e dados de matching entre consultas e playlists
    • Resultados:
      • Melhora de dois dígitos no recall dos resultados de busca
      • Melhoras em SEO e em desempenho de paráfrase

Scaling Laws, aprendizado por transferência, destilação de conhecimento, LoRA

  • Scaling Laws

    • Pesquisa que analisa o impacto do tamanho do modelo e da quantidade de dados no desempenho
    • Uso de arquitetura Transformer decoder-only (faixa de 98.3K a 0.8B parâmetros)
    • Avaliação nos datasets MovieLens-20M e Amazon-2018
    • Previsão do próximo item usando sequências de 50 itens com comprimento fixo
    • Principais técnicas:
      • Dropout adaptativo por camada → dropout alto nas camadas inferiores e baixo nas superiores
      • Troca de Adam para SGD → uso de Adam no início do treinamento e depois mudança para SGD para melhorar a convergência
    • Resultados:
      • Quanto maior o modelo, menor a perda de entropia cruzada
      • Modelos pequenos precisam de mais dados, mas modelos grandes alcançam ótimo desempenho mesmo com menos dados
      • Modelos de 75.5M e 98.3K tiveram melhora de desempenho entre 2 e 5 épocas
  • PrepRec

    • Aplicação de pré-treinamento em sistemas de recomendação → possibilita aprendizado por transferência entre domínios
    • Treinamento possível apenas com a mudança dinâmica da popularidade dos itens, sem metadados dos itens
    • Uso de intervalos de tempo relativos entre interações de usuários e positional encoding
    • Resultados:
      • Em recomendação zero-shot, o recall@10 caiu de 2% a 6%, mas o desempenho após treinamento foi semelhante
      • Após treinamento no domínio-alvo, desempenho no mesmo nível dos modelos SasREC e BERT4Rec
  • E-CDCTR (Meituan)

    • Aplicação de aprendizado por transferência em modelo de previsão de clique em anúncios
    • Uso de estrutura de treinamento em 3 etapas: TPM → CPM → A-CTR
      • TPM → aprendizado de embeddings de usuários e itens
      • CPM → pré-treinamento com dados orgânicos recentes
      • A-CTR → ajuste fino com dados de anúncios
    • Resultados:
      • CPM teve o maior impacto no desempenho → possibilita aprender sinais de filtragem colaborativa de longo prazo
      • Uso de embeddings dos últimos 3 meses melhorou o desempenho
  • Bridging the Gap (YouTube)

    • Recomendação personalizada de vídeos em larga escala por meio de destilação de conhecimento
    • Uso de estrutura professor-aluno (o modelo professor é 2 a 4 vezes maior que o aluno)
    • Uso de estratégia de destilação auxiliar em vez de previsão direta → resolve problema de distribution shift
    • Resultados:
      • Aplicação da estratégia de destilação auxiliar melhorou o desempenho em 0,4%
      • Quando o modelo professor era 2x maior, melhora de +0,42%; quando 4x maior, +0,43%
  • Self-Auxiliary Distillation (Google)

    • Melhoria da eficiência amostral em modelos de recomendação de grande escala
    • Estrutura de branch bidirecional → aprendizado misto com rótulos do professor e rótulos originais
    • Tratamento de rótulos negativos não como 0, mas como valor estimado de CTR
    • Resultados:
      • Melhora consistente de desempenho em vários domínios
      • Reforço da estabilidade do treinamento e da precisão da saída do modelo
  • DLLM2Rec

    • Destilação do conhecimento de recomendação de grandes modelos de linguagem para modelos leves
    • Uso de destilação de ranking baseada em importância e destilação de embeddings colaborativos
      • Destilação de ranking baseada em importância → aplicação de pesos à ordem e à consistência dos itens
      • Destilação de embeddings colaborativos → correção da diferença de embeddings entre modelos professor e aluno
    • Resultados:
      • Melhora média de desempenho de 47,97% nos modelos GRU4Rec, SASRec e DROS
      • Tempo de inferência reduzido de 3~6 horas no modelo professor para 1,6~1,8 segundos
  • MLoRA (Alibaba)

    • Aplicação de LoRA por domínio (Low-Rank Adaptation) em previsão de CTR
    • Pré-treinamento de um backbone comum seguido de ajuste fino com LoRA específico por domínio
    • Definição dinâmica do rank do LoRA por camada
    • Resultados:
      • Melhora de +0,5% em AUC
      • Aumento de +1,49% em CTR, +3,37% em taxa de conversão e +2,71% em compradores pagantes
  • Taming One-Epoch (Pinterest)

    • Solução para o problema de overfitting em uma única época
    • Separação das etapas de treinamento com uso de aprendizado contrastivo
      • Primeira etapa → aprendizado de embeddings
      • Segunda etapa → ajuste fino
    • Resultados:
      • Desempenho superior ao da perda BCE tradicional
      • Melhoras de +1,32% no home feed e +2,18% em pins relacionados
  • Sliding Window Training (Netflix)

    • Introdução de treinamento com janela deslizante para aprender históricos longos de usuários sem sobrecarga de memória
    • Em cada época de treinamento, seleção de segmentos diferentes do histórico do usuário
    • Equilíbrio entre as 100 interações mais recentes e interações de longo prazo
    • Resultados:
      • Melhora consistente em relação a modelos que usavam apenas interações recentes
      • Mean Average Precision (MAP) +1,5%, recall +7,01%

Arquitetura unificada de busca e recomendação

  • Bridging Search & Recommendations (Spotify)

    • Treinamento unificado de dados de busca e recomendação em um único modelo generativo
    • Com base em Flan-T5-base, conversão de IDs de itens em tokens para treinamento
    • Modelo generativo de recomendação: previsão do próximo item com base nas interações do usuário
    • Modelo generativo de busca: previsão de IDs de itens a partir de consultas em texto
    • Resultados:
      • Melhora média de 16% em relação aos modelos de tarefa única (com base em recall@30)
      • No dataset de podcasts, melhora de +855% em busca e +262% em recomendação
      • Ainda não alcança o desempenho de modelos tradicionais de recomendação e busca (BM25, SASRec etc.)
  • 360Brew (LinkedIn)

    • Execução de mais de 30 tarefas de ranking com um único modelo de 150B parâmetros
    • Baseado no modelo Mixtral-8x22B → continuous pre-training (CPT)instruction fine-tuning (IFT)supervised fine-tuning (SFT)
    • Introdução de interface em linguagem natural → uso de prompt engineering em vez de feature engineering
    • Resultados:
      • Desempenho equivalente ou superior ao de modelos especializados existentes
      • Melhora em datasets de grande escala (3x maiores)
      • Melhora de desempenho para usuários cold start → superior aos modelos existentes
  • UniCoRn (Netflix)

    • Processamento de tarefas de busca e recomendação em um único modelo
    • Uso de informações de contexto como ID do usuário, consulta de busca, país e entidade de origem
    • Uso de funções contexto-alvo e feature crossing
    • Resultados:
      • Melhora de +10% em recomendação e +7% em busca
      • Melhora de desempenho via personalização mais forte
      • Confirmação da importância do tipo de tarefa e do tratamento de valores ausentes
  • Unified Embeddings (Etsy)

    • Integração de embeddings baseados em Transformer, texto e grafo
    • Ajuste fino do modelo T5 para reforçar o matching entre consulta e produto
    • Aplicação de hard negative sampling e busca aproximada (ANN)
    • Resultados:
      • Melhora de +2,63% na taxa de conversão e de +5,58% na taxa de compra em busca orgânica
      • Embeddings de grafo foram os que mais contribuíram para o desempenho (+15%)
  • Embedding Long Tail (Best Buy)

    • Solução para o problema de consultas long tail
    • Uso de modelo BERT interno baseado no comportamento do usuário → encoding de busca e produtos
    • Enriquecimento de dados com consultas sintéticas geradas por Llama-13B
    • Resultados:
      • Melhora de +3% na taxa de conversão
      • Melhora no matching consulta-produto (+4,67%)
  • User Behavioral Service (YouTube)

    • Separação entre o modelo de geração de embeddings de usuário e o modelo de recomendação
    • Geração assíncrona de embeddings de usuário → uso de cache de alta velocidade
    • Quando embeddings não estão disponíveis na requisição, retorno de valor vazio seguido de atualização assíncrona
    • Resultados:
      • Escalonamento do tamanho do modelo de sequência do usuário → contenção do aumento de custo (28,7% → 2,8%)
      • Melhora geral no desempenho de recomendação (0,01% ~ 0,40%)
  • Modern Ranking Platform (Zalando)

    • Construção de sistema unificado de busca e navegação
    • Uso da estrutura geração de candidatos → ranking → camada de política
    • Aplicação de embeddings de clientes baseados em Transformer + banco de dados vetorial
    • Resultados:
      • Melhora de +15% no engajamento geral e de +2,2% na receita
      • Melhora adicional de desempenho após introdução de embeddings treináveis

Encerramento

  • As pesquisas iniciais de 2023 (aplicação de LLM a recomendação e busca) ainda eram limitadas, mas os esforços mais recentes mostram perspectivas muito mais promissoras, especialmente com respaldo dos resultados da indústria
  • Isso sugere que explorar o uso de LLMs para ampliar sistemas de recomendação e busca traz benefícios práticos, podendo reduzir custo e esforço ao mesmo tempo em que aumenta os resultados

1 comentários

 
GN⁺ 2025-03-24

Comentários do Hacker News

  • Há uma análise de que a atualização relacionada às consultas de busca do Spotify ajudou os usuários a expressar intenções mais complexas

    • No entanto, é difícil interpretar isso como uma melhoria, já que os usuários passaram a precisar buscar mais e digitar consultas mais longas para obter a informação desejada
  • Muitas equipes estão usando LLMs para reforçar consultas de busca e índices

    • Mesmo com modelos pequenos e prompts simples, é possível converter strings de busca em consultas estruturadas
    • Também é possível classificar documentos ou usar cache
    • Não fazer esse tipo de trabalho pode ser um erro
  • É interessante que Eugene tenha apresentado o trabalho logo após a conferência

    • Tradicionalmente, isso provavelmente teria sido um artigo apresentado por um estudante de doutorado após cerca de 12 meses
    • Fica a dúvida se isso se deve à capacidade do Eugene ou se é uma nova tendência
  • Explica por que a experiência com o Spotify piorou com o tempo

  • Ao acordar de manhã, a pessoa começou a ouvir este artigo com um modelo de conversão de texto em fala

    • Como há muito jargão técnico, o autor parece muito inteligente, mas não transmite a informação de forma eficaz
    • Isso é algo visto com frequência em artigos acadêmicos, e os próprios artigos de pesquisa da pessoa não são exceção
    • Como não é especialista em ML, talvez não seja o público-alvo
    • Fica a curiosidade se outras pessoas tiveram a mesma impressão
    • Espera que essa opinião não soe negativa demais
  • Variações de SASRec e Bert4Rec são treinadas com tokens de ID e apresentam leis de escala semelhantes às dos LLMs

    • A abordagem da Meta é apresentada como exemplo
  • A pessoa acha que combinar sistemas de recomendação com fóruns foi um grande desastre social

  • Há dúvida sobre por que não existem ferramentas de busca baseadas em LLM em PCs e smartphones

    • Especialmente no caso dos smartphones, como os dados ficam armazenados na nuvem, em vez de fazer scraping para anúncios ou para o FBI, isso poderia oferecer funções úteis para o usuário
  • Parece ser uma excelente visão geral sobre sistemas de recomendação

    • O ponto principal é que a latência é o problema central
    • Ajuste fino pode trazer grandes melhorias e reduzir a latência
    • Existe um limiar ou tipo de problema em que se deve usar prompt ou ajuste fino
  • É interessante que esses artigos não estejam saindo de laboratórios acadêmicos