Como melhorar "sistemas de recomendação" e "busca" na era dos LLMs

(eugeneyan.com)

22 pontos por GN⁺ 2025-03-20 | 1 comentários | Compartilhar no WhatsApp

Sistemas de recomendação e busca historicamente evoluíram inspirados em modelos de linguagem
- Word2vec → aprendizado de embeddings de itens (busca baseada em embeddings)
- GRU, Transformer, BERT → previsão do próximo item recomendado (ranking)
Atualmente, o paradigma dos grandes modelos de linguagem (LLMs) também está evoluindo na mesma direção
Principais avanços
- 1. Arquiteturas de modelos aprimoradas com LLM/multimodal
- 2. Geração e análise de dados baseadas em LLM
- 3. Scaling Laws, aprendizado por transferência, destilação de conhecimento, LoRA
- 4. Arquitetura unificada de busca e recomendação

Arquiteturas de modelos aprimoradas com LLM/multimodal

Modelos de recomendação estão adotando modelos de linguagem (LLMs) e conteúdo multimodal para superar as limitações das abordagens tradicionais baseadas em ID
Combinação dos pontos fortes da modelagem de comportamento com a compreensão de conteúdo → resolução dos problemas de cold start e long tail
1. Semantic IDs (YouTube)
- Uso de Semantic ID derivados do conteúdo em vez de IDs tradicionais baseados em hash
- Introdução de um framework em duas etapas:
  1. Encoder de vídeo baseado em Transformer → gera embeddings densos de conteúdo
  2. RQ-VAE (Residual Quantization Variational AutoEncoder) → converte os embeddings em Semantic IDs no formato inteiro
- Estrutura do RQ-VAE:
  - Espaço latente de 256 dimensões, 8 níveis de quantização, 2048 entradas de codebook por nível
  - Geração de embeddings de 2048 dimensões a partir de um backbone VideoBERT baseado em Transformer
- Resultados:
  - Embeddings densos diretos tiveram desempenho inferior ao de IDs hash aleatórios
  - Abordagens baseadas em N-gram e SPM (SentencePiece Model) ofereceram desempenho superior, especialmente em cenários de cold start
2. M3CSR (Kuaishou)
- Embeddings de conteúdo multimodal (visual, texto, áudio) → clusterização com K-means e conversão em IDs aprendíveis
- Estrutura de duas torres:
  - Torre do lado do usuário: modelagem do comportamento do usuário
  - Torre do lado do item: pré-cálculo e indexação de embeddings dos itens
- Processo de treinamento:
  - Fusão de embeddings ResNet (visual), Sentence-BERT (texto) e VGGish (áudio) → clusterização com K-means (~1000 clusters)
  - Mapeamento dos IDs de cluster para embeddings aprendíveis
- Resultados:
  - Em testes A/B, melhorias de +3,4% em cliques, +3,0% em curtidas e +3,1% em follows
  - Em cenários de cold start, melhorias de +1,2% em velocidade e +3,6% em cobertura
3. FLIP (Huawei)
- Alinhamento entre modelo de recomendação baseado em ID e LLM
- Aprendizado simultâneo em texto mascarado e dados tabulares → realização de alinhamento multimodal
- Etapas de treinamento:
  - 1. Conversão modal: transformar dados tabulares em texto
  - 2. Pré-treinamento de alinhamento modal: reconstrução de texto mascarado e de IDs
  - 3. Ajuste fino adaptativo: otimização dos pesos de ambos os modelos para previsão de clique
- Resultados:
  - Desempenho superior aos modelos baseados em ID, em LLM e em ID + LLM
  - O nível de masking e o alinhamento multimodal tiveram papel importante na melhora de desempenho
4. beeFormer
- Treinamento de modelo Transformer com base em informações textuais e dados de interação usuário-item
- Uso de decodificador baseado em ELSA (Scalable Linear Shallow Autoencoder) → reforço no aprendizado de padrões de interação
- Processo de treinamento:
  - Geração de embeddings com Transformer → aprendizado de padrões de comportamento do usuário por meio do ELSA
  - Uso de gradient checkpointing, expansão do tamanho do batch e negative sampling para otimizar o treinamento em catálogos de grande escala
- Resultados:
  - Desempenho superior ao de modelos existentes como mpnet-base-v2 e bge-m3
  - Melhorias observadas em aprendizado por transferência entre domínios
5. CALRec (Google)
- Modelagem das interações usuário-item com prompts baseados em texto
- Ajuste fino em duas etapas de um modelo baseado em PaLM-2 XXS
- Etapas de treinamento:
  - 1. Aprendizado multiclasse/categoria: aprendizado de padrões gerais de recomendação
  - 2. Aprendizado de categoria específica: aprendizado de padrões especializados por categoria de item
- Resultados:
  - Desempenho superior aos modelos baseados em ID e em texto no Amazon Review Dataset
  - O aprendizado multiclasse/categoria e o aprendizado contrastivo contribuíram para a melhora de desempenho
6. EmbSum (Meta)
- Geração de resumo de interesses do usuário e resumo de itens candidatos
- Uso dos modelos T5-small e Mixtral-8x22B-Instruct
- Componentes:
  - User Poly-Embeddings (UPE) → embeddings dos interesses do usuário
  - Content Poly-Embeddings (CPE) → embeddings dos itens
  - Geração de resumos → injeção no encoder → geração da recomendação final
- Resultados:
  - Desempenho superior ao de modelos de recomendação baseados em conteúdo
  - Agrupamento por sessão e perda de resumo tiveram papel importante no desempenho

Geração e análise de dados baseadas em LLM

LLMs são usados para resolver o problema de escassez de dados e reforçar a qualidade dos dados em sistemas de recomendação e busca
Principais casos de aplicação:
- Bing → geração de metadados de páginas web e reforço do desempenho de previsão de cliques
- Indeed → filtragem de matches de vagas de baixa qualidade
- Yelp → compreensão de consultas de busca e melhoria de highlights de reviews
- Spotify → geração de consultas de busca exploratória
- Amazon → enriquecimento de metadados de playlists e melhoria do desempenho de busca
1. Recommendation Quality Improvement (Bing)
- Uso do GPT-4 para gerar títulos e resumos de alta qualidade a partir de páginas web
- Ajuste fino do modelo Mistral-7B com metadados gerados a partir de cerca de 2 milhões de páginas web
- Treinamento de um cross-encoder baseado em MiniLM para combinar previsão de cliques e score de qualidade
- Resultados:
  - Redução de 31% em conteúdo clickbait e de 76% em conteúdo duplicado
  - Aumento de 18% em conteúdo autoritativo e de 48% em recomendações cross-media
2. Expected Bad Match (Indeed)
- Construção do modelo de filtragem de matches de vagas de baixa qualidade (eBadMatch) com ajuste fino do GPT-3.5 em dados de revisão humana
- Melhoria de custo e velocidade mantendo desempenho no nível do GPT-4
- O modelo final de filtragem reduziu em 17,68% o número de e-mails de convite para matches, diminuiu a taxa de cancelamento de assinatura em 4,97% e aumentou a taxa de candidatura em 4,13%
- Resultados:
  - Desempenho AUC-ROC do modelo de filtragem: 0.86
3. Query Understanding (Yelp)
- Uso de LLM para melhorar a segmentação de consultas de busca e os highlights de reviews
- Segmentação de consultas:
  - Separação de tópico, nome, tempo, lugar etc. para adicionar tags semânticas
  - Aplicação de técnicas de RAG (Retrieval-Augmented Generation) para reforçar a compreensão contextual das consultas
- Highlights de reviews:
  - Uso de LLM para gerar highlights → escalonamento em larga escala com chamadas em batch da OpenAI
- Resultados:
  - Melhora nas sessões de busca e na taxa de cliques
  - Melhora de desempenho também em consultas long tail
4. Query Recommendations (Spotify)
- Introdução, no Spotify, de recomendações de consultas de busca exploratória além dos resultados de busca diretos
- Métodos de geração de consultas:
  - Extração de títulos de catálogo, playlists e podcasts
  - Reflexo das buscas recentes dos usuários a partir dos logs de busca
  - Aplicação de técnicas de geração de frases com LLM (Doc2query, InPars etc.)
- Ranking das recomendações de consulta com embeddings vetoriais personalizados
- Resultados:
  - Aumento de +9% na proporção de consultas exploratórias
  - Aumento de +30% no comprimento máximo da consulta e de +10% no comprimento médio
5. Playlist Search (Amazon)
- Uso de LLM para gerar e enriquecer metadados de playlists comunitárias
- Ajuste fino do modelo Flan-T5-XL para reforçar a eficiência da geração de dados
- Treinamento de um modelo de encoder bidirecional usando consultas geradas por LLM e dados de matching entre consultas e playlists
- Resultados:
  - Melhora de dois dígitos no recall dos resultados de busca
  - Melhoras em SEO e em desempenho de paráfrase

Scaling Laws, aprendizado por transferência, destilação de conhecimento, LoRA

Scaling Laws
- Pesquisa que analisa o impacto do tamanho do modelo e da quantidade de dados no desempenho
- Uso de arquitetura Transformer decoder-only (faixa de 98.3K a 0.8B parâmetros)
- Avaliação nos datasets MovieLens-20M e Amazon-2018
- Previsão do próximo item usando sequências de 50 itens com comprimento fixo
- Principais técnicas:
  - Dropout adaptativo por camada → dropout alto nas camadas inferiores e baixo nas superiores
  - Troca de Adam para SGD → uso de Adam no início do treinamento e depois mudança para SGD para melhorar a convergência
- Resultados:
  - Quanto maior o modelo, menor a perda de entropia cruzada
  - Modelos pequenos precisam de mais dados, mas modelos grandes alcançam ótimo desempenho mesmo com menos dados
  - Modelos de 75.5M e 98.3K tiveram melhora de desempenho entre 2 e 5 épocas
PrepRec
- Aplicação de pré-treinamento em sistemas de recomendação → possibilita aprendizado por transferência entre domínios
- Treinamento possível apenas com a mudança dinâmica da popularidade dos itens, sem metadados dos itens
- Uso de intervalos de tempo relativos entre interações de usuários e positional encoding
- Resultados:
  - Em recomendação zero-shot, o recall@10 caiu de 2% a 6%, mas o desempenho após treinamento foi semelhante
  - Após treinamento no domínio-alvo, desempenho no mesmo nível dos modelos SasREC e BERT4Rec
E-CDCTR (Meituan)
- Aplicação de aprendizado por transferência em modelo de previsão de clique em anúncios
- Uso de estrutura de treinamento em 3 etapas: TPM → CPM → A-CTR
  - TPM → aprendizado de embeddings de usuários e itens
  - CPM → pré-treinamento com dados orgânicos recentes
  - A-CTR → ajuste fino com dados de anúncios
- Resultados:
  - CPM teve o maior impacto no desempenho → possibilita aprender sinais de filtragem colaborativa de longo prazo
  - Uso de embeddings dos últimos 3 meses melhorou o desempenho
Bridging the Gap (YouTube)
- Recomendação personalizada de vídeos em larga escala por meio de destilação de conhecimento
- Uso de estrutura professor-aluno (o modelo professor é 2 a 4 vezes maior que o aluno)
- Uso de estratégia de destilação auxiliar em vez de previsão direta → resolve problema de distribution shift
- Resultados:
  - Aplicação da estratégia de destilação auxiliar melhorou o desempenho em 0,4%
  - Quando o modelo professor era 2x maior, melhora de +0,42%; quando 4x maior, +0,43%
Self-Auxiliary Distillation (Google)
- Melhoria da eficiência amostral em modelos de recomendação de grande escala
- Estrutura de branch bidirecional → aprendizado misto com rótulos do professor e rótulos originais
- Tratamento de rótulos negativos não como 0, mas como valor estimado de CTR
- Resultados:
  - Melhora consistente de desempenho em vários domínios
  - Reforço da estabilidade do treinamento e da precisão da saída do modelo
DLLM2Rec
- Destilação do conhecimento de recomendação de grandes modelos de linguagem para modelos leves
- Uso de destilação de ranking baseada em importância e destilação de embeddings colaborativos
  - Destilação de ranking baseada em importância → aplicação de pesos à ordem e à consistência dos itens
  - Destilação de embeddings colaborativos → correção da diferença de embeddings entre modelos professor e aluno
- Resultados:
  - Melhora média de desempenho de 47,97% nos modelos GRU4Rec, SASRec e DROS
  - Tempo de inferência reduzido de 3~6 horas no modelo professor para 1,6~1,8 segundos
MLoRA (Alibaba)
- Aplicação de LoRA por domínio (Low-Rank Adaptation) em previsão de CTR
- Pré-treinamento de um backbone comum seguido de ajuste fino com LoRA específico por domínio
- Definição dinâmica do rank do LoRA por camada
- Resultados:
  - Melhora de +0,5% em AUC
  - Aumento de +1,49% em CTR, +3,37% em taxa de conversão e +2,71% em compradores pagantes
Taming One-Epoch (Pinterest)
- Solução para o problema de overfitting em uma única época
- Separação das etapas de treinamento com uso de aprendizado contrastivo
  - Primeira etapa → aprendizado de embeddings
  - Segunda etapa → ajuste fino
- Resultados:
  - Desempenho superior ao da perda BCE tradicional
  - Melhoras de +1,32% no home feed e +2,18% em pins relacionados
Sliding Window Training (Netflix)
- Introdução de treinamento com janela deslizante para aprender históricos longos de usuários sem sobrecarga de memória
- Em cada época de treinamento, seleção de segmentos diferentes do histórico do usuário
- Equilíbrio entre as 100 interações mais recentes e interações de longo prazo
- Resultados:
  - Melhora consistente em relação a modelos que usavam apenas interações recentes
  - Mean Average Precision (MAP) +1,5%, recall +7,01%

Arquitetura unificada de busca e recomendação

Bridging Search & Recommendations (Spotify)
- Treinamento unificado de dados de busca e recomendação em um único modelo generativo
- Com base em Flan-T5-base, conversão de IDs de itens em tokens para treinamento
- Modelo generativo de recomendação: previsão do próximo item com base nas interações do usuário
- Modelo generativo de busca: previsão de IDs de itens a partir de consultas em texto
- Resultados:
  - Melhora média de 16% em relação aos modelos de tarefa única (com base em recall@30)
  - No dataset de podcasts, melhora de +855% em busca e +262% em recomendação
  - Ainda não alcança o desempenho de modelos tradicionais de recomendação e busca (BM25, SASRec etc.)
360Brew (LinkedIn)
- Execução de mais de 30 tarefas de ranking com um único modelo de 150B parâmetros
- Baseado no modelo Mixtral-8x22B → continuous pre-training (CPT) → instruction fine-tuning (IFT) → supervised fine-tuning (SFT)
- Introdução de interface em linguagem natural → uso de prompt engineering em vez de feature engineering
- Resultados:
  - Desempenho equivalente ou superior ao de modelos especializados existentes
  - Melhora em datasets de grande escala (3x maiores)
  - Melhora de desempenho para usuários cold start → superior aos modelos existentes
UniCoRn (Netflix)
- Processamento de tarefas de busca e recomendação em um único modelo
- Uso de informações de contexto como ID do usuário, consulta de busca, país e entidade de origem
- Uso de funções contexto-alvo e feature crossing
- Resultados:
  - Melhora de +10% em recomendação e +7% em busca
  - Melhora de desempenho via personalização mais forte
  - Confirmação da importância do tipo de tarefa e do tratamento de valores ausentes
Unified Embeddings (Etsy)
- Integração de embeddings baseados em Transformer, texto e grafo
- Ajuste fino do modelo T5 para reforçar o matching entre consulta e produto
- Aplicação de hard negative sampling e busca aproximada (ANN)
- Resultados:
  - Melhora de +2,63% na taxa de conversão e de +5,58% na taxa de compra em busca orgânica
  - Embeddings de grafo foram os que mais contribuíram para o desempenho (+15%)
Embedding Long Tail (Best Buy)
- Solução para o problema de consultas long tail
- Uso de modelo BERT interno baseado no comportamento do usuário → encoding de busca e produtos
- Enriquecimento de dados com consultas sintéticas geradas por Llama-13B
- Resultados:
  - Melhora de +3% na taxa de conversão
  - Melhora no matching consulta-produto (+4,67%)
User Behavioral Service (YouTube)
- Separação entre o modelo de geração de embeddings de usuário e o modelo de recomendação
- Geração assíncrona de embeddings de usuário → uso de cache de alta velocidade
- Quando embeddings não estão disponíveis na requisição, retorno de valor vazio seguido de atualização assíncrona
- Resultados:
  - Escalonamento do tamanho do modelo de sequência do usuário → contenção do aumento de custo (28,7% → 2,8%)
  - Melhora geral no desempenho de recomendação (0,01% ~ 0,40%)
Modern Ranking Platform (Zalando)
- Construção de sistema unificado de busca e navegação
- Uso da estrutura geração de candidatos → ranking → camada de política
- Aplicação de embeddings de clientes baseados em Transformer + banco de dados vetorial
- Resultados:
  - Melhora de +15% no engajamento geral e de +2,2% na receita
  - Melhora adicional de desempenho após introdução de embeddings treináveis

Encerramento

As pesquisas iniciais de 2023 (aplicação de LLM a recomendação e busca) ainda eram limitadas, mas os esforços mais recentes mostram perspectivas muito mais promissoras, especialmente com respaldo dos resultados da indústria
Isso sugere que explorar o uso de LLMs para ampliar sistemas de recomendação e busca traz benefícios práticos, podendo reduzir custo e esforço ao mesmo tempo em que aumenta os resultados

1 comentários

GN⁺ 2025-03-24

Comentários do Hacker News

Há uma análise de que a atualização relacionada às consultas de busca do Spotify ajudou os usuários a expressar intenções mais complexas
- No entanto, é difícil interpretar isso como uma melhoria, já que os usuários passaram a precisar buscar mais e digitar consultas mais longas para obter a informação desejada
Muitas equipes estão usando LLMs para reforçar consultas de busca e índices
- Mesmo com modelos pequenos e prompts simples, é possível converter strings de busca em consultas estruturadas
- Também é possível classificar documentos ou usar cache
- Não fazer esse tipo de trabalho pode ser um erro
É interessante que Eugene tenha apresentado o trabalho logo após a conferência
- Tradicionalmente, isso provavelmente teria sido um artigo apresentado por um estudante de doutorado após cerca de 12 meses
- Fica a dúvida se isso se deve à capacidade do Eugene ou se é uma nova tendência
Explica por que a experiência com o Spotify piorou com o tempo
Ao acordar de manhã, a pessoa começou a ouvir este artigo com um modelo de conversão de texto em fala
- Como há muito jargão técnico, o autor parece muito inteligente, mas não transmite a informação de forma eficaz
- Isso é algo visto com frequência em artigos acadêmicos, e os próprios artigos de pesquisa da pessoa não são exceção
- Como não é especialista em ML, talvez não seja o público-alvo
- Fica a curiosidade se outras pessoas tiveram a mesma impressão
- Espera que essa opinião não soe negativa demais
Variações de SASRec e Bert4Rec são treinadas com tokens de ID e apresentam leis de escala semelhantes às dos LLMs
- A abordagem da Meta é apresentada como exemplo
A pessoa acha que combinar sistemas de recomendação com fóruns foi um grande desastre social
Há dúvida sobre por que não existem ferramentas de busca baseadas em LLM em PCs e smartphones
- Especialmente no caso dos smartphones, como os dados ficam armazenados na nuvem, em vez de fazer scraping para anúncios ou para o FBI, isso poderia oferecer funções úteis para o usuário
Parece ser uma excelente visão geral sobre sistemas de recomendação
- O ponto principal é que a latência é o problema central
- Ajuste fino pode trazer grandes melhorias e reduzir a latência
- Existe um limiar ou tipo de problema em que se deve usar prompt ou ajuste fino
É interessante que esses artigos não estejam saindo de laboratórios acadêmicos

Como melhorar "sistemas de recomendação" e "busca" na era dos LLMs

1. Arquiteturas de modelos aprimoradas com LLM/multimodal

2. Geração e análise de dados baseadas em LLM

3. Scaling Laws, aprendizado por transferência, destilação de conhecimento, LoRA

4. Arquitetura unificada de busca e recomendação

Arquiteturas de modelos aprimoradas com LLM/multimodal

1. Semantic IDs (YouTube)

2. M3CSR (Kuaishou)

3. FLIP (Huawei)

4. beeFormer

5. CALRec (Google)

6. EmbSum (Meta)

Geração e análise de dados baseadas em LLM

1. Recommendation Quality Improvement (Bing)

2. Expected Bad Match (Indeed)

3. Query Understanding (Yelp)

4. Query Recommendations (Spotify)

5. Playlist Search (Amazon)

Scaling Laws, aprendizado por transferência, destilação de conhecimento, LoRA

Scaling Laws

PrepRec

E-CDCTR (Meituan)

Bridging the Gap (YouTube)

Self-Auxiliary Distillation (Google)

DLLM2Rec

MLoRA (Alibaba)

Taming One-Epoch (Pinterest)

Sliding Window Training (Netflix)

Arquitetura unificada de busca e recomendação

Bridging Search & Recommendations (Spotify)

360Brew (LinkedIn)

UniCoRn (Netflix)

Unified Embeddings (Etsy)

Embedding Long Tail (Best Buy)

User Behavioral Service (YouTube)

Modern Ranking Platform (Zalando)

Encerramento

1 comentários

Comentários do Hacker News

Como melhorar "sistemas de recomendação" e "busca" na era dos LLMs

1. Arquiteturas de modelos aprimoradas com LLM/multimodal

2. Geração e análise de dados baseadas em LLM

3. Scaling Laws, aprendizado por transferência, destilação de conhecimento, LoRA

4. Arquitetura unificada de busca e recomendação

Arquiteturas de modelos aprimoradas com LLM/multimodal

1. Semantic IDs (YouTube)

2. M3CSR (Kuaishou)

3. FLIP (Huawei)

4. beeFormer

5. CALRec (Google)

6. EmbSum (Meta)

Geração e análise de dados baseadas em LLM

1. Recommendation Quality Improvement (Bing)

2. Expected Bad Match (Indeed)

3. Query Understanding (Yelp)

4. Query Recommendations (Spotify)

5. Playlist Search (Amazon)

Scaling Laws, aprendizado por transferência, destilação de conhecimento, LoRA

Scaling Laws

PrepRec

E-CDCTR (Meituan)

Bridging the Gap (YouTube)

Self-Auxiliary Distillation (Google)

DLLM2Rec

MLoRA (Alibaba)

Taming One-Epoch (Pinterest)

Sliding Window Training (Netflix)

Arquitetura unificada de busca e recomendação

Bridging Search & Recommendations (Spotify)

360Brew (LinkedIn)

UniCoRn (Netflix)

Unified Embeddings (Etsy)

Embedding Long Tail (Best Buy)

User Behavioral Service (YouTube)

Modern Ranking Platform (Zalando)

Encerramento

Leituras relacionadas

1 comentários

Comentários do Hacker News