- Sistemas de recomendação e busca historicamente evoluíram inspirados em modelos de linguagem
- Word2vec → aprendizado de embeddings de itens (busca baseada em embeddings)
- GRU, Transformer, BERT → previsão do próximo item recomendado (ranking)
- Atualmente, o paradigma dos grandes modelos de linguagem (LLMs) também está evoluindo na mesma direção
- Principais avanços
-
1. Arquiteturas de modelos aprimoradas com LLM/multimodal
-
2. Geração e análise de dados baseadas em LLM
-
3. Scaling Laws, aprendizado por transferência, destilação de conhecimento, LoRA
-
4. Arquitetura unificada de busca e recomendação
Arquiteturas de modelos aprimoradas com LLM/multimodal
- Modelos de recomendação estão adotando modelos de linguagem (LLMs) e conteúdo multimodal para superar as limitações das abordagens tradicionais baseadas em ID
- Combinação dos pontos fortes da modelagem de comportamento com a compreensão de conteúdo → resolução dos problemas de cold start e long tail
-
1. Semantic IDs (YouTube)
- Uso de Semantic ID derivados do conteúdo em vez de IDs tradicionais baseados em hash
- Introdução de um framework em duas etapas:
- Encoder de vídeo baseado em Transformer → gera embeddings densos de conteúdo
- RQ-VAE (Residual Quantization Variational AutoEncoder) → converte os embeddings em Semantic IDs no formato inteiro
- Estrutura do RQ-VAE:
- Espaço latente de 256 dimensões, 8 níveis de quantização, 2048 entradas de codebook por nível
- Geração de embeddings de 2048 dimensões a partir de um backbone VideoBERT baseado em Transformer
- Resultados:
- Embeddings densos diretos tiveram desempenho inferior ao de IDs hash aleatórios
- Abordagens baseadas em N-gram e SPM (SentencePiece Model) ofereceram desempenho superior, especialmente em cenários de cold start
-
2. M3CSR (Kuaishou)
- Embeddings de conteúdo multimodal (visual, texto, áudio) → clusterização com K-means e conversão em IDs aprendíveis
- Estrutura de duas torres:
- Torre do lado do usuário: modelagem do comportamento do usuário
- Torre do lado do item: pré-cálculo e indexação de embeddings dos itens
- Processo de treinamento:
- Fusão de embeddings ResNet (visual), Sentence-BERT (texto) e VGGish (áudio) → clusterização com K-means (~1000 clusters)
- Mapeamento dos IDs de cluster para embeddings aprendíveis
- Resultados:
- Em testes A/B, melhorias de +3,4% em cliques, +3,0% em curtidas e +3,1% em follows
- Em cenários de cold start, melhorias de +1,2% em velocidade e +3,6% em cobertura
-
3. FLIP (Huawei)
- Alinhamento entre modelo de recomendação baseado em ID e LLM
- Aprendizado simultâneo em texto mascarado e dados tabulares → realização de alinhamento multimodal
- Etapas de treinamento:
- 1. Conversão modal: transformar dados tabulares em texto
- 2. Pré-treinamento de alinhamento modal: reconstrução de texto mascarado e de IDs
- 3. Ajuste fino adaptativo: otimização dos pesos de ambos os modelos para previsão de clique
- Resultados:
- Desempenho superior aos modelos baseados em ID, em LLM e em ID + LLM
- O nível de masking e o alinhamento multimodal tiveram papel importante na melhora de desempenho
-
4. beeFormer
- Treinamento de modelo Transformer com base em informações textuais e dados de interação usuário-item
- Uso de decodificador baseado em ELSA (Scalable Linear Shallow Autoencoder) → reforço no aprendizado de padrões de interação
- Processo de treinamento:
- Geração de embeddings com Transformer → aprendizado de padrões de comportamento do usuário por meio do ELSA
- Uso de gradient checkpointing, expansão do tamanho do batch e negative sampling para otimizar o treinamento em catálogos de grande escala
- Resultados:
- Desempenho superior ao de modelos existentes como mpnet-base-v2 e bge-m3
- Melhorias observadas em aprendizado por transferência entre domínios
-
5. CALRec (Google)
- Modelagem das interações usuário-item com prompts baseados em texto
- Ajuste fino em duas etapas de um modelo baseado em PaLM-2 XXS
- Etapas de treinamento:
- 1. Aprendizado multiclasse/categoria: aprendizado de padrões gerais de recomendação
- 2. Aprendizado de categoria específica: aprendizado de padrões especializados por categoria de item
- Resultados:
- Desempenho superior aos modelos baseados em ID e em texto no Amazon Review Dataset
- O aprendizado multiclasse/categoria e o aprendizado contrastivo contribuíram para a melhora de desempenho
-
6. EmbSum (Meta)
- Geração de resumo de interesses do usuário e resumo de itens candidatos
- Uso dos modelos T5-small e Mixtral-8x22B-Instruct
- Componentes:
- User Poly-Embeddings (UPE) → embeddings dos interesses do usuário
- Content Poly-Embeddings (CPE) → embeddings dos itens
- Geração de resumos → injeção no encoder → geração da recomendação final
- Resultados:
- Desempenho superior ao de modelos de recomendação baseados em conteúdo
- Agrupamento por sessão e perda de resumo tiveram papel importante no desempenho
Geração e análise de dados baseadas em LLM
- LLMs são usados para resolver o problema de escassez de dados e reforçar a qualidade dos dados em sistemas de recomendação e busca
- Principais casos de aplicação:
- Bing → geração de metadados de páginas web e reforço do desempenho de previsão de cliques
- Indeed → filtragem de matches de vagas de baixa qualidade
- Yelp → compreensão de consultas de busca e melhoria de highlights de reviews
- Spotify → geração de consultas de busca exploratória
- Amazon → enriquecimento de metadados de playlists e melhoria do desempenho de busca
-
1. Recommendation Quality Improvement (Bing)
- Uso do GPT-4 para gerar títulos e resumos de alta qualidade a partir de páginas web
- Ajuste fino do modelo Mistral-7B com metadados gerados a partir de cerca de 2 milhões de páginas web
- Treinamento de um cross-encoder baseado em MiniLM para combinar previsão de cliques e score de qualidade
- Resultados:
- Redução de 31% em conteúdo clickbait e de 76% em conteúdo duplicado
- Aumento de 18% em conteúdo autoritativo e de 48% em recomendações cross-media
-
2. Expected Bad Match (Indeed)
- Construção do modelo de filtragem de matches de vagas de baixa qualidade (eBadMatch) com ajuste fino do GPT-3.5 em dados de revisão humana
- Melhoria de custo e velocidade mantendo desempenho no nível do GPT-4
- O modelo final de filtragem reduziu em 17,68% o número de e-mails de convite para matches, diminuiu a taxa de cancelamento de assinatura em 4,97% e aumentou a taxa de candidatura em 4,13%
- Resultados:
- Desempenho AUC-ROC do modelo de filtragem: 0.86
-
3. Query Understanding (Yelp)
- Uso de LLM para melhorar a segmentação de consultas de busca e os highlights de reviews
- Segmentação de consultas:
- Separação de tópico, nome, tempo, lugar etc. para adicionar tags semânticas
- Aplicação de técnicas de RAG (Retrieval-Augmented Generation) para reforçar a compreensão contextual das consultas
- Highlights de reviews:
- Uso de LLM para gerar highlights → escalonamento em larga escala com chamadas em batch da OpenAI
- Resultados:
- Melhora nas sessões de busca e na taxa de cliques
- Melhora de desempenho também em consultas long tail
-
4. Query Recommendations (Spotify)
- Introdução, no Spotify, de recomendações de consultas de busca exploratória além dos resultados de busca diretos
- Métodos de geração de consultas:
- Extração de títulos de catálogo, playlists e podcasts
- Reflexo das buscas recentes dos usuários a partir dos logs de busca
- Aplicação de técnicas de geração de frases com LLM (Doc2query, InPars etc.)
- Ranking das recomendações de consulta com embeddings vetoriais personalizados
- Resultados:
- Aumento de +9% na proporção de consultas exploratórias
- Aumento de +30% no comprimento máximo da consulta e de +10% no comprimento médio
-
5. Playlist Search (Amazon)
- Uso de LLM para gerar e enriquecer metadados de playlists comunitárias
- Ajuste fino do modelo Flan-T5-XL para reforçar a eficiência da geração de dados
- Treinamento de um modelo de encoder bidirecional usando consultas geradas por LLM e dados de matching entre consultas e playlists
- Resultados:
- Melhora de dois dígitos no recall dos resultados de busca
- Melhoras em SEO e em desempenho de paráfrase
Scaling Laws, aprendizado por transferência, destilação de conhecimento, LoRA
-
Scaling Laws
- Pesquisa que analisa o impacto do tamanho do modelo e da quantidade de dados no desempenho
- Uso de arquitetura Transformer decoder-only (faixa de 98.3K a 0.8B parâmetros)
- Avaliação nos datasets MovieLens-20M e Amazon-2018
- Previsão do próximo item usando sequências de 50 itens com comprimento fixo
- Principais técnicas:
- Dropout adaptativo por camada → dropout alto nas camadas inferiores e baixo nas superiores
- Troca de Adam para SGD → uso de Adam no início do treinamento e depois mudança para SGD para melhorar a convergência
- Resultados:
- Quanto maior o modelo, menor a perda de entropia cruzada
- Modelos pequenos precisam de mais dados, mas modelos grandes alcançam ótimo desempenho mesmo com menos dados
- Modelos de 75.5M e 98.3K tiveram melhora de desempenho entre 2 e 5 épocas
-
PrepRec
- Aplicação de pré-treinamento em sistemas de recomendação → possibilita aprendizado por transferência entre domínios
- Treinamento possível apenas com a mudança dinâmica da popularidade dos itens, sem metadados dos itens
- Uso de intervalos de tempo relativos entre interações de usuários e positional encoding
- Resultados:
- Em recomendação zero-shot, o recall@10 caiu de 2% a 6%, mas o desempenho após treinamento foi semelhante
- Após treinamento no domínio-alvo, desempenho no mesmo nível dos modelos SasREC e BERT4Rec
-
E-CDCTR (Meituan)
- Aplicação de aprendizado por transferência em modelo de previsão de clique em anúncios
- Uso de estrutura de treinamento em 3 etapas: TPM → CPM → A-CTR
- TPM → aprendizado de embeddings de usuários e itens
- CPM → pré-treinamento com dados orgânicos recentes
- A-CTR → ajuste fino com dados de anúncios
- Resultados:
- CPM teve o maior impacto no desempenho → possibilita aprender sinais de filtragem colaborativa de longo prazo
- Uso de embeddings dos últimos 3 meses melhorou o desempenho
-
Bridging the Gap (YouTube)
- Recomendação personalizada de vídeos em larga escala por meio de destilação de conhecimento
- Uso de estrutura professor-aluno (o modelo professor é 2 a 4 vezes maior que o aluno)
- Uso de estratégia de destilação auxiliar em vez de previsão direta → resolve problema de distribution shift
- Resultados:
- Aplicação da estratégia de destilação auxiliar melhorou o desempenho em 0,4%
- Quando o modelo professor era 2x maior, melhora de +0,42%; quando 4x maior, +0,43%
-
Self-Auxiliary Distillation (Google)
- Melhoria da eficiência amostral em modelos de recomendação de grande escala
- Estrutura de branch bidirecional → aprendizado misto com rótulos do professor e rótulos originais
- Tratamento de rótulos negativos não como 0, mas como valor estimado de CTR
- Resultados:
- Melhora consistente de desempenho em vários domínios
- Reforço da estabilidade do treinamento e da precisão da saída do modelo
-
DLLM2Rec
- Destilação do conhecimento de recomendação de grandes modelos de linguagem para modelos leves
- Uso de destilação de ranking baseada em importância e destilação de embeddings colaborativos
- Destilação de ranking baseada em importância → aplicação de pesos à ordem e à consistência dos itens
- Destilação de embeddings colaborativos → correção da diferença de embeddings entre modelos professor e aluno
- Resultados:
- Melhora média de desempenho de 47,97% nos modelos GRU4Rec, SASRec e DROS
- Tempo de inferência reduzido de 3~6 horas no modelo professor para 1,6~1,8 segundos
-
MLoRA (Alibaba)
- Aplicação de LoRA por domínio (Low-Rank Adaptation) em previsão de CTR
- Pré-treinamento de um backbone comum seguido de ajuste fino com LoRA específico por domínio
- Definição dinâmica do rank do LoRA por camada
- Resultados:
- Melhora de +0,5% em AUC
- Aumento de +1,49% em CTR, +3,37% em taxa de conversão e +2,71% em compradores pagantes
-
Taming One-Epoch (Pinterest)
- Solução para o problema de overfitting em uma única época
- Separação das etapas de treinamento com uso de aprendizado contrastivo
- Primeira etapa → aprendizado de embeddings
- Segunda etapa → ajuste fino
- Resultados:
- Desempenho superior ao da perda BCE tradicional
- Melhoras de +1,32% no home feed e +2,18% em pins relacionados
-
Sliding Window Training (Netflix)
- Introdução de treinamento com janela deslizante para aprender históricos longos de usuários sem sobrecarga de memória
- Em cada época de treinamento, seleção de segmentos diferentes do histórico do usuário
- Equilíbrio entre as 100 interações mais recentes e interações de longo prazo
- Resultados:
- Melhora consistente em relação a modelos que usavam apenas interações recentes
- Mean Average Precision (MAP) +1,5%, recall +7,01%
Arquitetura unificada de busca e recomendação
-
Bridging Search & Recommendations (Spotify)
- Treinamento unificado de dados de busca e recomendação em um único modelo generativo
- Com base em Flan-T5-base, conversão de IDs de itens em tokens para treinamento
- Modelo generativo de recomendação: previsão do próximo item com base nas interações do usuário
- Modelo generativo de busca: previsão de IDs de itens a partir de consultas em texto
- Resultados:
- Melhora média de 16% em relação aos modelos de tarefa única (com base em recall@30)
- No dataset de podcasts, melhora de +855% em busca e +262% em recomendação
- Ainda não alcança o desempenho de modelos tradicionais de recomendação e busca (BM25, SASRec etc.)
-
360Brew (LinkedIn)
- Execução de mais de 30 tarefas de ranking com um único modelo de 150B parâmetros
- Baseado no modelo Mixtral-8x22B → continuous pre-training (CPT) → instruction fine-tuning (IFT) → supervised fine-tuning (SFT)
- Introdução de interface em linguagem natural → uso de prompt engineering em vez de feature engineering
- Resultados:
- Desempenho equivalente ou superior ao de modelos especializados existentes
- Melhora em datasets de grande escala (3x maiores)
- Melhora de desempenho para usuários cold start → superior aos modelos existentes
-
UniCoRn (Netflix)
- Processamento de tarefas de busca e recomendação em um único modelo
- Uso de informações de contexto como ID do usuário, consulta de busca, país e entidade de origem
- Uso de funções contexto-alvo e feature crossing
- Resultados:
- Melhora de +10% em recomendação e +7% em busca
- Melhora de desempenho via personalização mais forte
- Confirmação da importância do tipo de tarefa e do tratamento de valores ausentes
-
Unified Embeddings (Etsy)
- Integração de embeddings baseados em Transformer, texto e grafo
- Ajuste fino do modelo T5 para reforçar o matching entre consulta e produto
- Aplicação de hard negative sampling e busca aproximada (ANN)
- Resultados:
- Melhora de +2,63% na taxa de conversão e de +5,58% na taxa de compra em busca orgânica
- Embeddings de grafo foram os que mais contribuíram para o desempenho (+15%)
-
Embedding Long Tail (Best Buy)
- Solução para o problema de consultas long tail
- Uso de modelo BERT interno baseado no comportamento do usuário → encoding de busca e produtos
- Enriquecimento de dados com consultas sintéticas geradas por Llama-13B
- Resultados:
- Melhora de +3% na taxa de conversão
- Melhora no matching consulta-produto (+4,67%)
-
User Behavioral Service (YouTube)
- Separação entre o modelo de geração de embeddings de usuário e o modelo de recomendação
- Geração assíncrona de embeddings de usuário → uso de cache de alta velocidade
- Quando embeddings não estão disponíveis na requisição, retorno de valor vazio seguido de atualização assíncrona
- Resultados:
- Escalonamento do tamanho do modelo de sequência do usuário → contenção do aumento de custo (28,7% → 2,8%)
- Melhora geral no desempenho de recomendação (0,01% ~ 0,40%)
-
Modern Ranking Platform (Zalando)
- Construção de sistema unificado de busca e navegação
- Uso da estrutura geração de candidatos → ranking → camada de política
- Aplicação de embeddings de clientes baseados em Transformer + banco de dados vetorial
- Resultados:
- Melhora de +15% no engajamento geral e de +2,2% na receita
- Melhora adicional de desempenho após introdução de embeddings treináveis
Encerramento
- As pesquisas iniciais de 2023 (aplicação de LLM a recomendação e busca) ainda eram limitadas, mas os esforços mais recentes mostram perspectivas muito mais promissoras, especialmente com respaldo dos resultados da indústria
- Isso sugere que explorar o uso de LLMs para ampliar sistemas de recomendação e busca traz benefícios práticos, podendo reduzir custo e esforço ao mesmo tempo em que aumenta os resultados
1 comentários
Comentários do Hacker News
Há uma análise de que a atualização relacionada às consultas de busca do Spotify ajudou os usuários a expressar intenções mais complexas
Muitas equipes estão usando LLMs para reforçar consultas de busca e índices
É interessante que Eugene tenha apresentado o trabalho logo após a conferência
Explica por que a experiência com o Spotify piorou com o tempo
Ao acordar de manhã, a pessoa começou a ouvir este artigo com um modelo de conversão de texto em fala
Variações de SASRec e Bert4Rec são treinadas com tokens de ID e apresentam leis de escala semelhantes às dos LLMs
A pessoa acha que combinar sistemas de recomendação com fóruns foi um grande desastre social
Há dúvida sobre por que não existem ferramentas de busca baseadas em LLM em PCs e smartphones
Parece ser uma excelente visão geral sobre sistemas de recomendação
É interessante que esses artigos não estejam saindo de laboratórios acadêmicos