8 pontos por lemonmint 2024-12-10 | Ainda não há comentários. | Compartilhar no WhatsApp

Mesmo em cenários em que modelos de embedding de contexto longo conseguem processar tudo, este texto aborda se estratégias de chunking ainda são úteis e como comparar e analisar diferentes estratégias de chunking para encontrar a abordagem ideal.

Embedding de contexto longo (Long Context Embedding)

  • É uma abordagem que usa modelos como o Jina Embeddings v3 para embutir textos de até 8.192 tokens em um único vetor.
  • É útil para compreender o contexto do documento como um todo, mas, à medida que o documento fica mais longo, podem surgir problemas de perda de informação e diluição da representação.
  • É adequada para identificar o tema principal de um documento e funciona bem quando a consulta do usuário está relacionada ao conteúdo geral do documento.

Chunking ingênuo (Naive Chunking)

  • É uma abordagem em que o texto é dividido em tamanhos fixos ou por sentença, e cada chunk é embutido de forma independente.
  • Atenua o problema de diluição da representação, uma das desvantagens do embedding de contexto longo, e é vantajosa para recuperar informações específicas.
  • Como cada chunk perde o contexto dos chunks vizinhos, não é adequada para tarefas que exigem considerar relações entre chunks.
  • Os custos de computação e armazenamento podem aumentar.

Chunking tardio (Late Chunking)

  • Primeiro, o documento inteiro é embutido para gerar embeddings em nível de token; depois, os embeddings dos tokens são promediados de acordo com fronteiras de chunk mais granulares para gerar embeddings de chunk.
  • Permite representações detalhadas em nível de chunk mantendo o contexto do documento inteiro.
  • Em comparação com o chunking ingênuo, resolve o problema de perda de contexto e oferece melhor desempenho de busca.
  • É especialmente eficaz com chunks pequenos e útil quando partes do documento têm alta relação entre si.
  • No entanto, quando as diferentes partes do documento têm baixa relação entre si, o contexto desnecessário pode agir como ruído e degradar o desempenho.

Impacto do tamanho do chunk

  • O tamanho do chunk tem grande impacto no desempenho de busca.
  • Em geral, o chunking tardio apresenta desempenho melhor do que o chunking ingênuo com chunks pequenos.
  • À medida que o tamanho do chunk aumenta, o desempenho do chunking ingênuo melhora, enquanto o do chunking tardio pode cair.

Conclusão

  • A escolha entre embedding de contexto longo, chunking ingênuo e chunking tardio depende das características dos dados e dos objetivos da tarefa de busca.
  • O embedding de contexto longo é adequado para documentos coerentes e consultas gerais, enquanto o chunking é útil quando o usuário procura informações específicas dentro do documento.
  • O chunking tardio é eficaz quando é necessário manter a coerência contextual em segmentos pequenos.
  • É preciso entender os dados e os objetivos de busca e escolher a abordagem ideal considerando precisão, eficiência e relevância contextual.

Ainda não há comentários.

Ainda não há comentários.