Mesmo em cenários em que modelos de embedding de contexto longo conseguem processar tudo, este texto aborda se estratégias de chunking ainda são úteis e como comparar e analisar diferentes estratégias de chunking para encontrar a abordagem ideal.
Embedding de contexto longo (Long Context Embedding)
- É uma abordagem que usa modelos como o Jina Embeddings v3 para embutir textos de até 8.192 tokens em um único vetor.
- É útil para compreender o contexto do documento como um todo, mas, à medida que o documento fica mais longo, podem surgir problemas de perda de informação e diluição da representação.
- É adequada para identificar o tema principal de um documento e funciona bem quando a consulta do usuário está relacionada ao conteúdo geral do documento.
Chunking ingênuo (Naive Chunking)
- É uma abordagem em que o texto é dividido em tamanhos fixos ou por sentença, e cada chunk é embutido de forma independente.
- Atenua o problema de diluição da representação, uma das desvantagens do embedding de contexto longo, e é vantajosa para recuperar informações específicas.
- Como cada chunk perde o contexto dos chunks vizinhos, não é adequada para tarefas que exigem considerar relações entre chunks.
- Os custos de computação e armazenamento podem aumentar.
Chunking tardio (Late Chunking)
- Primeiro, o documento inteiro é embutido para gerar embeddings em nível de token; depois, os embeddings dos tokens são promediados de acordo com fronteiras de chunk mais granulares para gerar embeddings de chunk.
- Permite representações detalhadas em nível de chunk mantendo o contexto do documento inteiro.
- Em comparação com o chunking ingênuo, resolve o problema de perda de contexto e oferece melhor desempenho de busca.
- É especialmente eficaz com chunks pequenos e útil quando partes do documento têm alta relação entre si.
- No entanto, quando as diferentes partes do documento têm baixa relação entre si, o contexto desnecessário pode agir como ruído e degradar o desempenho.
Impacto do tamanho do chunk
- O tamanho do chunk tem grande impacto no desempenho de busca.
- Em geral, o chunking tardio apresenta desempenho melhor do que o chunking ingênuo com chunks pequenos.
- À medida que o tamanho do chunk aumenta, o desempenho do chunking ingênuo melhora, enquanto o do chunking tardio pode cair.
Conclusão
- A escolha entre embedding de contexto longo, chunking ingênuo e chunking tardio depende das características dos dados e dos objetivos da tarefa de busca.
- O embedding de contexto longo é adequado para documentos coerentes e consultas gerais, enquanto o chunking é útil quando o usuário procura informações específicas dentro do documento.
- O chunking tardio é eficaz quando é necessário manter a coerência contextual em segmentos pequenos.
- É preciso entender os dados e os objetivos de busca e escolher a abordagem ideal considerando precisão, eficiência e relevância contextual.
Ainda não há comentários.