- A era do ChatGPT chegou. Hoje vivemos em uma época em que a influência dos grandes modelos de linguagem é tão grande que chega a ser chamada de terceira revolução industrial. O alcance de uso está se ampliando cada vez mais, atravessando gerações — tanto que até minha mãe usa o ChatGPT quando tem alguma dúvida.
- Pensando no motivo de esse alcance de uso estar crescendo tanto, provavelmente é porque essas ferramentas conseguem buscar e entregar com precisão as informações que o usuário deseja. Para as pessoas cansadas do excesso de informação, elas selecionam bem as informações “necessárias” e as trazem de forma útil.
- Embora tenham ocorrido avanços enormes até aqui, também houve muitos obstáculos no caminho. Um exemplo é a chamada “alucinação”. A informação é entregue, mas de forma imprecisa. Há várias causas para esse fenômeno. A mais representativa é interpretar mal a intenção do usuário e trazer informações irrelevantes. A solução para essa causa é simples: compreender “bem” a intenção do usuário e entregar informações “relevantes”.
- Para melhorar isso, várias tentativas vêm sendo feitas. Em geral, podemos classificá-las em quatro formas: 1. construir um grande modelo de linguagem desde o início; 2. pegar um grande modelo de linguagem já “bem” treinado e treiná-lo adicionalmente para adequá-lo ao domínio desejado; 3. usar o grande modelo de linguagem como está, mas adicionar contexto extra à consulta do usuário; 4. manter o grande modelo de linguagem, mas, no processo de responder ao usuário, fornecer contexto adicional sobre “informações relacionadas”, destacando sua relevância. Como há várias abordagens, cada uma também tem suas vantagens e desvantagens.
- A abordagem 1 tem a vantagem de permitir apresentar ao grande modelo de linguagem um contexto claro dos dados desde o início, já que ele é construído do zero. Por outro lado, o custo de construção também é bastante alto.
2 tem a vantagem de aproveitar o contexto de um grande modelo de linguagem já “bem” treinado e aplicar seletivamente uma pequena quantidade de dados especializados no domínio, o que torna o custo relativamente mais baixo e garante certa precisão. Em contrapartida, há a desvantagem de ser difícil manter em equilíbrio o contexto especializado do domínio sem perder o contexto original do grande modelo de linguagem.
3 tem a vantagem de ter baixo custo, pois basta processar a consulta do usuário e adicionar “bem” o contexto sobre sua intenção. No entanto, como a subjetividade de quem atribui esse contexto pode interferir no processo, a objetividade do contexto pode ficar comprometida. Se houver forte viés, esse contexto pode até atuar de forma negativa.
4 tem a vantagem de permitir responder à consulta do usuário com informações relativamente mais atualizadas e com baixo custo de adoção. Por outro lado, como a qualidade das perguntas varia muito de acordo com os documentos relacionados, há a desvantagem de uma alta complexidade: é preciso adotar uma abordagem estratégica para identificar e recuperar bem os documentos relevantes, combinando de forma equilibrada diversos fatores. - Além disso, há um conteúdo detalhado comparando essas abordagens de forma equilibrada sob cinco aspectos — cost, accuracy, domain-specific terminology, up-to-date response, transparency and interpretability — em https://deci.ai/blog/… . Recomendo dar uma olhada.
- Até aqui, falamos sobre várias metodologias que vêm sendo tentadas para resolver o problema das alucinações nos grandes modelos de linguagem. Neste post, vamos examinar o RAG (Retrieval Augment Generation), a tecnologia da abordagem 4 que busca bem as “informações relacionadas” e adiciona contexto, e também veremos as limitações do RAG e o GraphRAG, uma das formas de complementar essas limitações.
Ainda não há comentários.