Lançamento do LlamaCloud e do LlamaParse

xguru · 2024-02-22T09:14:39+09:00

LlamaCloud: uma nova geração de serviço gerenciado de parsing, ingestão e busca. Foi projetado para oferecer Context-Augmentation de nível de produção para aplicações de LLM e RAG. LlamaParse: tecnologia para fazer parsing de documentos complexos com objetos como tabelas e gráficos. Integrado ao LlamaIndex, permite construir busca para documentos complexos e semiestruturados. API de ingestão e busca gerenciada: oferece uma API para carregar, processar e armazenar dados facilmente e utilizá-los em qualquer linguagem. Funciona com base no LlamaHub, no LlamaParse e em um repositório de dados integrado. RAG depende da qualidade dos dados O núcleo dos LLMs é a automação de busca, síntese, extração e planejamento de conhecimento em fontes de dados não estruturadas. Para isso surgiu um novo stack de dados, Retrieval-Augmented Generation (RAG), para carregar, processar, fazer embedding e gravar os dados em um banco de dados vetorial. O stack de RAG é diferente do stack de ETL tradicional e impacta diretamente a precisão de sistemas de LLM. Começar é fácil, mas construir um RAG em produção é difícil. Não gera resultados satisfatórios. Há muitas variáveis para ajuste. PDFs são especialmente problemáticos por causa da formatação confusa. Sincronizar dados em atualização contínua é muito difícil. O LlamaCloud e o LlamaParse foram construídos como um pipeline de dados para implantar aplicações RAG em produção mais rapidamente. LlamaParse O LlamaParse é um parser de ponta para permitir que documentos PDF complexos com tabelas e gráficos incorporados sejam interpretados com RAG. Permite responder perguntas sobre documentos complexos que eram impossíveis com abordagens anteriores. API de ingestão e busca gerenciada Outro produto principal do LlamaCloud, que permite declarar facilmente um pipeline de dados com bom desempenho e fornecer dados limpos para aplicações de LLM. Oferece os benefícios de economia de tempo de engenharia, melhor desempenho e redução da complexidade do sistema. Parceiros de lançamento e colaboradores O LlamaParse trabalha com diversos parceiros para construir parcerias de armazenamento e computação no ecossistema de dados de LLM e IA, com empresas como MongoDB, Qdrant e NVIDIA. FAQ O LlamaCloud não compete com bancos de dados vetoriais e foca em parsing e ingestão de dados, além disso é integrado com mais de 40 bancos de dados vetoriais populares. A camada de busca é uma orquestração acima dos sistemas de armazenamento existentes. Próximos passos O LlamaParse está disponível em prévia pública a partir de hoje; já o LlamaCloud está em prévia privada para um número restrito de parceiros corporativos selecionados.

(blog.llamaindex.ai)

9 pontos por xguru 2024-02-22 | 1 comentários | Compartilhar no WhatsApp

LlamaCloud: uma nova geração de serviço gerenciado de parsing, ingestão e busca. Foi projetado para oferecer Context-Augmentation de nível de produção para aplicações de LLM e RAG.
- LlamaParse: tecnologia para fazer parsing de documentos complexos com objetos como tabelas e gráficos. Integrado ao LlamaIndex, permite construir busca para documentos complexos e semiestruturados.
- API de ingestão e busca gerenciada: oferece uma API para carregar, processar e armazenar dados facilmente e utilizá-los em qualquer linguagem. Funciona com base no LlamaHub, no LlamaParse e em um repositório de dados integrado.

RAG depende da qualidade dos dados

O núcleo dos LLMs é a automação de busca, síntese, extração e planejamento de conhecimento em fontes de dados não estruturadas.
Para isso surgiu um novo stack de dados, Retrieval-Augmented Generation (RAG), para carregar, processar, fazer embedding e gravar os dados em um banco de dados vetorial.
O stack de RAG é diferente do stack de ETL tradicional e impacta diretamente a precisão de sistemas de LLM.
Começar é fácil, mas construir um RAG em produção é difícil.
- Não gera resultados satisfatórios.
- Há muitas variáveis para ajuste.
- PDFs são especialmente problemáticos por causa da formatação confusa.
- Sincronizar dados em atualização contínua é muito difícil.
O LlamaCloud e o LlamaParse foram construídos como um pipeline de dados para implantar aplicações RAG em produção mais rapidamente.

LlamaParse

O LlamaParse é um parser de ponta para permitir que documentos PDF complexos com tabelas e gráficos incorporados sejam interpretados com RAG.
Permite responder perguntas sobre documentos complexos que eram impossíveis com abordagens anteriores.

API de ingestão e busca gerenciada

Outro produto principal do LlamaCloud, que permite declarar facilmente um pipeline de dados com bom desempenho e fornecer dados limpos para aplicações de LLM.
Oferece os benefícios de economia de tempo de engenharia, melhor desempenho e redução da complexidade do sistema.

Parceiros de lançamento e colaboradores

O LlamaParse trabalha com diversos parceiros para construir parcerias de armazenamento e computação no ecossistema de dados de LLM e IA, com empresas como MongoDB, Qdrant e NVIDIA.

FAQ

O LlamaCloud não compete com bancos de dados vetoriais e foca em parsing e ingestão de dados, além disso é integrado com mais de 40 bancos de dados vetoriais populares.
A camada de busca é uma orquestração acima dos sistemas de armazenamento existentes.

Próximos passos

O LlamaParse está disponível em prévia pública a partir de hoje; já o LlamaCloud está em prévia privada para um número restrito de parceiros corporativos selecionados.

1 comentários

xguru 2024-02-22

Comentários do Hacker News

Fui parte da equipe que desenvolveu o LlamaParse, e já tive experiência com vários extratores de texto estruturado de PDF antes; o LlamaParse traz melhorias em comparação com outros extratores. Ele combina OCR com extração de texto de PDF e usa heurísticas junto com modelos de machine learning para reconstrução de documentos. Combinado com uma estratégia de busca recursiva, isso pode gerar os melhores resultados em perguntas e respostas para textos complexos.
O LlamaParse desenvolveu um serviço de parsing proprietário excelente para converter PDFs com tabelas complexas em Markdown bem estruturado. Depois que um projeto open source ganha atenção e contribuições da comunidade, não é problemático os líderes do projeto receberem investimento de VC e criarem algo proprietário?
Não entendo por que motivo publicar no Medium. O Medium deixou de ser legível e deveria haver uma postagem no blog acessível ao público.
Fico curioso para saber como o LlamaParse se compara diretamente com o unstructured.io.
Minha experiência inicial com o LlamaParse não foi tão impressionante. Tive problema de redirecionamento infinito ao me cadastrar por e-mail, e depois de entrar com o Google fiquei desapontado com o parser de PDF. Já existem muitas opções, então não entendo por que esse serviço é necessário.
O LlamaParse parece tentar resolver um problema difícil. Muitos clientes corporativos precisam analisar arquivos PDF e extrair dados com precisão. A interface é um pouco confusa. O LlamaParse pode extrair números de tabelas, mas parece que a saída não é apresentada em formato de tabela e os números só podem ser acessados por perguntas e respostas.
Não é parecido com o que o AWS Textract faz? Ele já faz parsing e consulta de informações em tabelas e formulários. Para o LI, torna o histórico de busca para workflow e RAG mais fácil para o usuário, mas me pergunto por que reinventar a roda.
Com LLMs dá para extrair os dados no formato mais adequado desde o início, então não entendo por que construir isso. Pode fazer sentido no curto prazo por causa do custo, mas no longo prazo, isso é algo que geralmente pode ser resolvido com LLMs.
O LlamaParse resolve exatamente um problema que enfrento repetidamente com RAG. Extrair informação estruturada de dados não estruturados é difícil.
Pergunta sobre como será o preço.