22 pontos por xguru 2024-05-26 | 1 comentários | Compartilhar no WhatsApp
  • Mecanismo NL-to-SQL que permite consultar dados estruturados usando linguagem natural
  • Toda a base de código foi convertida para open source: incluindo o mecanismo principal, clientes (autenticação/RBAC) etc.
  • Agora qualquer pessoa pode criar sua própria solução de text-to-SQL dentro do seu produto
  • O mecanismo principal de NL-to-SQL da Dataherald é um agente baseado em LLM que usa raciocínio CoT (Chain of Thought) e várias ferramentas para gerar SQL de alta precisão a partir do prompt fornecido pelo usuário
  • Inclui um total de 4 serviços
    • Engine: agente LLM, vector store e conectores de banco de dados
    • Console administrativo: frontend em NextJS para configurar o engine e gerenciar observabilidade
    • Backend enterprise: envolve o mecanismo principal para adicionar autenticação, cache, API etc.
    • Bot do Slack: adiciona o Dataherald aos fluxos de trabalho do Slack

1 comentários

 
xguru 2024-05-26

Dataherald - motor de linguagem natural para SQL
Foi compartilhado aqui há 8 meses, e agora eles abriram tudo como open source.

Opiniões no Hacker News

  • Essa ferramenta parece muito boa. Outras ferramentas funcionam bem para consultas simples, mas têm dificuldade com esquemas complexos e joins. Fico curioso para saber se o DataHerald resolveu esse problema.
  • No ano passado, eu abri em open source um produto de text-to-SQL. Construir um negócio desse tipo é muito difícil. Faz mais sentido trabalhar com open source e integrá-lo a ferramentas de distribuição gratuitas como Snowflake/PowerBI.
  • Fico curioso sobre o motivo de terem aberto o produto inteiro como open source. Será que estão migrando para um modelo open core? Agradeceria se compartilhassem o motivo.
  • Obrigado pela contribuição histórica. Muitas empresas estão atualmente “conversando” com dados. Provavelmente muitas equipes estão fazendo trabalhos parecidos.
  • É um dos assistentes de análise com IA mais completos em recursos. Meus parabéns por terem aberto em open source. Há exemplos de sucesso como Metabase, Airbyte e dbt.
  • Fico curioso sobre quem é o público-alvo dessa ferramenta. O site diz que ela pode responder perguntas sobre dados sem passar por analistas, mas os analistas são especialistas em modelo e em dados. Data warehouses podem ter vários problemas. Fico em dúvida se um LLM consegue lidar com isso de forma consistente.
  • O motivo de essa ferramenta funcionar melhor do que um LLM comum é que ela pode ser treinada usando a estrutura do banco de dados. Mas a estrutura do banco pode mudar com frequência, então pode ser necessário retreinamento. Fico curioso se isso é retreinado automaticamente depois de ajustes via PR.
  • Fico curioso se essa ferramenta consegue fazer joins complexos. Não encontrei exemplos no site.
  • Não consigo entender por que usar um sistema NLP+ORM seria melhor. Seria preciso usar uma sintaxe fixa, mas em troca se conseguiria 100% de precisão.
  • Recentemente testei NL-to-SQL como protótipo. O problema era como evitar que erros ou agentes mal-intencionados afetassem o banco de dados. Se quiser conversar sobre outros aspectos relacionados a isso, entre em contato.