8 pontos por xguru 4 시간 전 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Ferramenta open source que cria datasets estruturados a partir de uma frase em linguagem natural na web ao vivo e os atualiza automaticamente na periodicidade definida
    • Ex.: "lista de empresas da YC que estão contratando engenheiros no momento, com estágio de investimento, localização e número de vagas públicas"
  • Faz inferência automática de esquema a partir da frase de entrada — define nomes de colunas, tipos, chave primária e até onde encontrar isso na web
  • Um agente autônomo investiga a web ao vivo e retorna os dados em tabela após cruzar e validar com as fontes reais e remover duplicatas
    • Quando o agente orquestrador encontra entidades, subagentes são distribuídos em paralelo para investigar e validar cada entidade
  • O resultado pode ser baixado em CSV / XLSX e explorado pela interface
  • Ao configurar um intervalo de atualização (30 minutos, 6 horas, 12 horas, diário, semanal), o agente é reexecutado conforme a agenda e mantém o dataset sempre atualizado
  • Seja por humanos ou agentes de IA, toda interação com a web acaba se transformando em dados (preços, empresas, vagas, pesquisa, disponibilidade, estoque etc.)
    • Esses dados ficam espalhados por várias páginas, e a ferramenta resolve a coleta de dados cruzando categorias que APIs de scraping/busca e ferramentas de LeadGen existentes não conseguem fazer
      — sem precisar montar manualmente, toda vez, busca/extração/modelagem de esquema/remoção de duplicatas/validação/cron jobs, nem integrar tudo isso por conta própria
  • Também é possível criar e exportar datasets pelo CLI do terminal
    • bigset create "..." --rows 30 --wait --csv
  • Porém, ainda está em fase experimental, então a inferência de esquema nem sempre é perfeita. Adequado apenas para dados públicos
  • Stack técnica
    • Front-end: Next.js 16, React 19, Tailwind 4
    • Back-end: Fastify, TypeScript (agent runner)
    • Autenticação: autenticação local (desenvolvimento), Clerk (nuvem)
    • Banco de dados: Convex (self-hosted)
    • Coleta de dados: TinyFish API (Search, Fetch, Browser)
    • Orquestração de IA: workflow Mastra + Vercel AI SDK + OpenRouter → Claude Sonnet (inferência de esquema + agente de populate)
    • Visualização de tabelas: TanStack Table + virtualização com react-window
    • Exportação: CSV (embutido) + XLSX (SheetJS, import dinâmico)
    • Analytics: PostHog — eventos, replay de sessão, rastreamento de erros (opcional)
  • Licença AGPL-3.0

Ainda não há comentários.

Ainda não há comentários.