bigset - E se você tivesse todos os dados do mundo?
(github.com/tinyfish-io)- Ferramenta open source que cria datasets estruturados a partir de uma frase em linguagem natural na web ao vivo e os atualiza automaticamente na periodicidade definida
- Ex.: "lista de empresas da YC que estão contratando engenheiros no momento, com estágio de investimento, localização e número de vagas públicas"
- Faz inferência automática de esquema a partir da frase de entrada — define nomes de colunas, tipos, chave primária e até onde encontrar isso na web
- Um agente autônomo investiga a web ao vivo e retorna os dados em tabela após cruzar e validar com as fontes reais e remover duplicatas
- Quando o agente orquestrador encontra entidades, subagentes são distribuídos em paralelo para investigar e validar cada entidade
- O resultado pode ser baixado em CSV / XLSX e explorado pela interface
- Ao configurar um intervalo de atualização (30 minutos, 6 horas, 12 horas, diário, semanal), o agente é reexecutado conforme a agenda e mantém o dataset sempre atualizado
- Seja por humanos ou agentes de IA, toda interação com a web acaba se transformando em dados (preços, empresas, vagas, pesquisa, disponibilidade, estoque etc.)
- Esses dados ficam espalhados por várias páginas, e a ferramenta resolve a coleta de dados cruzando categorias que APIs de scraping/busca e ferramentas de LeadGen existentes não conseguem fazer
— sem precisar montar manualmente, toda vez, busca/extração/modelagem de esquema/remoção de duplicatas/validação/cron jobs, nem integrar tudo isso por conta própria
- Esses dados ficam espalhados por várias páginas, e a ferramenta resolve a coleta de dados cruzando categorias que APIs de scraping/busca e ferramentas de LeadGen existentes não conseguem fazer
- Também é possível criar e exportar datasets pelo CLI do terminal
bigset create "..." --rows 30 --wait --csv
- Porém, ainda está em fase experimental, então a inferência de esquema nem sempre é perfeita. Adequado apenas para dados públicos
- Stack técnica
- Front-end: Next.js 16, React 19, Tailwind 4
- Back-end: Fastify, TypeScript (agent runner)
- Autenticação: autenticação local (desenvolvimento), Clerk (nuvem)
- Banco de dados: Convex (self-hosted)
- Coleta de dados: TinyFish API (Search, Fetch, Browser)
- Orquestração de IA: workflow Mastra + Vercel AI SDK + OpenRouter → Claude Sonnet (inferência de esquema + agente de populate)
- Visualização de tabelas: TanStack Table + virtualização com react-window
- Exportação: CSV (embutido) + XLSX (SheetJS, import dinâmico)
- Analytics: PostHog — eventos, replay de sessão, rastreamento de erros (opcional)
- Licença AGPL-3.0
Ainda não há comentários.