- O maior conjunto de dados de imagens do mundo entre os disponibilizados gratuitamente
→ Dump de dados de rastreamento de páginas da web entre 2014 e 2021
- Todas as imagens/textos já foram filtrados com o CLIP da OpenAI
→ Após filtrar os casos com similaridade entre imagem/texto abaixo de 0,3, foi feita validação manual
- Estrutura do conjunto de dados
→ Arquivos Parquet de metadados de URL + legenda com 50 GB
→ WebDataset completo de 10 TB, utilizável diretamente no treinamento com imagens 256x256/legendas/metadados
→ 1 TB de embeddings CLIP de texto/imagem de 400 milhões de itens. Útil para reconstruir índices KNN
→ 2 índices KNN de 4 GB que facilitam a busca no conjunto de dados
SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT
Ainda não há comentários.