12 pontos por xguru 2021-09-15 | Ainda não há comentários. | Compartilhar no WhatsApp
  • O maior conjunto de dados de imagens do mundo entre os disponibilizados gratuitamente

→ Dump de dados de rastreamento de páginas da web entre 2014 e 2021

  • Todas as imagens/textos já foram filtrados com o CLIP da OpenAI

→ Após filtrar os casos com similaridade entre imagem/texto abaixo de 0,3, foi feita validação manual

  • Estrutura do conjunto de dados

→ Arquivos Parquet de metadados de URL + legenda com 50 GB

→ WebDataset completo de 10 TB, utilizável diretamente no treinamento com imagens 256x256/legendas/metadados

→ 1 TB de embeddings CLIP de texto/imagem de 400 milhões de itens. Útil para reconstruir índices KNN

→ 2 índices KNN de 4 GB que facilitam a busca no conjunto de dados

SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT

Ainda não há comentários.

Ainda não há comentários.