- Conjunto de dados com 627M (627 milhões) de tabelas e 867B (867 bilhões) de tokens para treinamento de LLMs
- Inclui tabelas extraídas de páginas da web, Excel, CSV, SQLite etc.
- Dados contextuais ricos, como nome do arquivo, URL de origem e texto ao redor de cada tabela
- Espera-se que ajude a construir uma melhor compreensão e melhores técnicas para tarefas com dados tabulares
- 650 bilhões de linhas e até 8 bilhões de colunas
- A maior tabela tem 32 milhões de linhas
- A tabela mais larga tem 3 milhões de colunas
Ainda não há comentários.