- Anna's Archive é um mecanismo de metabusca de biblioteca sombra online sem fins lucrativos, operado por ativistas anônimos. Ele oferece acesso a diversos recursos de livros
- Eles obtiveram uma coleção de livros de não ficção em chinês com 7,5 milhões de volumes / 350 TB (maior até que a Library Genesis)
- Em troca de fornecer OCR de alta qualidade e extração de texto para essa coleção, a empresa de LLM receberá acesso antecipado exclusivo por 1 ano
- Essa coleção foi obtida do Duxiu, um grande banco de dados de livros digitalizados criado pelo SuperStar Digital Library Group, e era disponibilizada digitalmente para universidades e bibliotecas
- O tamanho total dos arquivos da coleção em seu formato atual é de cerca de 359 TB
- O texto extraído será usado no treinamento de grandes modelos de linguagem (LLMs), e o Archive acredita que, apesar de a coleção estar em chinês, ela pode ser útil para treinar LLMs em inglês
- O Archive pretende oferecer aos usuários recursos avançados de busca por meio dessa colaboração
- Se a parte colaboradora estiver disposta a compartilhar todo o código do pipeline, o Archive está aberto a estender o período de acesso exclusivo
1 comentários
Opiniões no Hacker News