2 pontos por GN⁺ 2023-11-06 | 1 comentários | Compartilhar no WhatsApp
  • Anna's Archive é um mecanismo de metabusca de biblioteca sombra online sem fins lucrativos, operado por ativistas anônimos. Ele oferece acesso a diversos recursos de livros
  • Eles obtiveram uma coleção de livros de não ficção em chinês com 7,5 milhões de volumes / 350 TB (maior até que a Library Genesis)
  • Em troca de fornecer OCR de alta qualidade e extração de texto para essa coleção, a empresa de LLM receberá acesso antecipado exclusivo por 1 ano
  • Essa coleção foi obtida do Duxiu, um grande banco de dados de livros digitalizados criado pelo SuperStar Digital Library Group, e era disponibilizada digitalmente para universidades e bibliotecas
  • O tamanho total dos arquivos da coleção em seu formato atual é de cerca de 359 TB
  • O texto extraído será usado no treinamento de grandes modelos de linguagem (LLMs), e o Archive acredita que, apesar de a coleção estar em chinês, ela pode ser útil para treinar LLMs em inglês
  • O Archive pretende oferecer aos usuários recursos avançados de busca por meio dessa colaboração
  • Se a parte colaboradora estiver disposta a compartilhar todo o código do pipeline, o Archive está aberto a estender o período de acesso exclusivo

1 comentários

 
GN⁺ 2023-11-06
Opiniões no Hacker News
  • Acredita-se que esta coleção tenha começado por volta de 2015 e inclua cerca de 4 milhões de livros, muitos deles duplicados.
  • A origem da coleção é uma empresa chamada DuXiu, que desde o início dos anos 2000 trabalhou com bibliotecas da China para digitalizar seus acervos.
  • A coleção contém uma mistura de livros didáticos ocidentais traduzidos, propaganda política e obras de literatura e história publicadas antes de uma censura extrema.
  • Empresas de tecnologia chinesas podem acessar esta coleção, mas talvez não a utilizem por causa de riscos autorais e políticos.
  • A pessoa que administra o site é considerada inteligente, mas imprudente, e foram levantadas preocupações sobre possível responsabilidade legal.
  • O DuXiu é muito elogiado como recurso, e há expectativa de que se torne totalmente pesquisável dentro de um ano.
  • Considera-se que a centralização de todos os livros da China seja vantajosa para o treinamento de IA.
  • O fato de esta coleção ser 40 vezes maior que o books3 levanta questões sobre direitos autorais e as possibilidades de pesquisa acadêmica fora do mundo anglófono.
  • Há especulações sobre a eficiência da tokenização em chinês, uma língua com alta densidade de informação.
  • Foi levantada a questão de saber se os Language Models (LLMs) conseguem codificar conhecimento independentemente do idioma e do idioma da consulta.
  • Há expectativa de que uma grande empresa chinesa possa superar a OpenAI em uma oferta para competir por esta coleção.
  • Os LLMs podem atuar como uma interface, facilitando o acesso a informações em chinês.
  • A reação à cópia na cultura chinesa é vista de forma diferente, muitas vezes com tendência a considerá-la uma forma de respeito.