9 pontos por xguru 2021-09-17 | 3 comentários | Compartilhar no WhatsApp
<p>- Converte em HTML, usando machine learning, o conteúdo de PDF, LaTeX e XML do PubMed Central para facilitar a leitura <br /> - Objetivo de aumentar a acessibilidade <br /> - Protótipo experimental do Semantic Scholar, um mecanismo de busca de materiais de pesquisa com IA <br /> - Atualmente, apenas imagens/conteúdos extraídos são armazenados em cache, sendo usado para oferecer um serviço mais rápido apenas a quem enviou o mesmo documento. Os arquivos enviados não são armazenados <br /> - Limitações<br /> → tabelas (Table) são extraídas como imagem <br /> → conteúdo matemático (Math) tem baixa precisão ou quase não é extraído <br /> → o processamento de LaTeX/PubMed pode ter alguns recursos a menos do que PDF <br /> - Há planos de adicionar recursos de acessibilidade ao Semantic Scholar no futuro </p>

3 comentários

 
v08zbv8fvlkjasdflkj 2021-09-23
<p>Ao converter PDF para outro formato (`epub` é ótimo), o problema acabam sendo as tabelas e fórmulas listadas acima; se as fórmulas não funcionarem bem, não sei qual seria o ponto forte. <br /> --<br /> Pelo demo, parece bem utilizável.</p>
 
indigo6 2021-09-18
<p>Parece que vai ser prático, mas também acho que deve haver pessoas que não gostariam que seu próprio artigo fosse convertido para HTML. Seria bom se o detentor dos direitos pudesse fazer opt-out dessa conversão...<br /> <br /> Antigamente, quando eu escrevia artigos em LaTeX (faz muito tempo mesmo, buá buá), sentia um prazer enorme com isso. O conteúdo era fraco, mas a renderização era tão limpa e bonita que ainda me lembro da sensação que tive naquela época. Ao olhar para o TeX, eu pensava algo como... Knuth é um deus, um deus... Enfim, de repente me ocorreu que, embora o conteúdo da obra escrita pela própria pessoa seja importante, também deve haver gente que considera importante o formato do artigo e os detalhes da sua apresentação.</p>
 
xguru 2021-09-17
<p>Dando uma olhada na galeria, a qualidade parece bem utilizável.<br /> https://papertohtml.org/gallery<br /> <br /> Fiquei pensando se seria prático ter algo assim aplicado no Google Scholar.</p>