ArXiv agora oferece artigos em formato HTML

(blog.arxiv.org)

14 pontos por GN⁺ 2023-12-22 | 1 comentários | Compartilhar no WhatsApp

Acesso justo à pesquisa científica

O arXiv está se esforçando para garantir que todos os usuários, incluindo pessoas com deficiência, tenham acesso justo à pesquisa científica.
Desde 18 de dezembro de 2023, está gerando uma versão em HTML para todos os artigos enviados em TeX/LaTeX (apenas para artigos enviados após 1º de dezembro e nos casos em que a conversão para HTML foi bem-sucedida).

Adição do formato HTML

O HTML não substitui o PDF; é um formato adicional oferecido aos usuários do arXiv.
Os autores têm a oportunidade de visualizar previamente a versão HTML no momento do envio, assim como acontece com o PDF.
Ao acessar a página de resumo do artigo, é possível ver um link para a versão HTML logo abaixo do link do PDF.

Melhoria da acessibilidade para cientistas com deficiência

Havia solicitações para oferecer artigos em formato HTML porque cientistas com deficiência enfrentam barreiras para acessar pesquisas.
Artigos em HTML podem ser lidos com mais facilidade e precisão por tecnologias como leitores de tela, ajudando pesquisadores com deficiência visual, baixa visão, dislexia e outros casos.

Fase experimental da conversão para HTML

Atualmente, a conversão para HTML está em fase experimental, e o trabalho continua para tornar a conversão mais precisa.
Nem todos os artigos são convertidos com precisão para HTML, mas a intenção é disponibilizar esse recurso o mais rápido possível para pesquisadores que precisam de acessibilidade.
Envios cuja conversão para HTML falhar não serão bloqueados nem colocados em espera, mas espera-se que os autores revisem cuidadosamente a versão HTML.

Agradecimentos pelo projeto HTML

Foi deixada uma mensagem de agradecimento pelo HTML experimental, considerado um grande passo para tornar a ciência acessível a todos.
Também houve agradecimentos ao LaTeX Project, à equipe do LaTeXML do NIST e a todos os que colaboraram no piloto do projeto de artigos em HTML do arXiv.
Para usuários familiarizados com o ar5iv, um projeto colaborativo do arXivLabs, essa oferta em HTML representa a completa “internalização” desse projeto influente.
O objetivo final é fazer o backfill de todo o acervo do arXiv para oferecer uma versão HTML de todos os artigos, mas por enquanto o recurso está disponível apenas para novos artigos.
Também houve agradecimentos a todos os usuários do arXiv que enviaram relatórios de bugs sobre o projeto de artigos em HTML; a equipe está analisando esses relatos e planeja fazer a primeira rodada de melhorias no novo ano.

Opinião do GN⁺

A oferta de artigos em HTML pelo arXiv é um avanço importante para melhorar o acesso à pesquisa, especialmente para cientistas com deficiência.
Essa mudança deve ajudar a reduzir barreiras técnicas dentro da comunidade científica e contribuir para uma pesquisa mais inclusiva.
Apesar de ainda estar em fase experimental, a decisão do arXiv de disponibilizar rapidamente esse recurso mostra uma postura positiva de priorizar as necessidades dos pesquisadores.

1 comentários

GN⁺ 2023-12-22

Comentários do Hacker News

O artigo não traz um exemplo em HTML com link, mas aqui vai um link aleatório: link de exemplo em HTML do arXiv. É legal ver que há suporte a modo escuro. Não aparece um botão de alternância, mas ele é renderizado de acordo com o modo do sistema. Parece que a acessibilidade do arXiv no celular vai melhorar bastante.
- 30 anos depois de o HTML ter sido inventado para apoiar acessibilidade e colaboração em pesquisa e academia, a Casa Branca publicou novas diretrizes de acessibilidade. Foi a primeira vez que uma nova política oficial foi publicada em HTML, e não em PDF. link para as diretrizes de acessibilidade da Casa Branca
- Se quiser acompanhar os artigos importantes novos de AI/ML no arXiv, vale conferir o Emergent Mind. O site verifica menções a artigos do arXiv em redes sociais (Hacker News, Reddit, X, YouTube, GitHub etc.) e classifica os artigos com base no volume de atividade social e no horário de publicação. Para cada artigo, ele usa GPT-4 para gerar um resumo e fornece links para discussões em redes sociais, referências ao artigo e artigos relacionados. Ainda é um site novo e não foi muito divulgado. Feedback e sugestões de melhoria são bem-vindos.
- Se houver artigos sem link para HTML na barra lateral, fiquei curioso sobre como descobrir por que eles não são renderizados em HTML e como isso poderia ser corrigido.
- Acho que seria bom dar aos autores a opção de enviar sua própria versão em HTML junto com a versão em PDF, em vez de depender apenas do processo de conversão automática.
  - Se entrarem em contato dizendo que há problemas na versão HTML do artigo, os autores podem ficar frustrados por não terem como corrigir isso, além de torcer para que mudanças no PDF afetem a geração do HTML. É mais fácil corrigir problemas de formatação diretamente no PDF.
  - Também seria interessante permitir experimentos com formatos alternativos para os artigos. Por exemplo, um artigo com um sandbox para testar a linguagem de programação discutida, ou um artigo sobre cálculo multivariável em que se possa interagir com um gráfico 3D de alguma função.
- Apostar na web sempre é uma decisão muito boa.
- A ferramenta usada para esse serviço é o arXiv-readability. Deixo o link para economizar alguns cliques.
- PDF é muito superior ao HTML para renderizar documentos de texto. E a diferença é grande. Isso já era possível há 10 anos, até mesmo 15 ou 20. O fato de isso não ter acontecido não é mera inércia. LaTeX e PDF são muito melhores em renderização de texto, e um formato estático é útil para quem vem depois porque fixa um estado no tempo, ao contrário da natureza inerentemente fluida do HTML. E, de novo, a renderização nem se compara, e isso transmite um sinal de qualidade, consciente ou inconscientemente.
- Espero que o arXiv não pare de oferecer artigos em PDF. Eu prefiro ler PDF mesmo no computador.
- Quando abro PDFs grandes (mais de 100 MB, algo comum em artigos de ML focados em gerar imagens em alta resolução) no arXiv, nada é renderizado além da barra de carregamento, e há um tempo de espera considerável de mais de 10 segundos. Fico curioso sobre a causa dessa demora. É problema de rede, ou o Chrome é realmente muito lento para renderizar PDFs grandes? O PDF precisa ser baixado por completo antes de começar a renderização? De qualquer forma, essa é minha única reclamação sobre o arXiv, e um documento HTML com renderização progressiva, em que o texto carregue imediatamente, seria uma grande melhoria.

ArXiv agora oferece artigos em formato HTML

Acesso justo à pesquisa científica

Adição do formato HTML

Melhoria da acessibilidade para cientistas com deficiência

Fase experimental da conversão para HTML

Agradecimentos pelo projeto HTML

Opinião do GN⁺

Leituras relacionadas

1 comentários

Comentários do Hacker News