HTML como formato acessível para artigos científicos (2023)
(info.arxiv.org)- A arXiv começou a disponibilizar artigos no formato HTML, juntamente com o PDF, para aumentar a acessibilidade da pesquisa
- De mais de 2 milhões de artigos, parte deles ainda não possui versão em HTML devido a limitações da conversão automática, e a qualidade da conversão está em melhoria contínua
- O HTML é vantajoso em acessibilidade por ter alta compatibilidade com tecnologias assistivas, como leitores de tela, conversão de texto para fala e dispositivos móveis
- A comunidade pode participar diretamente do projeto por meio de reportes de erros e melhoria da conversão de LaTeX
- Esta iniciativa mostra a direção de longo prazo da arXiv para ampliar a inclusão e acessibilidade da pesquisa científica
Visão geral da disponibilização de artigos em formato HTML
- A arXiv está introduzindo o formato de artigo HTML, além do PDF tradicional, para elevar a acessibilidade da pesquisa
- Segundo o feedback da comunidade, fornecer HTML foi avaliado como a medida com maior impacto em curto prazo
- A versão HTML é exibida abaixo do link de download do PDF na página de resumo do artigo
- O autor pode conferir a prévia HTML de seu próprio artigo durante o processo de submissão
- A arXiv está adicionando HTML gradualmente para mais de 2 milhões de artigos, e algumas submissões ainda não recebem HTML por falha de conversão
- O lançamento beta do HTML está na fase inicial, e a melhoria da qualidade da conversão de LaTeX e a coleta de feedback continuam em andamento
Por que foi chamado de HTML “experimental”
- Mais de 90% das submissões da arXiv são em TeX (principalmente LaTeX), e isso gera desafios técnicos para converter com precisão para HTML
- O LaTeX é altamente extensível e cada autor o utiliza de forma diferente
- O HTML tem ótima compatibilidade com leitores de tela, conversão de texto em fala, ampliadores de tela e dispositivos móveis
- A conversão precisa manter automação e velocidade, então uma renderização perfeita é difícil
- O HTML foi lançado como “experimental” por dois motivos:
- Artigos acessíveis são necessários agora — pesquisadores com exigências de acessibilidade pediram que o lançamento não fosse adiado
- É necessário o apoio da comunidade — para receber relatos de erros de conversão e rastrear problemas de pacotes específicos de LaTeX
Erros possíveis em artigos em HTML
- Os artigos em HTML ainda são um trabalho em andamento, e podem ocorrer erros de conversão ou problemas de renderização
- O arXiv compartilha as causas dos erros e formas de os autores minimizá-los
- Detalhes adicionais podem ser encontrados em uma página separada
Como participar da comunidade
-
1) Ler artigos em HTML e reportar problemas
- Clique no link HTML na página de resumo do artigo de interesse para visualizá-lo
- O relato de problemas pode ser feito pelo botão Open Issue, por selecionar o texto e reportar, ou pela combinação de teclas Ctrl+?
- Usuários de leitor de tela podem alternar o botão de relatório de acessibilidade por parágrafo com Alt+y
- Não reporte apenas pelo motivo de o HTML não parecer igual ao PDF
- O HTML prioriza funcionalidade sobre forma; diferenças de quebra de linha e espaçamento são escolhas de design intencionais
- O HTML é superior ao PDF em termos de compatibilidade com tecnologias assistivas e adaptação entre dispositivos
-
2) Apoiar a melhoria da conversão de LaTeX
- Autores podem melhorar a qualidade da conversão seguindo o Guia de boas práticas de marcação LaTeX da arXiv
- Desenvolvedores podem contribuir para aprimorar a conversão via a lista de issues do projeto LaTeXML
- Sociedades científicas ou editoras podem colaborar revisando arquivos .cls com pacotes não suportados para melhorar a acessibilidade
Agradecimentos aos colaboradores
- O conhecimento e a expertise de cientistas com deficiência tiveram papel importante em todo o projeto
- A implementação de artigos HTML foi possível graças à colaboração entre o LaTeX Project e a equipe LaTeXML do NIST
- Há profunda gratidão pela perícia, a habilidade técnica e o comprometimento com acessibilidade das duas equipes
1 comentários
Opiniões no Hacker News
Como desenvolvedor do arXiv HTML Papers, trago uma breve atualização
Sei que ainda há muitos problemas de qualidade e cobertura na renderização dos artigos. Se encontrar esse tipo de problema, por favor reporte na página de issues do GitHub
A maior limitação é a falta de tempo de desenvolvimento, e a peça central das melhorias no lado do LaTeX continua sendo o LaTeXML
Eu prefiro muito mais ler artigos do arXiv em formato HTML do que em PDF
Dá para aproveitar extensões do navegador como estão, facilitando tradução, anotações, envio para LLMs e várias outras tarefas
Atualmente, o arXiv tem o serviço HTML padrão (https://arxiv.org/html/xxxx.xxxxx) e um serviço alternativo (https://ar5iv.labs.arxiv.org/html/xxxx.xxxxx)
Mas o serviço padrão tem problemas sérios de cobertura; por exemplo, este artigo não funciona. Às vezes isso se resolve ao mudar para o serviço alternativo, mas há casos em que os dois falham (exemplo)
Se o Unicode Consortium tivesse se concentrado mais em suporte a símbolos matemáticos, em vez de emoji, talvez já tivéssemos saído dessa estrutura centrada em (LA)TeX/PDF
OpenType e TrueType já suportam renderização complexa, e fallback de fontes também é possível
O problema não era uma limitação técnica, mas uma decisão de política de que isso “não pertence à camada de símbolos”
Curiosamente, o Gemini 3 Pro força a saída de fórmulas em LaTeX independentemente da configuração. Compartilhei os resultados do experimento aqui
Isso porque Unicode é, por natureza, um sistema de caracteres, não um sistema de layout
Artigos baseados em HTML são totalmente viáveis, mas os pesquisadores ainda insistem no tradicional layout em duas colunas e fontes com serifa
O problema é a cultura de achar que precisa “parecer um artigo de verdade”, acima da acessibilidade móvel ou da legibilidade
Na 1ª etapa, faz-se a pergunta; na 2ª, um modelo pequeno converte a notação LaTeX em expressões Unicode
Artigos em HTML já eram oferecidos há alguns anos
De fato, confirmei no blog oficial que isso foi introduzido em 2023
Porque 90% dos artigos do arXiv são baseados em LaTeX, o que torna a conversão muito difícil
O desafio central é aumentar a acessibilidade mantendo a conversão rápida e automatizada
Como autor que usa com frequência estruturas TeX complexas, a adoção da conversão para HTML aumentou bastante minha carga de trabalho
A conversão também é lenta, e não há uma forma de simular isso localmente
Ainda assim, acho que é uma boa iniciativa para melhorar a acessibilidade
Acho que seria bom se os artigos também fossem oferecidos em formato epub. Não sei se há alguma dificuldade técnica ou se simplesmente falta demanda
Mas nunca vi um leitor que exiba isso de forma tão confortável ou bonita quanto PDF. Recursos de anotação também têm pouca compatibilidade entre plataformas
Como seria ineficiente exigir que o pesquisador também garantisse essa qualidade, se necessário basta usar um conversor de HTML→epub por conta própria
O problema da acessibilidade na pesquisa não é novo, mas este é o momento mais urgente
O arXiv oferecer artigos em HTML junto com PDF pode ser a forma mais rápida de gerar a maior mudança
Minha maior reclamação é a limitação para incorporar vídeos nos artigos
Só dá para anexar como material suplementar ou oferecer por link externo
Gostaria que fosse possível incorporar GIFs ou vídeos diretamente no corpo do artigo
Ao ver a explicação de que “90% são baseados em LaTeX, então a conversão é difícil”, pensei que isso realmente parece um trabalho desafiador. É uma boa iniciativa
Lá por 1998, quando eu era responsável pela edição do jornal da escola, propus migrar de Corel Draw para HTML
No fim, já naquela época abandonamos a adoção do HTML pelos mesmos motivos que aparecem agora nos comentários