2 pontos por GN⁺ 2025-12-08 | 1 comentários | Compartilhar no WhatsApp
  • A arXiv começou a disponibilizar artigos no formato HTML, juntamente com o PDF, para aumentar a acessibilidade da pesquisa
  • De mais de 2 milhões de artigos, parte deles ainda não possui versão em HTML devido a limitações da conversão automática, e a qualidade da conversão está em melhoria contínua
  • O HTML é vantajoso em acessibilidade por ter alta compatibilidade com tecnologias assistivas, como leitores de tela, conversão de texto para fala e dispositivos móveis
  • A comunidade pode participar diretamente do projeto por meio de reportes de erros e melhoria da conversão de LaTeX
  • Esta iniciativa mostra a direção de longo prazo da arXiv para ampliar a inclusão e acessibilidade da pesquisa científica

Visão geral da disponibilização de artigos em formato HTML

  • A arXiv está introduzindo o formato de artigo HTML, além do PDF tradicional, para elevar a acessibilidade da pesquisa
    • Segundo o feedback da comunidade, fornecer HTML foi avaliado como a medida com maior impacto em curto prazo
  • A versão HTML é exibida abaixo do link de download do PDF na página de resumo do artigo
    • O autor pode conferir a prévia HTML de seu próprio artigo durante o processo de submissão
  • A arXiv está adicionando HTML gradualmente para mais de 2 milhões de artigos, e algumas submissões ainda não recebem HTML por falha de conversão
  • O lançamento beta do HTML está na fase inicial, e a melhoria da qualidade da conversão de LaTeX e a coleta de feedback continuam em andamento

Por que foi chamado de HTML “experimental”

  • Mais de 90% das submissões da arXiv são em TeX (principalmente LaTeX), e isso gera desafios técnicos para converter com precisão para HTML
    • O LaTeX é altamente extensível e cada autor o utiliza de forma diferente
    • O HTML tem ótima compatibilidade com leitores de tela, conversão de texto em fala, ampliadores de tela e dispositivos móveis
  • A conversão precisa manter automação e velocidade, então uma renderização perfeita é difícil
  • O HTML foi lançado como “experimental” por dois motivos:
    1. Artigos acessíveis são necessários agora — pesquisadores com exigências de acessibilidade pediram que o lançamento não fosse adiado
    2. É necessário o apoio da comunidade — para receber relatos de erros de conversão e rastrear problemas de pacotes específicos de LaTeX

Erros possíveis em artigos em HTML

  • Os artigos em HTML ainda são um trabalho em andamento, e podem ocorrer erros de conversão ou problemas de renderização
  • O arXiv compartilha as causas dos erros e formas de os autores minimizá-los
  • Detalhes adicionais podem ser encontrados em uma página separada

Como participar da comunidade

  • 1) Ler artigos em HTML e reportar problemas

    • Clique no link HTML na página de resumo do artigo de interesse para visualizá-lo
    • O relato de problemas pode ser feito pelo botão Open Issue, por selecionar o texto e reportar, ou pela combinação de teclas Ctrl+?
    • Usuários de leitor de tela podem alternar o botão de relatório de acessibilidade por parágrafo com Alt+y
    • Não reporte apenas pelo motivo de o HTML não parecer igual ao PDF
    • O HTML prioriza funcionalidade sobre forma; diferenças de quebra de linha e espaçamento são escolhas de design intencionais
    • O HTML é superior ao PDF em termos de compatibilidade com tecnologias assistivas e adaptação entre dispositivos
  • 2) Apoiar a melhoria da conversão de LaTeX

    • Autores podem melhorar a qualidade da conversão seguindo o Guia de boas práticas de marcação LaTeX da arXiv
    • Desenvolvedores podem contribuir para aprimorar a conversão via a lista de issues do projeto LaTeXML
    • Sociedades científicas ou editoras podem colaborar revisando arquivos .cls com pacotes não suportados para melhorar a acessibilidade

Agradecimentos aos colaboradores

  • O conhecimento e a expertise de cientistas com deficiência tiveram papel importante em todo o projeto
  • A implementação de artigos HTML foi possível graças à colaboração entre o LaTeX Project e a equipe LaTeXML do NIST
  • Há profunda gratidão pela perícia, a habilidade técnica e o comprometimento com acessibilidade das duas equipes

1 comentários

 
GN⁺ 2025-12-08
Opiniões no Hacker News
  • Como desenvolvedor do arXiv HTML Papers, trago uma breve atualização
    Sei que ainda há muitos problemas de qualidade e cobertura na renderização dos artigos. Se encontrar esse tipo de problema, por favor reporte na página de issues do GitHub
    A maior limitação é a falta de tempo de desenvolvimento, e a peça central das melhorias no lado do LaTeX continua sendo o LaTeXML

  • Eu prefiro muito mais ler artigos do arXiv em formato HTML do que em PDF
    Dá para aproveitar extensões do navegador como estão, facilitando tradução, anotações, envio para LLMs e várias outras tarefas
    Atualmente, o arXiv tem o serviço HTML padrão (https://arxiv.org/html/xxxx.xxxxx) e um serviço alternativo (https://ar5iv.labs.arxiv.org/html/xxxx.xxxxx)
    Mas o serviço padrão tem problemas sérios de cobertura; por exemplo, este artigo não funciona. Às vezes isso se resolve ao mudar para o serviço alternativo, mas há casos em que os dois falham (exemplo)

  • Se o Unicode Consortium tivesse se concentrado mais em suporte a símbolos matemáticos, em vez de emoji, talvez já tivéssemos saído dessa estrutura centrada em (LA)TeX/PDF
    OpenType e TrueType já suportam renderização complexa, e fallback de fontes também é possível
    O problema não era uma limitação técnica, mas uma decisão de política de que isso “não pertence à camada de símbolos”
    Curiosamente, o Gemini 3 Pro força a saída de fórmulas em LaTeX independentemente da configuração. Compartilhei os resultados do experimento aqui

    • Por melhor que lide com sobrescritos e subscritos, expressões matemáticas básicas como frações ou parênteses ajustáveis continuam impossíveis
      Isso porque Unicode é, por natureza, um sistema de caracteres, não um sistema de layout
    • Expressões matemáticas são muito mais complexas do que emoji. Acho difícil até comparar
    • É surpreendente que só o Gemini 3 tenha esse problema. A maioria dos LLMs provavelmente também é centrada em LaTeX, então isso parece até um resultado natural como padrão
    • Na verdade, dizer que “precisamos de LaTeX por causa da matemática” não passa de uma desculpa antiga
      Artigos baseados em HTML são totalmente viáveis, mas os pesquisadores ainda insistem no tradicional layout em duas colunas e fontes com serifa
      O problema é a cultura de achar que precisa “parecer um artigo de verdade”, acima da acessibilidade móvel ou da legibilidade
    • Proponho uma abordagem em duas etapas.
      Na 1ª etapa, faz-se a pergunta; na 2ª, um modelo pequeno converte a notação LaTeX em expressões Unicode
  • Artigos em HTML já eram oferecidos há alguns anos
    De fato, confirmei no blog oficial que isso foi introduzido em 2023

    • Por que HTML “experimental”?
      Porque 90% dos artigos do arXiv são baseados em LaTeX, o que torna a conversão muito difícil
      O desafio central é aumentar a acessibilidade mantendo a conversão rápida e automatizada
    • Há documentação relacionada na página de documentação no GitHub. Foi mencionado que é preciso a tag de 2023
  • Como autor que usa com frequência estruturas TeX complexas, a adoção da conversão para HTML aumentou bastante minha carga de trabalho
    A conversão também é lenta, e não há uma forma de simular isso localmente
    Ainda assim, acho que é uma boa iniciativa para melhorar a acessibilidade

  • Acho que seria bom se os artigos também fossem oferecidos em formato epub. Não sei se há alguma dificuldade técnica ou se simplesmente falta demanda

    • epub é, na prática, baseado em HTML
      Mas nunca vi um leitor que exiba isso de forma tão confortável ou bonita quanto PDF. Recursos de anotação também têm pouca compatibilidade entre plataformas
    • epub no fim das contas é HTML/CSS bem lapidado
      Como seria ineficiente exigir que o pesquisador também garantisse essa qualidade, se necessário basta usar um conversor de HTML→epub por conta própria
    • Também existe a dúvida: “por que epub é necessário?” Afinal, continua sendo HTML
  • O problema da acessibilidade na pesquisa não é novo, mas este é o momento mais urgente
    O arXiv oferecer artigos em HTML junto com PDF pode ser a forma mais rápida de gerar a maior mudança

    • Fiquei grato ao ver meu preprint em HTML. Também gostaria de saber como a comunidade pode contribuir
  • Minha maior reclamação é a limitação para incorporar vídeos nos artigos
    Só dá para anexar como material suplementar ou oferecer por link externo
    Gostaria que fosse possível incorporar GIFs ou vídeos diretamente no corpo do artigo

  • Ao ver a explicação de que “90% são baseados em LaTeX, então a conversão é difícil”, pensei que isso realmente parece um trabalho desafiador. É uma boa iniciativa

  • Lá por 1998, quando eu era responsável pela edição do jornal da escola, propus migrar de Corel Draw para HTML
    No fim, já naquela época abandonamos a adoção do HTML pelos mesmos motivos que aparecem agora nos comentários