Diário Oficial legível por IA - 128 mil edições do Diário Oficial da Coreia do Sul, de PDF para um corpus em Markdown
(github.com/hosungseo)O Diário Oficial do nosso país já é público. Dá para baixá-lo em PDF no portal de dados públicos, e não há censura. Mas então por que pesquisadores, jornalistas, desenvolvedores, organizações civis e servidores públicos estão sempre tendo que fazer o parsing do mesmo Diário Oficial por conta própria, repetidamente?
Um corpus derivado do Diário Oficial da Coreia do Sul, legível por pessoas e por IA, com cerca de 128 mil edições do Diário Oficial da Coreia do Sul (2020.01.02 ~ 2026.04.07, 1.474 grupos por data) reindexadas em Markdown e com correções cumulativas de OCR baseadas em dicionário
O autor é um oficial administrativo do governo central
Leitor ao vivo: https://hosungseo.github.io/ai-readable-gazette-kr/
Os limites da divulgação para humanos
- A distância entre “está público” e “um agente de IA consegue usar” é maior do que parece
- Em PDF, não dá para comparar por artigo, é difícil filtrar por órgão, data ou caso, o OCR quebra, e a estrutura das tabelas se perde
- Como resultado, o custo de pré-processamento continua sendo repassado para o lado do usuário (ou agente). Jornalistas, pesquisadores e servidores estão desmontando o mesmo PDF de novo, cada um por si
- A próxima etapa da transparência não é “divulgar mais”, mas “fazer com que a máquina consiga ler a mesma coisa”
O que está incluído
derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md— 128.403 arquivos Markdown com correção concluída- No frontmatter,
title / publisher / date / source_raw_md— dá para fazer chunk → embedding → RAG diretamente docs/data/meta.json,dates/YYYY-MM-DD.json,titles.json— índices JSON estáticos. Podem ser buscados de sites externos via fetch sem restrição de CORS- O leitor ao vivo é HTML puro que abre sem ferramenta de build (inclui busca, heatmap, TOC, modo escuro e atalhos de teclado)
- Cobertura por órgão: ministérios e órgãos centrais ~108.800 casos, Judiciário ~7.700, educação ~4.100, governos locais ~3.300 etc., em cerca de 1.600 órgãos
OCR: sobre open source nacional
- Para OCR de extração de texto de PDF, foi usada a ferramenta open source da Hancom chamada opendataloader
- A escolha foi intencional em vez de outras ferramentas. Como o trabalho lida com dados públicos do Diário Oficial, pareceu adequado que a ferramenta também rodasse sobre open source nacional
- Se o próprio opendataloader evoluir, os caracteres quebrados também devem diminuir, e o dicionário de correção naturalmente ficará mais leve
- Uma estrutura em que, se a ferramenta melhora, o corpus melhora junto
Uma camada a mais sobre o PDF
- Publicar em PDF é uma escolha legítima do ponto de vista de prevenção contra adulteração. O fato de o original ser PDF em si não é o problema
- A solução não é “acabar com a divulgação em PDF”, mas “manter o PDF como original e acrescentar por cima uma camada derivada legível por IA”
- Este repositório não apaga nem substitui o texto original. O PDF original permanece como está, e acima dele se acumula apenas um corpus derivado para leitura, em uma estrutura de duas camadas
2 comentários
Muito bom. Isso significa que a IA pode analisar em tempo real e gerar resultados sobre como as políticas que estão sendo promovidas nos briefings oficiais de políticas públicas mudam nas políticas nacionais e na legislação.
Hehe, e o que dá pra fazer com isso?