Diário Oficial legível por IA - 128 mil edições do Diário Oficial da Coreia do Sul, de PDF para um corpus em Markdown

(github.com/hosungseo)

16 pontos por hosungseo2026 2026-04-19 | 2 comentários | Compartilhar no WhatsApp

O Diário Oficial do nosso país já é público. Dá para baixá-lo em PDF no portal de dados públicos, e não há censura. Mas então por que pesquisadores, jornalistas, desenvolvedores, organizações civis e servidores públicos estão sempre tendo que fazer o parsing do mesmo Diário Oficial por conta própria, repetidamente?
Um corpus derivado do Diário Oficial da Coreia do Sul, legível por pessoas e por IA, com cerca de 128 mil edições do Diário Oficial da Coreia do Sul (2020.01.02 ~ 2026.04.07, 1.474 grupos por data) reindexadas em Markdown e com correções cumulativas de OCR baseadas em dicionário
O autor é um oficial administrativo do governo central
Leitor ao vivo: https://hosungseo.github.io/ai-readable-gazette-kr/

Os limites da divulgação para humanos

A distância entre “está público” e “um agente de IA consegue usar” é maior do que parece
Em PDF, não dá para comparar por artigo, é difícil filtrar por órgão, data ou caso, o OCR quebra, e a estrutura das tabelas se perde
Como resultado, o custo de pré-processamento continua sendo repassado para o lado do usuário (ou agente). Jornalistas, pesquisadores e servidores estão desmontando o mesmo PDF de novo, cada um por si
A próxima etapa da transparência não é “divulgar mais”, mas “fazer com que a máquina consiga ler a mesma coisa”

O que está incluído

derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md — 128.403 arquivos Markdown com correção concluída
No frontmatter, title / publisher / date / source_raw_md — dá para fazer chunk → embedding → RAG diretamente
docs/data/meta.json, dates/YYYY-MM-DD.json, titles.json — índices JSON estáticos. Podem ser buscados de sites externos via fetch sem restrição de CORS
O leitor ao vivo é HTML puro que abre sem ferramenta de build (inclui busca, heatmap, TOC, modo escuro e atalhos de teclado)
Cobertura por órgão: ministérios e órgãos centrais ~108.800 casos, Judiciário ~7.700, educação ~4.100, governos locais ~3.300 etc., em cerca de 1.600 órgãos

OCR: sobre open source nacional

Para OCR de extração de texto de PDF, foi usada a ferramenta open source da Hancom chamada opendataloader
A escolha foi intencional em vez de outras ferramentas. Como o trabalho lida com dados públicos do Diário Oficial, pareceu adequado que a ferramenta também rodasse sobre open source nacional
Se o próprio opendataloader evoluir, os caracteres quebrados também devem diminuir, e o dicionário de correção naturalmente ficará mais leve
Uma estrutura em que, se a ferramenta melhora, o corpus melhora junto

Uma camada a mais sobre o PDF

Publicar em PDF é uma escolha legítima do ponto de vista de prevenção contra adulteração. O fato de o original ser PDF em si não é o problema
A solução não é “acabar com a divulgação em PDF”, mas “manter o PDF como original e acrescentar por cima uma camada derivada legível por IA”
Este repositório não apaga nem substitui o texto original. O PDF original permanece como está, e acima dele se acumula apenas um corpus derivado para leitura, em uma estrutura de duas camadas

2 comentários

meta1001 11 일 전

Muito bom. Isso significa que a IA pode analisar em tempo real e gerar resultados sobre como as políticas que estão sendo promovidas nos briefings oficiais de políticas públicas mudam nas políticas nacionais e na legislação.

limhasic 2026-04-20

Hehe, e o que dá pra fazer com isso?

Diário Oficial legível por IA - 128 mil edições do Diário Oficial da Coreia do Sul, de PDF para um corpus em Markdown

Leituras relacionadas

2 comentários