Lista de ferramentas open source para processar HWP/HWPX
(ko.wikipedia.org)A Wikipédia não é um quadro de anúncios para apresentar ou promover algo. Mas me pareceu que, em um curto período, o surgimento de tantas bibliotecas pode ser visto como um fenômeno que ajuda a definir esta era.
Por isso, registrei esse fenômeno atual em um documento e organizei as ferramentas open source de HWP/HWPX lançadas até agora, publicando o material no MediaWiki.
Lista de ferramentas open source para processar HWP/HWPX
HWP (Hanword Word Processor) e seu formato sucessor, HWPX, são formatos de documento amplamente usados em órgãos públicos e no setor educacional da Coreia. Como o Hancom Office Hanword se consolidou como padrão de fato, por muito tempo houve a limitação de que, para lidar com esses formatos de forma programática, era necessário ter o Hancom Office instalado em um ambiente Windows.
No início dos anos 2010, Kim Hodong desenvolveu sozinho ruby-hwp, libhwp, evince-hwp e outros projetos, estabelecendo a primeira base do ecossistema open source de HWP. No entanto, em 2013, por causa do incidente do libhwp, ele passou a sentir desilusão com o desenvolvimento open source e, com o agravamento de sua saúde, interrompeu todos os projetos e se afastou.[1][2] Depois disso, por um tempo, as atividades open source nessa área continuaram apenas de forma esporádica.
Por volta de 2024, a situação mudou. Com a disseminação da IA generativa, aumentou rapidamente a demanda por inserir documentos HWP/HWPX em pipelines de IA ou processá-los com ferramentas de automação. Com isso, em pouco tempo surgiram várias ferramentas open source que funcionam sem o Hancom Office, em formas diversas que vão de bibliotecas implementadas em Python, Rust e TypeScript a CLI, servidores MCP e editores web.
A tabela abaixo organiza as principais ferramentas open source de HWP/HWPX atualmente públicas.
(A tabela organizada pode ser consultada no link do MediaWiki.)
Para Kim Hodong
Em 2013, um desenvolvedor, sozinho, construiu praticamente toda a base para lidar com arquivos Hanword em open source, com projetos como ruby-hwp, libhwp e evince-hwp. Devido ao incidente do libhwp, ele se desiludiu com o desenvolvimento open source e, com o agravamento de sua saúde, encerrou os projetos e partiu. As ferramentas listadas neste documento só puderam existir porque Hodong primeiro enxergou essa possibilidade e abriu o caminho. Este documento foi criado para prestar homenagem a esse trabalho pioneiro.
9 comentários
Por que o documento da wiki desapareceu?
Pelo que vi, parece que o Sr. Kim Ho-dong já passou por um estresse enorme em 2019 também. Lendo o texto, dá para ver que havia gente folgada e sem noção demais. (Ainda deve ter, né?)
https://hamonikr.org/Free_Board/63139
Acho que também é preciso ouvir o outro lado.
Isso já é bem conhecido. Em 2011, 2013, 2016 e 2019, coisas parecidas aconteceram com a mesma pessoa. Essa pessoa continua anunciando a interrupção do projeto e até a descontinuação do open source, criticando quem enviou bug reports ao projeto, e depois de algum tempo recomeçando de novo, repetindo isso várias vezes. Não sei se pesquisa muito o próprio nome, mas fica fazendo busca por palavras-chave em todo tipo de fórum e wiki, em qualquer lugar onde haja conversa relacionada. (Pode ser que entre aqui também ao ver este comentário.)
Será que, só por ser desenvolvedor, o certo é acreditar no que ele diz e compreender?
Obrigado pelo comentário. Então essas coisas aconteceram. Pelo visto, o que eu vi não era tudo. Agradeço mais uma vez por trazer informações de outra perspectiva.
Como o código existente ainda permanece, é possível verificar diretamente qual é a implementação.
https://gitlab.com/sebuls/libhwp
rip
BckHWP. Automação em Excel VBA
https://m.blog.naver.com/husky81/222045248589
Nossa, quando eu tinha visto isso em 2020, não havia muitas bibliotecas capazes de lidar com HWP, mas recentemente esse número aumentou de forma explosiva.
Não foi exatamente por causa do libhwp; o problema maior era aquele grupo lixo. Não tem sujeito na frase; se você ficou com raiva ao ler, o problema é seu