Introdução
- Na sociedade moderna, a tecnologia de inteligência artificial vem impulsionando inovações em diversas áreas, e a importância dos dados está aumentando.
- O formato HWP possui elementos favoráveis ao treinamento de IA.
- Além de texto simples, ele é composto por diversos elementos como imagens, tabelas e gráficos, oferecendo informações ricas.
- Como é estruturado em diferentes formatos, como títulos, parágrafos e tabelas, isso pode ajudar modelos de IA a compreender e analisar documentos.
- Neste artigo, vamos examinar a estrutura do formato HWP e a forma como as informações do documento são armazenadas.
O que é o formato HWP?
- O formato HWP é um formato de documento desenvolvido pela Hancom, apresentado pela primeira vez em 1997.
- Esse formato é composto por CFB (Compound File Binary File Format) e armazena vários fluxos de dados em um único arquivo.
- Um arquivo HWP inclui informações como File Header, DocInfo, DocOptions, BodyText, Script, HwpSummaryInformation, PrvImage e PrvText.
1. File Header
- O cabeçalho do arquivo HWP inclui informações de reconhecimento do documento Han/Geul.
- Ele contém informações de assinatura, versão do documento e identificação do arquivo, e com isso é possível determinar o tipo de documento HWP.
2. DocInfo
- É o fluxo que contém informações comuns usadas no documento, como fontes, propriedades de caracteres e propriedades de parágrafo.
- O DocInfo é armazenado comprimido com zlib, e ao descompactá-lo é possível verificar os dados originais.
- Vários tipos de informação são armazenados em formato de registro.
3. DocOptions
- Informações como documentos vinculados, documentos para distribuição e certificados digitais são armazenadas como fluxos.
4. BodyText (Section)
- Armazena o conteúdo real correspondente ao corpo do documento.
- É composto por vários fluxos Section, de acordo com a quantidade de seções do corpo do texto.
5. Script
- É o armazenamento onde ficam registradas as informações de script definidas no recurso de macro de script.
6. HwpSummaryInformation
- Armazena informações de resumo do documento e usa a estrutura PropertySet da Microsoft.
7. PrvImage
- É a imagem de visualização do documento, na qual a imagem da primeira página é armazenada.
8. PrvText
- É o texto de visualização do documento, no qual o conteúdo da primeira página é armazenado como string Unicode.
Conclusão
- O formato HWP é armazenado em formato binário, o que dificulta a leitura direta por pessoas, e foi projetado para permitir visualização e edição apenas em softwares específicos.
- Por outro lado, o formato HWPX é baseado em Open XML, com os dados estruturados de forma a permitir que pessoas compreendam facilmente o conteúdo.
- No próximo artigo, veremos de que forma o formato HWPX armazena informações de maneira diferenciada em relação ao formato HWP.
13 comentários
Sou o hahnlee, que desenvolveu o hwp.js (https://github.com/hahnlee/hwp.js) :)
Quando desenvolvi esse projeto, e ainda hoje, não gosto muito de HWP. Especialmente no que diz respeito ao nível de abertura.
Ainda assim, concordo até certo ponto com a parte de que o "formato HWP tem elementos favoráveis para treinamento de IA".
Falando com base na experiência de quando construí um RAG, na Coreia usa-se muitas tabelas, em especial. No caso de PDF, como é um formato feito pensando em impressão, não existe "tabela" dentro do PDF. Há apenas linhas e texto.
Por isso, extrair dados de informações tabulares complexas era difícil com base em documentos PDF. Especialmente quando a tabela se estendia para a página seguinte.
Fazendo uma analogia grosseira, se o HWP parece uma espécie de documento de rich text, o PDF dava a sensação de ser um documento txt. Claro, isso se limita ao caso de "tabelas".
Mas isso é uma grande vantagem específica do formato HWP? Acho que não. Para coisas simples, Markdown já basta, e se for algo mais complexo, acho melhor definir em HTML.
E, decisivamente, docx e odt também têm a mesma vantagem.
Depois que a Netscape foi completamente atropelada pelo IE, saiu liberando o código-fonte e correndo atrás do prejuízo com atraso, né.
Não gosto de hwp e não tenho coisas boas a dizer sobre os produtos da atual empresa Hancom, mas acho que no passado o produto em si era um software muito melhor do que o Word.
Eu também acho que, até o lançamento do Hancom Hangul 97, era um software excelente.
Hein?
Uma existência infeliz que não conseguiu se tornar um padrão mundial
Aprendi a usar processador de texto com o Hangul Word Processor, mas acho que agora ele não passa de uma relíquia que deveria desaparecer pelo desenvolvimento da Coreia do Sul.
Comparado ao MS Word ou ao LibreOffice, o Hancom Hangul era muito mais prático para criar documentos exatamente do jeito que eu queria. E, na hora de distribuir, bastava exportar em PDF.
Claro, talvez eu sinta isso mais por já estar acostumado com o Hangul.
"O formato HWP tem elementos vantajosos para o treinamento de IA"
Isso é verdade mesmo..?
Acho melhor a IA focar o treinamento em PDF, e o HWP seria melhor investir em um bom conversor para PDF mesmo haha
Eu também li essa parte e achei estranho, mas entendi quando vi o domínio original kkk
Ahá... agora entendi... kkkkkkkk
Não consigo me identificar muito com isso. Se fosse o
hwpxmencionado no texto, talvez...