1 pontos por GN⁺ 2026-02-05 | 1 comentários | Compartilhar no WhatsApp
  • Foi realizada uma análise forense digital dos documentos PDF divulgados pelo Departamento de Justiça dos EUA sob a Epstein Files Transparency Act, com foco na estrutura e na sintaxe dos arquivos
  • Como resultado da análise, os PDFs dos conjuntos de dados EFTA 01–07 divulgados estão corretamente redigidos (redaction), e as alegações nas redes sociais sobre “redações recuperáveis” não são verdadeiras
  • Todos os PDFs não têm criptografia, anotações, JavaScript nem arquivos anexados e, em sua maioria, são baseados em imagens digitalizadas com OCR aplicado; alguns arquivos contêm metadados ocultos (dictionary)
  • Foram encontrados detalhes técnicos como numeração Bates, fluxos de objetos não comprimidos, indicação incorreta de versão e anotações ausentes, mas isso não afeta significativamente a validade dos arquivos
  • Este caso mostra a complexidade da perícia forense em PDF e os limites de confiabilidade das ferramentas, além de destacar a importância de fluxos de saneamento e redação precisos antes da divulgação de documentos sensíveis

Visão geral dos dados divulgados pelo DoJ

  • Em 19 de dezembro de 2025, o Departamento de Justiça divulgou 7 arquivos ZIP (total de 2,97 GB), contendo 4.085 PDFs, 1 arquivo AVI e arquivos de dados .DAT e .OPT para cada conjunto
    • Os nomes dos PDFs vão sequencialmente de EFTA00000001.pdf até EFTA00009664.pdf
    • Foi confirmado que cerca de 5.879 PDFs ainda não foram divulgados
  • Os PDFs são, em sua maioria, documentos baseados em imagens digitalizadas, com algum texto pesquisável incluído por OCR
    • Foi aplicada redação no formato de “caixa preta”, confirmada como corretamente realizada em nível de pixel
    • Não foram encontrados documentos born-digital

Validade dos arquivos e análise de versão

  • Os resultados da validação com várias ferramentas forenses de PDF encontraram apenas um erro leve
    • Em 109 arquivos, o valor FontDescriptor Descent estava definido como positivo, mas isso é um pequeno erro de correspondência de fonte e não afeta a validade geral
  • A comparação entre dois tipos da ferramenta pdfinfo mostrou leituras divergentes da versão do PDF
    • A Ferramenta A relatou 209 arquivos na versão 1.3 e 3.875 na versão 1.5
    • A Ferramenta B relatou 3.817 arquivos na versão 1.3 e 267 na versão 1.5
    • A diferença se deve ao modo como cada uma trata o campo Version em incremental update; o resultado da Ferramenta A está correto
  • Todos os PDFs não têm criptografia, tags, anotações, marcadores, formulários, JavaScript nem anexos
    • O total é de 9.659 páginas, e a maioria dos documentos tem uma única página

Atualizações incrementais e numeração Bates

  • Os PDFs armazenam o histórico de alterações por meio de várias atualizações incrementais
    • O primeiro PDF (EFTA00000001.pdf) inclui 2 atualizações incrementais
    • Na atualização final, a numeração Bates foi adicionada a cada página
  • A adição da numeração Bates usa um fluxo de referência cruzada /Type /XRef, e o mesmo padrão foi observado em todos os PDFs de amostra
  • Na primeira atualização incremental, a versão do PDF mudou de 1.3 para 1.5, mas há um erro técnico por inconsistência com o cabeçalho
    • Também existe um dicionário de informações do documento oculto (Info dictionary), mas como ele não é referenciado no trailer final, não aparece em visualizadores PDF comuns
    • Esse dicionário inclui as informações /Creator (OmniPage CSDK 21.1) e /Producer (Processing-CLI)

Metadados e análise de datas

  • Segundo o pdfinfo, a maioria dos PDFs não tem metadados explícitos nem fluxo XMP
    • Ainda assim, alguns arquivos têm orphaned Info dictionary, com o campo /Info aparecendo várias vezes
  • Apenas o arquivo EFTA00003212.pdf inclui os campos Title, Author, Subject, Keywords, Creator
    • Há 215 arquivos em que o valor de /Producer aparece como “pypdf”
  • A data de criação (CreationDate) e a data de modificação (ModDate) são idênticas e ficam entre 18 e 19 de dezembro de 2025
    • Isso sugere que o processamento em lote do DoJ durou cerca de 36 horas

Imagens e características das digitalizações

  • Em todos os PDFs, não há imagens JPEG (DCTDecode); em vez disso, são usados bitmaps comprimidos com FLATE
    • A resolução é de cerca de 96 DPI, e a paleta de cores é limitada a 256 cores
    • Supõe-se que isso tenha como objetivo remover metadados EXIF, IPTC e XMP
  • Alguns documentos mostram marcas reais de digitalização (bordas do papel, furos, rabiscos etc.), enquanto outros parecem ser imagens renderizadas digitalmente e depois simuladas como digitalização
    • É possível distingui-los pela mesma inclinação (skew) e pela ausência de ruído
  • Devido ao uso da fonte monoespaçada Courier, existe o risco de estimar a quantidade de caracteres redigidos contando os espaços ocupados

Qualidade do OCR e precisão da redação

  • O resultado do OCR tem baixa precisão e não possui recurso de reconhecimento de idioma, ficando em um nível simples de reconhecimento de caracteres
    • O texto OCR do primeiro PDF (EFTA00000001.pdf) é majoritariamente impreciso
  • A redação em “caixa preta” foi aplicada diretamente no nível dos pixels da imagem, e não como uma cobertura retangular sobre objetos de texto
    • Portanto, não existe texto recuperável

Conclusão e implicações

  • O pipeline de geração de PDFs do DoJ é composto por remoção de JPEG, minimização de metadados, renderização baseada em imagem e aplicação de OCR
    • Ainda assim, objetos desnecessários, fluxos vazios e resíduos de atualizações incrementais aumentam o tamanho e a complexidade dos arquivos
  • Permanecem alguns comentários de PDF e objetos órfãos, o que pode criar possibilidade de vazamento de informações
  • A perícia forense em PDF tem alto risco de interpretações erradas devido às diferenças entre ferramentas e à complexidade do formato
    • Para isso, a PDF Association opera o PDF Forensic Liaison Working Group, promovendo padronização do setor e educação contínua

1 comentários

 
GN⁺ 2026-02-05
Comentários do Hacker News
  • Descobriram que alguns documentos parecem digitalizações reais, mas na verdade são PDFs artificiais sem nenhum ruído físico
    Como todas as páginas têm a mesma inclinação (skew) e bordas perfeitas, parece que renderizaram o documento digital original como imagem e depois aplicaram pós-processamento, como inclinação, redução de escala e redução de cores

    • A verdadeira curiosidade é quais documentos são essas "falsas digitalizações" e que tipo de narrativa política isso pretende reforçar
      Quem faz esse tipo de coisa provavelmente quer fazer imagens geradas por IA ou materiais manipulados parecerem autênticos
    • Para quem usa GNOME Desktop, dá para colocar um script Bash em ~/.local/share/nautilus/ e criar um PDF de falsa digitalização direto pelo menu de clique direito
      Não lembro a fonte original, mas acho que vi isso no Stack Exchange. O comando magick aplica rotação, ruído, conversão para tons de cinza e afins
    • Fazer isso desse jeito é estranho. Seria muito mais fácil simplesmente imprimir o documento e digitalizá-lo de novo
    • O documento citado em especial parece ser o material da entrevista do DoJ com A. Acosta em 2019.
      Se for autêntico, fica a dúvida de por que o FBI o disfarçou como se fosse uma digitalização. Será que há alguma parte do acordo entre Epstein e Acosta que eles não queriam divulgar
      Link do PDF relacionado
    • Eu também faço algo parecido às vezes. Quando me pedem assinatura, assino uma folha em branco, digitalizo e depois sobreponho o documento por cima para enviar mais tarde
  • Acho que o DOJ divulgar uma cópia modificada em vez do original é um problema legal
    O software usado, OmniPage CSDK 21.1, remove todos os metadados e também apaga arquivos criptografados

  • Fiquei curioso se alguém já analisou o estilo de escrita de Epstein (JE) e comparou com postagens em lugares como o 4chan
    Deve haver dados suficientes da Ghislaine também; não acredito na alegação sobre MaxwellHill, mas talvez exista alguma pista ali

    • Já houve um projeto de estilometria que analisava o estilo de escrita de usuários do HN para encontrar contas parecidas
      Post relacionado
      O site saiu do ar por questões de privacidade, mas a precisão era alta. Isso até me fez querer criar um assistente de navegador com IA que estilize meus comentários de forma aleatória
    • Ainda assim, continuo cético. Só com estilo de escrita e vocabulário, gente demais acaba se sobrepondo, então me parece difícil identificar alguém com precisão
      Mas os e-mails do Epstein são tão peculiares que talvez sejam uma exceção
    • Na prática, a estilometria é sofisticada a ponto de identificar autores só com análise de n-gramas
      Link da demo no HN
      Esse tipo de método também distingue bem textos gerados por IA. Acho muito melhor do que treinar uma abordagem baseada em “transformers para detectar IA”
    • A escrita do Epstein tem quase um nível de dislexia, de tão mal construída
      Pode ser que pessoas da alta cúpula, por quase nunca escreverem diretamente, acabem perdendo a capacidade de estruturar frases, ou talvez seja uma linguagem interna deles
  • Achei engraçado que, no pop-up de cookies desta página, o botão de rejeitar aparece como "Continue without consent"

    • Parece mesmo uma formulação pensada para fazer o usuário se sentir culpado
    • É irônico um site sobre Epstein se comportar como o Epstein
  • Informações podem estar vazando por meio de objetos órfãos em anotações de PDF ou dentro de fluxos de objetos compactados
    Espero que alguém esteja arquivando todos os documentos de forma independente. Alguns aparentemente já foram apagados

    • No Reddit, postagens relacionadas também estão sendo apagadas ou shadowbanned
      Mas a discussão continua na comunidade do Lemmy
    • Alguns documentos podem ter passado por ocultação adicional porque incluem nomes de vítimas
    • No começo, a página do Epstein Files Transparency Act tinha links .zip para todos os conjuntos de dados,
      em certo momento eles sumiram todos, e agora a maior parte foi restaurada
  • No momento estou comparando com os resultados de OCR fornecidos pelo DOJ usando o modelo allenai/olmocr-2-7b
    São cerca de 500 mil imagens, então leva bastante tempo. Ainda assim, a taxa de reconhecimento do olmocr-2-7b é bem alta

    • Fiquei curioso se já tentaram reduzir o tamanho das imagens para melhorar o desempenho.
      Também queria saber abaixo de que tamanho o reconhecimento de texto começa a ficar difícil
  • Fiquei curioso sobre por que alguns arquivos recentes têm caracteres '=' aleatórios
    Não parece erro de OCR, e dá a impressão de que foi feito para dificultar buscas

    • Ontem apareceu um post relacionado na capa do HN: link
    • Na verdade, isso acontece por causa de um erro no processamento da codificação quoted-printable de e-mails
      O desenvolvedor do gnus, Lars Ingebrigtsen, explicou isso no blog dele
  • Em alguns PDFs, anexos codificados em Base64 aparecem diretamente no corpo do texto
    A qualidade do OCR é tão ruim que recuperar isso exigiria um esforço considerável
    PDF de exemplo,
    thread relacionada no Reddit

    • Fiquei curioso se apenas alguns bytes com erro já podem tornar impossível recuperar o binário
  • Pessoalmente, o que acho mais interessante são as contas bancárias de Epstein
    A questão central é quem deu dinheiro a ele e quem recebeu dinheiro dele

    • O DOJ provavelmente já sabe dessas informações ou poderia verificá-las imediatamente se quisesse
    • Mas a análise de causa raiz do rastreamento financeiro não é divulgada ao público
      Em vez disso, só se divulga o suficiente para direcionar a opinião pública para o ódio entre grupos específicos
  • Acesso bloqueado pela Cloudflare