- Foi realizada uma análise forense digital dos documentos PDF divulgados pelo Departamento de Justiça dos EUA sob a Epstein Files Transparency Act, com foco na estrutura e na sintaxe dos arquivos
- Como resultado da análise, os PDFs dos conjuntos de dados EFTA 01–07 divulgados estão corretamente redigidos (redaction), e as alegações nas redes sociais sobre “redações recuperáveis” não são verdadeiras
- Todos os PDFs não têm criptografia, anotações, JavaScript nem arquivos anexados e, em sua maioria, são baseados em imagens digitalizadas com OCR aplicado; alguns arquivos contêm metadados ocultos (dictionary)
- Foram encontrados detalhes técnicos como numeração Bates, fluxos de objetos não comprimidos, indicação incorreta de versão e anotações ausentes, mas isso não afeta significativamente a validade dos arquivos
- Este caso mostra a complexidade da perícia forense em PDF e os limites de confiabilidade das ferramentas, além de destacar a importância de fluxos de saneamento e redação precisos antes da divulgação de documentos sensíveis
Visão geral dos dados divulgados pelo DoJ
- Em 19 de dezembro de 2025, o Departamento de Justiça divulgou 7 arquivos ZIP (total de 2,97 GB), contendo 4.085 PDFs, 1 arquivo AVI e arquivos de dados
.DAT e .OPT para cada conjunto
- Os nomes dos PDFs vão sequencialmente de
EFTA00000001.pdf até EFTA00009664.pdf
- Foi confirmado que cerca de 5.879 PDFs ainda não foram divulgados
- Os PDFs são, em sua maioria, documentos baseados em imagens digitalizadas, com algum texto pesquisável incluído por OCR
- Foi aplicada redação no formato de “caixa preta”, confirmada como corretamente realizada em nível de pixel
- Não foram encontrados documentos born-digital
Validade dos arquivos e análise de versão
- Os resultados da validação com várias ferramentas forenses de PDF encontraram apenas um erro leve
- Em 109 arquivos, o valor FontDescriptor Descent estava definido como positivo, mas isso é um pequeno erro de correspondência de fonte e não afeta a validade geral
- A comparação entre dois tipos da ferramenta
pdfinfo mostrou leituras divergentes da versão do PDF
- A Ferramenta A relatou 209 arquivos na versão 1.3 e 3.875 na versão 1.5
- A Ferramenta B relatou 3.817 arquivos na versão 1.3 e 267 na versão 1.5
- A diferença se deve ao modo como cada uma trata o campo Version em incremental update; o resultado da Ferramenta A está correto
- Todos os PDFs não têm criptografia, tags, anotações, marcadores, formulários, JavaScript nem anexos
- O total é de 9.659 páginas, e a maioria dos documentos tem uma única página
Atualizações incrementais e numeração Bates
- Os PDFs armazenam o histórico de alterações por meio de várias atualizações incrementais
- O primeiro PDF (
EFTA00000001.pdf) inclui 2 atualizações incrementais
- Na atualização final, a numeração Bates foi adicionada a cada página
- A adição da numeração Bates usa um fluxo de referência cruzada
/Type /XRef, e o mesmo padrão foi observado em todos os PDFs de amostra
- Na primeira atualização incremental, a versão do PDF mudou de 1.3 para 1.5, mas há um erro técnico por inconsistência com o cabeçalho
- Também existe um dicionário de informações do documento oculto (Info dictionary), mas como ele não é referenciado no trailer final, não aparece em visualizadores PDF comuns
- Esse dicionário inclui as informações
/Creator (OmniPage CSDK 21.1) e /Producer (Processing-CLI)
Metadados e análise de datas
- Segundo o
pdfinfo, a maioria dos PDFs não tem metadados explícitos nem fluxo XMP
- Ainda assim, alguns arquivos têm orphaned Info dictionary, com o campo
/Info aparecendo várias vezes
- Apenas o arquivo
EFTA00003212.pdf inclui os campos Title, Author, Subject, Keywords, Creator
- Há 215 arquivos em que o valor de
/Producer aparece como “pypdf”
- A data de criação (
CreationDate) e a data de modificação (ModDate) são idênticas e ficam entre 18 e 19 de dezembro de 2025
- Isso sugere que o processamento em lote do DoJ durou cerca de 36 horas
Imagens e características das digitalizações
- Em todos os PDFs, não há imagens JPEG (DCTDecode); em vez disso, são usados bitmaps comprimidos com FLATE
- A resolução é de cerca de 96 DPI, e a paleta de cores é limitada a 256 cores
- Supõe-se que isso tenha como objetivo remover metadados EXIF, IPTC e XMP
- Alguns documentos mostram marcas reais de digitalização (bordas do papel, furos, rabiscos etc.), enquanto outros parecem ser imagens renderizadas digitalmente e depois simuladas como digitalização
- É possível distingui-los pela mesma inclinação (skew) e pela ausência de ruído
- Devido ao uso da fonte monoespaçada Courier, existe o risco de estimar a quantidade de caracteres redigidos contando os espaços ocupados
Qualidade do OCR e precisão da redação
- O resultado do OCR tem baixa precisão e não possui recurso de reconhecimento de idioma, ficando em um nível simples de reconhecimento de caracteres
- O texto OCR do primeiro PDF (
EFTA00000001.pdf) é majoritariamente impreciso
- A redação em “caixa preta” foi aplicada diretamente no nível dos pixels da imagem, e não como uma cobertura retangular sobre objetos de texto
- Portanto, não existe texto recuperável
Conclusão e implicações
- O pipeline de geração de PDFs do DoJ é composto por remoção de JPEG, minimização de metadados, renderização baseada em imagem e aplicação de OCR
- Ainda assim, objetos desnecessários, fluxos vazios e resíduos de atualizações incrementais aumentam o tamanho e a complexidade dos arquivos
- Permanecem alguns comentários de PDF e objetos órfãos, o que pode criar possibilidade de vazamento de informações
- A perícia forense em PDF tem alto risco de interpretações erradas devido às diferenças entre ferramentas e à complexidade do formato
- Para isso, a PDF Association opera o PDF Forensic Liaison Working Group, promovendo padronização do setor e educação contínua
1 comentários
Comentários do Hacker News
Descobriram que alguns documentos parecem digitalizações reais, mas na verdade são PDFs artificiais sem nenhum ruído físico
Como todas as páginas têm a mesma inclinação (skew) e bordas perfeitas, parece que renderizaram o documento digital original como imagem e depois aplicaram pós-processamento, como inclinação, redução de escala e redução de cores
Quem faz esse tipo de coisa provavelmente quer fazer imagens geradas por IA ou materiais manipulados parecerem autênticos
~/.local/share/nautilus/e criar um PDF de falsa digitalização direto pelo menu de clique direitoNão lembro a fonte original, mas acho que vi isso no Stack Exchange. O comando
magickaplica rotação, ruído, conversão para tons de cinza e afinsSe for autêntico, fica a dúvida de por que o FBI o disfarçou como se fosse uma digitalização. Será que há alguma parte do acordo entre Epstein e Acosta que eles não queriam divulgar
Link do PDF relacionado
Acho que o DOJ divulgar uma cópia modificada em vez do original é um problema legal
O software usado, OmniPage CSDK 21.1, remove todos os metadados e também apaga arquivos criptografados
Fiquei curioso se alguém já analisou o estilo de escrita de Epstein (JE) e comparou com postagens em lugares como o 4chan
Deve haver dados suficientes da Ghislaine também; não acredito na alegação sobre MaxwellHill, mas talvez exista alguma pista ali
Post relacionado
O site saiu do ar por questões de privacidade, mas a precisão era alta. Isso até me fez querer criar um assistente de navegador com IA que estilize meus comentários de forma aleatória
Mas os e-mails do Epstein são tão peculiares que talvez sejam uma exceção
Link da demo no HN
Esse tipo de método também distingue bem textos gerados por IA. Acho muito melhor do que treinar uma abordagem baseada em “transformers para detectar IA”
Pode ser que pessoas da alta cúpula, por quase nunca escreverem diretamente, acabem perdendo a capacidade de estruturar frases, ou talvez seja uma linguagem interna deles
Achei engraçado que, no pop-up de cookies desta página, o botão de rejeitar aparece como "Continue without consent"
Informações podem estar vazando por meio de objetos órfãos em anotações de PDF ou dentro de fluxos de objetos compactados
Espero que alguém esteja arquivando todos os documentos de forma independente. Alguns aparentemente já foram apagados
Mas a discussão continua na comunidade do Lemmy
em certo momento eles sumiram todos, e agora a maior parte foi restaurada
No momento estou comparando com os resultados de OCR fornecidos pelo DOJ usando o modelo allenai/olmocr-2-7b
São cerca de 500 mil imagens, então leva bastante tempo. Ainda assim, a taxa de reconhecimento do olmocr-2-7b é bem alta
Também queria saber abaixo de que tamanho o reconhecimento de texto começa a ficar difícil
Fiquei curioso sobre por que alguns arquivos recentes têm caracteres '=' aleatórios
Não parece erro de OCR, e dá a impressão de que foi feito para dificultar buscas
O desenvolvedor do gnus, Lars Ingebrigtsen, explicou isso no blog dele
Em alguns PDFs, anexos codificados em Base64 aparecem diretamente no corpo do texto
A qualidade do OCR é tão ruim que recuperar isso exigiria um esforço considerável
PDF de exemplo,
thread relacionada no Reddit
Pessoalmente, o que acho mais interessante são as contas bancárias de Epstein
A questão central é quem deu dinheiro a ele e quem recebeu dinheiro dele
Em vez disso, só se divulga o suficiente para direcionar a opinião pública para o ódio entre grupos específicos
Acesso bloqueado pela Cloudflare