Restaurando os PDFs de Epstein a partir de anexos com codificação original

(neosmart.net)

1 pontos por GN⁺ 2026-02-06 | 1 comentários | Compartilhar no WhatsApp

O arquivo de e-mails de Epstein divulgado pelo Departamento de Justiça dos EUA vem recebendo fortes críticas por erros graves causados por codificação incorreta e censura excessiva
Alguns e-mails ainda incluem anexos no formato Content-Transfer-Encoding: base64, e restaurar esses dados pode permitir a reconstrução do PDF original
No entanto, fatores como baixa qualidade de OCR, dificuldade de distinguir 1 e l na fonte Courier New e má qualidade de digitalização tornam a restauração automática quase impossível
O autor tentou restaurar os arquivos com tesseract, Adobe Acrobat Pro e AWS Textract, mas todos produziram resultados incompletos
O caso expõe os limites da perícia digital e das técnicas de restauração de documentos e é apresentado como um desafio técnico que a comunidade precisa resolver de forma colaborativa

Problemas nos materiais divulgados pelo Departamento de Justiça

O arquivo de Epstein publicado recentemente foi distribuído com censura excessiva, desde nomes de cúmplices até fotos de mulheres sem relação com o caso
- Alguns arquivos foram corrompidos por erros de codificação Quoted-Printable e não podiam ser abertos
- Houve até exposição de credenciais de e-mail, permitindo que usuários do Reddit acessassem a conta de Epstein
Esse tratamento precário levou a críticas sobre a falta de profissionalismo do Departamento de Justiça liderado por Pam Bondi

Descoberta de anexos em base64

No e-mail EFTA00400459, foram encontrados 76 páginas de dados codificados em base64
- Eram a versão codificada para envio por SMTP do arquivo DBC12 One Page Invite with Reply.pdf
- Em teoria, bastaria copiar e restaurar com o comando base64 -d > output.pdf, mas na prática só existia um scan com OCR, cheio de erros
O resultado do OCR continha inserções incorretas de caracteres, omissões e caracteres base64 inválidos (ex.: [, ,), o que impedia a decodificação

Problemas de OCR e fonte

As tentativas de refazer o OCR com Adobe Acrobat Pro e tesseract resultaram em inserção de espaços e erros de reconhecimento de caracteres
Mesmo limitando no tesseract o conjunto de caracteres aos válidos em base64, persistiram problemas de inconsistência no comprimento das linhas e interrupção parcial do reconhecimento
A principal causa era a fonte Courier New, na qual distinguir 1 de l é quase impossível
- Com scans JPEG de baixa resolução e artefatos de compressão, a identificação visual já era difícil por si só
- Por isso, a correção manual se torna essencial, e na decodificação é preciso testar trocando 1 e l

Tentativas de restauração e comparação de ferramentas

imagemagick e ghostscript falharam por estouro de memória ao processar arquivos grandes, e pdftoppm foi usado como alternativa
O AWS Textract apresentou os melhores resultados, mas ainda havia erros no tamanho das linhas e resultados não determinísticos
- A imagem de entrada foi ampliada em 2x para melhorar a taxa de reconhecimento, mas a restauração completa ainda falhou
A tentativa de restaurar a estrutura do PDF com qpdf falhou por causa de uma tabela cross-reference corrompida

Propostas da comunidade e discussão posterior

No fim do texto, o autor propõe à comunidade tentar restaurar outros anexos
- Pesquisas por Content-Transfer-Encoding e base64 revelam alguns dados potencialmente úteis
Vários usuários sugeriram abordagens como OCR baseado em ML, treinamento de CNN por fonte e crowdsourcing no estilo CAPTCHA
- Alguns compartilharam casos de restauração bem-sucedida de PDFs e relataram que usar pdfimages produz resultados mais nítidos do que pdftoppm
Por fim, foram discutidas técnicas avançadas de restauração, como algoritmos para automatizar a distinção entre 1/l, detecção de erros baseada em descompressor em streaming e comparação em nível de pixel

Significado técnico

O caso mostra como erros de codificação em documentos digitais e limitações de OCR podem dificultar o acesso efetivo à informação
Ele destaca a importância do controle de qualidade no processamento digital de provas legais e das técnicas automatizadas de perícia documental
As tentativas de restauração em colaboração com a comunidade são vistas como um exemplo de garantia de transparência de dados públicos e de possibilidade de verificação técnica

1 comentários

GN⁺ 2026-02-06

Comentários do Hacker News

Parece que a equipe do Departamento de Justiça da Pam Bondi não colocou seus melhores profissionais nisso
- No começo, a conversa por mensagens entre agentes do FB foi interessante. Cheguei a pensar se não teria sido um caso de cumprimento malicioso (malicious compliance), feito de propósito de forma desleixada para deixar a informação vazar antes de ser censurada de novo
- A internet está encontrando todos os erros dela, então no fim parece estar sendo resolvido bem via crowdsourcing. Os erros continuam sendo corrigidos graças às pessoas
Compartilhou um script feito pelo Claude Opus
Link do script / saída em texto / versão organizada
Ele gera um PDF legível, pelo menos na primeira página
- Fiquei curioso se alguém consegue reexportar isso como um PDF normalizado ou compartilhar capturas de tela. Todos os meus leitores de PDF se recusam a abrir
- Confirmou que era um evento público com 450 participantes. Os nomes batem com a matéria do Mount Sinai e a matéria do Business Insider, mas as datas são diferentes
- Belo trabalho
O Tesseract pode ser treinado para uma fonte específica. Isso parece um bom ponto de partida
Referência: guia de dados de treinamento do Tesseract
Isso é um problema de decodificação binária de PDF. Como o número de codificações possíveis é limitado, proponho a seguinte abordagem
1. Usar um decodificador de PDF open source
2. Decodificar os bytes até o primeiro caractere ambíguo
3. Se o próximo bit for válido, assumir 1; caso contrário, l
4. Se ambos forem válidos, fazer backtracking
  Assim dá para testar rapidamente só os caracteres do meio, então a busca completa pode ser feita de forma linear
- Mas pode haver muito mais backtracking por causa da etapa de compressão no meio
- Isso parece coisa para resolver com afl
Isso parece um nerd snipe, mas na prática dá para terminar mais rápido na força bruta. Se 76 pessoas digitarem uma página cada, acaba antes de o post do blog sair
- Uma pessoa só também conseguiria digitar as 76 páginas. Eu fazia esse tipo de trabalho com frequência antigamente
- Mas não é fácil fazer 76 pessoas transcreverem com precisão
- Eu não tenho 76 amigos, então provavelmente teria que anunciar no Craigslist ou no Fiverr. Parece bem chato de gerenciar
Como PDF é um formato muito complexo, acho que seria melhor o governo criar e padronizar um novo formato aberto seguro
- XPS é um padrão oficial baseado em XML e tem um suporte open source razoável, mas a qualidade das ferramentas é ruim e ele continua complexo
  DjVu é simples e tem boas ferramentas open source, mas faltam recursos
  TIFF é ainda mais complexo que PDF, então não serve
  Referência: XPS, DjVu, TIFF
- Mas vejo isso não como um problema de ferramenta, e sim como um problema de desrespeito à lei ou de fazer tudo de propósito de forma desleixada
- Mesmo criando um novo formato, em 3 a 5 anos ele acabaria ficando tão complexo quanto PDF
- Meio de brincadeira, meio sério, também houve quem sugerisse usar JPEG
Na busca do justice.gov foi possível encontrar várias versões do mesmo email
Original: EFTA00400459.pdf
Versões adicionais:
EFTA02153691.pdf
EFTA02154109.pdf
EFTA02154246.pdf
Comparar várias versões talvez facilite bastante a resolução
- Também encontrou uma versão com outra codificação base64 e outras fontes: EFTA00775520.pdf.
  O problema de “1” e “l” continua, mas ainda pode ser útil como referência
Pensei em tentar todas as permutações possíveis de combinações (1, l). Assumindo 76 páginas × 69 linhas × 1 ocorrência, isso dá 2^5244 possibilidades. Alguém com CPU sobrando?
- Na verdade é bem mais fácil. Basta verificar em sequência se cada correção decodifica para uma estrutura de PDF válida.
  Se a compressão for o padrão, os checksums deixam isso ainda mais fácil. Mas não dá para fazer com as ferramentas existentes; seria preciso criar uma test harness instrumentada dentro do decodificador
- Ou então criar uma criptomoeda tipo Epsteincoin e juntar poder computacional para resolver isso
Detalhes do evento: Dubin Breast Center 2nd Annual Benefit (Archive)
- No pôster do evento consta que foi o evento beneficente de 2º aniversário do Dubin Breast Center, realizado em 10 de dezembro de 2012 no Mandarin Oriental,
  homenageando Elisa Port e a família Ruttenberg.
  A apresentação foi de Cynthia McFadden, com vários músicos se apresentando
pdftoppm e Ghostscript (chamado via Imagemagick) são lentos porque rasterizam a página inteira novamente
Extrair diretamente as imagens escaneadas com pdfimages ou mutool é muito mais rápido
Nos testes, o pdfimages foi 13 vezes mais rápido que o pdftoppm

Restaurando os PDFs de Epstein a partir de anexos com codificação original

Problemas nos materiais divulgados pelo Departamento de Justiça

Descoberta de anexos em base64

Problemas de OCR e fonte

Tentativas de restauração e comparação de ferramentas

Propostas da comunidade e discussão posterior

Significado técnico

Leituras relacionadas

1 comentários

Comentários do Hacker News