- O arquivo de e-mails de Epstein divulgado pelo Departamento de Justiça dos EUA vem recebendo fortes críticas por erros graves causados por codificação incorreta e censura excessiva
- Alguns e-mails ainda incluem anexos no formato
Content-Transfer-Encoding: base64, e restaurar esses dados pode permitir a reconstrução do PDF original
- No entanto, fatores como baixa qualidade de OCR, dificuldade de distinguir 1 e l na fonte Courier New e má qualidade de digitalização tornam a restauração automática quase impossível
- O autor tentou restaurar os arquivos com tesseract, Adobe Acrobat Pro e AWS Textract, mas todos produziram resultados incompletos
- O caso expõe os limites da perícia digital e das técnicas de restauração de documentos e é apresentado como um desafio técnico que a comunidade precisa resolver de forma colaborativa
Problemas nos materiais divulgados pelo Departamento de Justiça
- O arquivo de Epstein publicado recentemente foi distribuído com censura excessiva, desde nomes de cúmplices até fotos de mulheres sem relação com o caso
- Alguns arquivos foram corrompidos por erros de codificação Quoted-Printable e não podiam ser abertos
- Houve até exposição de credenciais de e-mail, permitindo que usuários do Reddit acessassem a conta de Epstein
- Esse tratamento precário levou a críticas sobre a falta de profissionalismo do Departamento de Justiça liderado por Pam Bondi
Descoberta de anexos em base64
- No e-mail
EFTA00400459, foram encontrados 76 páginas de dados codificados em base64
- Eram a versão codificada para envio por SMTP do arquivo
DBC12 One Page Invite with Reply.pdf
- Em teoria, bastaria copiar e restaurar com o comando
base64 -d > output.pdf, mas na prática só existia um scan com OCR, cheio de erros
- O resultado do OCR continha inserções incorretas de caracteres, omissões e caracteres base64 inválidos (ex.: [, ,), o que impedia a decodificação
Problemas de OCR e fonte
- As tentativas de refazer o OCR com Adobe Acrobat Pro e tesseract resultaram em inserção de espaços e erros de reconhecimento de caracteres
- Mesmo limitando no
tesseract o conjunto de caracteres aos válidos em base64, persistiram problemas de inconsistência no comprimento das linhas e interrupção parcial do reconhecimento
- A principal causa era a fonte Courier New, na qual distinguir
1 de l é quase impossível
- Com scans JPEG de baixa resolução e artefatos de compressão, a identificação visual já era difícil por si só
- Por isso, a correção manual se torna essencial, e na decodificação é preciso testar trocando
1 e l
Tentativas de restauração e comparação de ferramentas
imagemagick e ghostscript falharam por estouro de memória ao processar arquivos grandes, e pdftoppm foi usado como alternativa
- O
AWS Textract apresentou os melhores resultados, mas ainda havia erros no tamanho das linhas e resultados não determinísticos
- A imagem de entrada foi ampliada em 2x para melhorar a taxa de reconhecimento, mas a restauração completa ainda falhou
- A tentativa de restaurar a estrutura do PDF com
qpdf falhou por causa de uma tabela cross-reference corrompida
Propostas da comunidade e discussão posterior
- No fim do texto, o autor propõe à comunidade tentar restaurar outros anexos
- Pesquisas por
Content-Transfer-Encoding e base64 revelam alguns dados potencialmente úteis
- Vários usuários sugeriram abordagens como OCR baseado em ML, treinamento de CNN por fonte e crowdsourcing no estilo CAPTCHA
- Alguns compartilharam casos de restauração bem-sucedida de PDFs e relataram que usar
pdfimages produz resultados mais nítidos do que pdftoppm
- Por fim, foram discutidas técnicas avançadas de restauração, como algoritmos para automatizar a distinção entre 1/l, detecção de erros baseada em descompressor em streaming e comparação em nível de pixel
Significado técnico
- O caso mostra como erros de codificação em documentos digitais e limitações de OCR podem dificultar o acesso efetivo à informação
- Ele destaca a importância do controle de qualidade no processamento digital de provas legais e das técnicas automatizadas de perícia documental
- As tentativas de restauração em colaboração com a comunidade são vistas como um exemplo de garantia de transparência de dados públicos e de possibilidade de verificação técnica
1 comentários
Comentários do Hacker News
Parece que a equipe do Departamento de Justiça da Pam Bondi não colocou seus melhores profissionais nisso
Compartilhou um script feito pelo Claude Opus
Link do script / saída em texto / versão organizada
Ele gera um PDF legível, pelo menos na primeira página
O Tesseract pode ser treinado para uma fonte específica. Isso parece um bom ponto de partida
Referência: guia de dados de treinamento do Tesseract
Isso é um problema de decodificação binária de PDF. Como o número de codificações possíveis é limitado, proponho a seguinte abordagem
Assim dá para testar rapidamente só os caracteres do meio, então a busca completa pode ser feita de forma linear
Isso parece um nerd snipe, mas na prática dá para terminar mais rápido na força bruta. Se 76 pessoas digitarem uma página cada, acaba antes de o post do blog sair
Como PDF é um formato muito complexo, acho que seria melhor o governo criar e padronizar um novo formato aberto seguro
DjVu é simples e tem boas ferramentas open source, mas faltam recursos
TIFF é ainda mais complexo que PDF, então não serve
Referência: XPS, DjVu, TIFF
Na busca do justice.gov foi possível encontrar várias versões do mesmo email
Original: EFTA00400459.pdf
Versões adicionais:
EFTA02153691.pdf
EFTA02154109.pdf
EFTA02154246.pdf
Comparar várias versões talvez facilite bastante a resolução
O problema de “1” e “l” continua, mas ainda pode ser útil como referência
Pensei em tentar todas as permutações possíveis de combinações (1, l). Assumindo 76 páginas × 69 linhas × 1 ocorrência, isso dá 2^5244 possibilidades. Alguém com CPU sobrando?
Se a compressão for o padrão, os checksums deixam isso ainda mais fácil. Mas não dá para fazer com as ferramentas existentes; seria preciso criar uma test harness instrumentada dentro do decodificador
Detalhes do evento: Dubin Breast Center 2nd Annual Benefit (Archive)
homenageando Elisa Port e a família Ruttenberg.
A apresentação foi de Cynthia McFadden, com vários músicos se apresentando
pdftoppm e Ghostscript (chamado via Imagemagick) são lentos porque rasterizam a página inteira novamente
Extrair diretamente as imagens escaneadas com pdfimages ou mutool é muito mais rápido
Nos testes, o pdfimages foi 13 vezes mais rápido que o pdftoppm