1 pontos por GN⁺ 2026-02-06 | 1 comentários | Compartilhar no WhatsApp
  • O arquivo de e-mails de Epstein divulgado pelo Departamento de Justiça dos EUA vem recebendo fortes críticas por erros graves causados por codificação incorreta e censura excessiva
  • Alguns e-mails ainda incluem anexos no formato Content-Transfer-Encoding: base64, e restaurar esses dados pode permitir a reconstrução do PDF original
  • No entanto, fatores como baixa qualidade de OCR, dificuldade de distinguir 1 e l na fonte Courier New e má qualidade de digitalização tornam a restauração automática quase impossível
  • O autor tentou restaurar os arquivos com tesseract, Adobe Acrobat Pro e AWS Textract, mas todos produziram resultados incompletos
  • O caso expõe os limites da perícia digital e das técnicas de restauração de documentos e é apresentado como um desafio técnico que a comunidade precisa resolver de forma colaborativa

Problemas nos materiais divulgados pelo Departamento de Justiça

  • O arquivo de Epstein publicado recentemente foi distribuído com censura excessiva, desde nomes de cúmplices até fotos de mulheres sem relação com o caso
    • Alguns arquivos foram corrompidos por erros de codificação Quoted-Printable e não podiam ser abertos
    • Houve até exposição de credenciais de e-mail, permitindo que usuários do Reddit acessassem a conta de Epstein
  • Esse tratamento precário levou a críticas sobre a falta de profissionalismo do Departamento de Justiça liderado por Pam Bondi

Descoberta de anexos em base64

  • No e-mail EFTA00400459, foram encontrados 76 páginas de dados codificados em base64
    • Eram a versão codificada para envio por SMTP do arquivo DBC12 One Page Invite with Reply.pdf
    • Em teoria, bastaria copiar e restaurar com o comando base64 -d > output.pdf, mas na prática só existia um scan com OCR, cheio de erros
  • O resultado do OCR continha inserções incorretas de caracteres, omissões e caracteres base64 inválidos (ex.: [, ,), o que impedia a decodificação

Problemas de OCR e fonte

  • As tentativas de refazer o OCR com Adobe Acrobat Pro e tesseract resultaram em inserção de espaços e erros de reconhecimento de caracteres
  • Mesmo limitando no tesseract o conjunto de caracteres aos válidos em base64, persistiram problemas de inconsistência no comprimento das linhas e interrupção parcial do reconhecimento
  • A principal causa era a fonte Courier New, na qual distinguir 1 de l é quase impossível
    • Com scans JPEG de baixa resolução e artefatos de compressão, a identificação visual já era difícil por si só
    • Por isso, a correção manual se torna essencial, e na decodificação é preciso testar trocando 1 e l

Tentativas de restauração e comparação de ferramentas

  • imagemagick e ghostscript falharam por estouro de memória ao processar arquivos grandes, e pdftoppm foi usado como alternativa
  • O AWS Textract apresentou os melhores resultados, mas ainda havia erros no tamanho das linhas e resultados não determinísticos
    • A imagem de entrada foi ampliada em 2x para melhorar a taxa de reconhecimento, mas a restauração completa ainda falhou
  • A tentativa de restaurar a estrutura do PDF com qpdf falhou por causa de uma tabela cross-reference corrompida

Propostas da comunidade e discussão posterior

  • No fim do texto, o autor propõe à comunidade tentar restaurar outros anexos
    • Pesquisas por Content-Transfer-Encoding e base64 revelam alguns dados potencialmente úteis
  • Vários usuários sugeriram abordagens como OCR baseado em ML, treinamento de CNN por fonte e crowdsourcing no estilo CAPTCHA
    • Alguns compartilharam casos de restauração bem-sucedida de PDFs e relataram que usar pdfimages produz resultados mais nítidos do que pdftoppm
  • Por fim, foram discutidas técnicas avançadas de restauração, como algoritmos para automatizar a distinção entre 1/l, detecção de erros baseada em descompressor em streaming e comparação em nível de pixel

Significado técnico

  • O caso mostra como erros de codificação em documentos digitais e limitações de OCR podem dificultar o acesso efetivo à informação
  • Ele destaca a importância do controle de qualidade no processamento digital de provas legais e das técnicas automatizadas de perícia documental
  • As tentativas de restauração em colaboração com a comunidade são vistas como um exemplo de garantia de transparência de dados públicos e de possibilidade de verificação técnica

1 comentários

 
GN⁺ 2026-02-06
Comentários do Hacker News
  • Parece que a equipe do Departamento de Justiça da Pam Bondi não colocou seus melhores profissionais nisso

    • No começo, a conversa por mensagens entre agentes do FB foi interessante. Cheguei a pensar se não teria sido um caso de cumprimento malicioso (malicious compliance), feito de propósito de forma desleixada para deixar a informação vazar antes de ser censurada de novo
    • A internet está encontrando todos os erros dela, então no fim parece estar sendo resolvido bem via crowdsourcing. Os erros continuam sendo corrigidos graças às pessoas
  • Compartilhou um script feito pelo Claude Opus
    Link do script / saída em texto / versão organizada
    Ele gera um PDF legível, pelo menos na primeira página

    • Fiquei curioso se alguém consegue reexportar isso como um PDF normalizado ou compartilhar capturas de tela. Todos os meus leitores de PDF se recusam a abrir
    • Confirmou que era um evento público com 450 participantes. Os nomes batem com a matéria do Mount Sinai e a matéria do Business Insider, mas as datas são diferentes
    • Belo trabalho
  • O Tesseract pode ser treinado para uma fonte específica. Isso parece um bom ponto de partida
    Referência: guia de dados de treinamento do Tesseract

  • Isso é um problema de decodificação binária de PDF. Como o número de codificações possíveis é limitado, proponho a seguinte abordagem

    1. Usar um decodificador de PDF open source
    2. Decodificar os bytes até o primeiro caractere ambíguo
    3. Se o próximo bit for válido, assumir 1; caso contrário, l
    4. Se ambos forem válidos, fazer backtracking
      Assim dá para testar rapidamente só os caracteres do meio, então a busca completa pode ser feita de forma linear
    • Mas pode haver muito mais backtracking por causa da etapa de compressão no meio
    • Isso parece coisa para resolver com afl
  • Isso parece um nerd snipe, mas na prática dá para terminar mais rápido na força bruta. Se 76 pessoas digitarem uma página cada, acaba antes de o post do blog sair

    • Uma pessoa só também conseguiria digitar as 76 páginas. Eu fazia esse tipo de trabalho com frequência antigamente
    • Mas não é fácil fazer 76 pessoas transcreverem com precisão
    • Eu não tenho 76 amigos, então provavelmente teria que anunciar no Craigslist ou no Fiverr. Parece bem chato de gerenciar
  • Como PDF é um formato muito complexo, acho que seria melhor o governo criar e padronizar um novo formato aberto seguro

    • XPS é um padrão oficial baseado em XML e tem um suporte open source razoável, mas a qualidade das ferramentas é ruim e ele continua complexo
      DjVu é simples e tem boas ferramentas open source, mas faltam recursos
      TIFF é ainda mais complexo que PDF, então não serve
      Referência: XPS, DjVu, TIFF
    • Mas vejo isso não como um problema de ferramenta, e sim como um problema de desrespeito à lei ou de fazer tudo de propósito de forma desleixada
    • Mesmo criando um novo formato, em 3 a 5 anos ele acabaria ficando tão complexo quanto PDF
    • Meio de brincadeira, meio sério, também houve quem sugerisse usar JPEG
  • Na busca do justice.gov foi possível encontrar várias versões do mesmo email
    Original: EFTA00400459.pdf
    Versões adicionais:
    EFTA02153691.pdf
    EFTA02154109.pdf
    EFTA02154246.pdf
    Comparar várias versões talvez facilite bastante a resolução

    • Também encontrou uma versão com outra codificação base64 e outras fontes: EFTA00775520.pdf.
      O problema de “1” e “l” continua, mas ainda pode ser útil como referência
  • Pensei em tentar todas as permutações possíveis de combinações (1, l). Assumindo 76 páginas × 69 linhas × 1 ocorrência, isso dá 2^5244 possibilidades. Alguém com CPU sobrando?

    • Na verdade é bem mais fácil. Basta verificar em sequência se cada correção decodifica para uma estrutura de PDF válida.
      Se a compressão for o padrão, os checksums deixam isso ainda mais fácil. Mas não dá para fazer com as ferramentas existentes; seria preciso criar uma test harness instrumentada dentro do decodificador
    • Ou então criar uma criptomoeda tipo Epsteincoin e juntar poder computacional para resolver isso
  • Detalhes do evento: Dubin Breast Center 2nd Annual Benefit (Archive)

    • No pôster do evento consta que foi o evento beneficente de 2º aniversário do Dubin Breast Center, realizado em 10 de dezembro de 2012 no Mandarin Oriental,
      homenageando Elisa Port e a família Ruttenberg.
      A apresentação foi de Cynthia McFadden, com vários músicos se apresentando
  • pdftoppm e Ghostscript (chamado via Imagemagick) são lentos porque rasterizam a página inteira novamente
    Extrair diretamente as imagens escaneadas com pdfimages ou mutool é muito mais rápido
    Nos testes, o pdfimages foi 13 vezes mais rápido que o pdftoppm