FSE encontra o FBI
(blog.freespeechextremist.com)- O servidor FSE (Freespeech Extremist) compartilha a experiência de ter se tornado alvo de coleta de dados pelo FBI
- O FBI paga empresas privadas (como a SocialGist) para fazer scraping em larga escala de vários fóruns e dados do fediverso, usando isso para análise de conteúdo, classificação por palavras-chave e análise de sentimento
- O texto descreve a detecção de usuários maliciosos durante a operação do servidor, além de técnicas de análise e rastreamento de tráfego e da experiência em lidar com data poisoning e crawling indireto
- Empresas de coleta de dados como a BoardReader continuaram escaneando o servidor com crawling agressivo e evasão via proxy, e também foram reveladas ligações com os dados usados pelo FBI
- A partir desse caso, destaca-se para operadores de servidores do fediverso e para o setor de TI a necessidade de reforçar segurança de dados, observabilidade e capacidade de resposta
FSE encontra o FBI
Pete, 6 de abril de 2025
Visão geral e desenrolar do caso
- O administrador do FSE (Freespeech Extremist) compartilha experiências incomuns envolvendo UGC do servidor, crawlers e coleta de dados por agências federais de investigação
- Analisa os pontos de contato reais com o FBI e como os dados são raspados e acabam fluindo para sistemas internos de órgãos de investigação e interfaces de organização baseadas em Facebook
- O foco principal do texto está em análise de logs do servidor, resposta a usuários maliciosos, metodologias de detecção de anomalias de tráfego, além do acesso evasivo de empresas de scraping e de suas conexões com as forças de segurança
A raiz do caso – a ameaça de conteúdo ilegal
- A entrada de criminosos sexuais contra crianças no fediverso é o risco mais grave, a ponto de ameaçar a própria existência do servidor
- O FSE era administrado com foco na liberdade de expressão, mas, quando ocorriam atos ilegais, tudo era cuidadosamente registrado, bloqueado de forma ativa e exposto publicamente
- Também é preciso ter cuidado com bloqueios falsos e distorções de informação causadas por mal-entendidos de outras instâncias, bem como com a estrutura pela qual os dados acabam indo para órgãos externos de inteligência, como o FBI
Resposta técnica e minicurso intensivo de análise de logs
Diagnóstico de sinais anômalos na operação do servidor
- Devido às limitações do software do servidor, ao tráfego anormal e a crawlers/bots/scanners, um servidor público está sempre exposto ao “Weird”
- Para responder de forma eficaz, é necessário dominar ferramentas de análise textual e de rede como awk, tail -f, whois, tcpdump, traceroute, Shodan
- São apresentados métodos para entender o fluxo de dados em tempo real, como customização do formato de logs do servidor web (TSV etc.), registro do tempo de resposta por recurso e detecção de valores anômalos
- Com análise estatística simples (média, desvio padrão, alertas de outliers), é possível identificar situações anormais como DDoS e crawling
“Tecido cicatricial” acumulado com a experiência e formas de resposta
- No início, o servidor enfrentou problemas comuns com spammers e cadastros automatizados
- Para impedir registros em massa, foram criadas e operadas ferramentas leves próprias, como e-mails vinculados aos logs, alertas por voz e rate limit no nginx
- Em vez de adotar CAPTCHA ou verificação por e-mail, foi implementada uma política de minimização de dados pessoais e redefinição manual de senha
- A maior parte das soluções foi implementada internamente para garantir flexibilidade, velocidade e capacidade de resposta rápida
BoardReader, FSE e detecção de crawlers
Como ocorreu o crawling da BoardReader e sua análise
- Uma empresa até então desconhecida, chamada BoardReader, passou a reconhecer os dados do FSE como postagens de fórum e a fazer crawling em massa
- O crawler tentou evasão usando vários IPs, proxies residenciais, Tor, diversos UAs e até reprodução de sessão do Chrome
- Quando recebia erros 429 (throttling) ou 401/403 (autorização/proibido), tentava ainda mais requisições repetidamente
- No fim, o bloqueio continuou com respostas variadas, como 402 (Payment Required), e embora tenha havido tentativa de diálogo, a coleta de dados prosseguiu por vias alternativas
- Ao identificar os padrões de evasão do crawler e rastreá-lo, foram descobertas conexões com a SocialGist e indícios de envolvimento do FBI
Comunicação real com BoardReader e SocialGist
- Diante do crawling repetido, foram feitas consultas formais à BoardReader e à SocialGist, tentando obter a interrupção do crawling e uma resposta de info@boardreader.com
- A SocialGist forneceu apenas respostas protocolares e, na prática, continuou a evasão, confirmando o descumprimento do que havia prometido
- Também foram rastreados IPs de desenvolvedores (ISP da Sérvia, devtools.boardreader.com) e foi apresentada internamente uma explicação sobre a arquitetura do fediverso
Intervenção direta do FBI
Como surgiu o contato com o FBI e o que foi apurado
- Durante a troca de mensagens com Dave, da SocialGist, chegou um e-mail oficial de um endereço fbi.gov com o assunto “Emergency Disclosure Request”
- Um agente do FBI pediu informações pessoais de um usuário chamado “WitchKingOfAngmar” e anexou capturas de tela das postagens
- Embora a postagem em questão não fosse do FSE, mas sim vinculada ao sneed.social, o crawler a atribuiu ao FSE e a registrou no banco de dados, causando o engano
- As capturas de tela do FBI incluíam uma lista em formato de fórum, análise de sentimento e destaque de palavras-chave relacionadas, como “kill blackrock” e “larry fink”
- Ficaram evidentes falhas na arquitetura de dados do Relay da SocialGist e da BoardReader, o mal-entendido estrutural do FBI e, na prática, a confusão sistêmica causada pela natureza distribuída do fediverso
Medidas posteriores em relação ao FBI
- O administrador do FSE explicou ao FBI que a postagem original não pertencia ao FSE e pediu que confirmassem a instância do autor original
- As mensagens do agente do FBI cessaram, a resposta direta foi encerrada, a postagem foi tornada privada e, após uma ação emergencial, o acesso aos serviços do servidor foi temporariamente restringido
- Nesse meio-tempo, a BoardReader continuou tentando crawling evasivo, mas o bloqueio foi mantido, e o FBI encerrou o caso sem novas respostas
Conclusão e implicações
- Este caso mostra de forma concreta o estado real da integração de dados entre empresas de scraping, data brokers e órgãos estatais
- Reforça que operadores de servidores de redes sociais distribuídas (fediverso) precisam dominar análise de logs, detecção de padrões anômalos, resposta jurídica e construção de ferramentas automatizadas de bloqueio
- Em um plano mais amplo, sugere o risco de que sistemas democráticos e abertos da web sejam facilmente absorvidos e distorcidos por estruturas privadas ou estatais de vigilância
- Por fim, enfatiza que o compartilhamento de informações sobre design de redes abertas e entre comunidades de operadores é o núcleo de uma defesa eficaz de segurança de dados
1 comentários
Comentários do Hacker News
Houve críticas de que o Fediblock gerava mal-entendidos por não checar os fatos, mas foi levantado o ponto de que o local linkado no post do blog era apenas uma lista de instâncias que haviam sido desfederadas entre si, enfatizando que o Fediblock já era um serviço encerrado havia alguns anos e não um critério oficial, mas só uma referência; também foi compartilhada a impressão de que o autor do blog estava procurando o conteúdo original do Fediblock e acabou usando sem perceber um link substituto
Foi feita uma análise do que tornou o texto tão interessante: ele começa com uma preocupação legítima de que a adoção de CAPTCHA pudesse prejudicar usuários reais, mas depois expõe de forma crua o longo processo pelo qual o cadastro e a timeline foram tornados públicos e, com isso, surgiram inúmeros problemas que acabaram piorando a experiência dos usuários; a leitura levou à conclusão pessoal de que administrar diretamente um espaço comunitário é algo que jamais se gostaria de tentar
O apelo do post foi resumido em cinco pontos: 1) uma investigação em estilo de ciência cidadã sobre os mecanismos de coleta de informação/vigilância do FBI, 2) pequenos incidentes internos do Fediverse, 3) dicas práticas de operação de sistemas do ponto de vista de um operador de servidor pequeno, 4) a subtrama interessante em torno da figura chamada torswats, no centro de vários eventos, até sua prisão, 5) e um estilo de escrita inteligente e fluido, avaliado com 5 estrelas e considerado leitura obrigatória
Houve genuína admiração pelo conteúdo do texto, e a observação mais detalhada foi a interpretação de que o botão "Negative" do mecanismo de busca talvez não indicasse análise de sentimento, mas sim inadequação do resultado de busca (falha de descoberta negativa); foi compartilhada a visão de que análise de sentimento não teria grande utilidade nesse cenário
Foi dito que o fediblock levou à falsa impressão de que a FSE tinha regras permissivas incorretas, junto com reclamações sobre citar um site cujo código-fonte está no kiwifarms; acrescentou-se que a razão pela qual a FSE é bloqueada é principalmente porque a maioria dos usuários não quer se comunicar com grupos de "free speech"
Foram sugeridas alternativas técnicas potencialmente mais eficientes para defesa contra scraping, como bloquear tráfego na camada de IP ou domínio, ou usar serviços externos de proteção de endpoints de API como o Cloudflare; ainda assim, foi mencionado que esses serviços também trazem custo e talvez não sejam adequados para um site com o perfil do Free Speech Extremist; também foi levantado que, do ponto de vista financeiro, bloquear tráfego malicioso pode até gerar economia
Foi apontado que surgiu um problema envolvendo pedófilos na FSE, com o complemento de que isso é um problema do Fediverse em geral e também de lugares como o Discord
Foi questionado por que a FSE (Free Speech Extremist) deveria receber o rótulo de "extremista", levantando a dúvida sobre por que, em um país que valoriza a liberdade de expressão garantida pela Constituição dos EUA, isso precisaria ser visto como extremismo
Foi resumido em uma frase que administrar espaços online é, na prática, um trabalho extremamente desgastante