1 pontos por GN⁺ 2025-06-10 | 1 comentários | Compartilhar no WhatsApp
  • O servidor FSE (Freespeech Extremist) compartilha a experiência de ter se tornado alvo de coleta de dados pelo FBI
  • O FBI paga empresas privadas (como a SocialGist) para fazer scraping em larga escala de vários fóruns e dados do fediverso, usando isso para análise de conteúdo, classificação por palavras-chave e análise de sentimento
  • O texto descreve a detecção de usuários maliciosos durante a operação do servidor, além de técnicas de análise e rastreamento de tráfego e da experiência em lidar com data poisoning e crawling indireto
  • Empresas de coleta de dados como a BoardReader continuaram escaneando o servidor com crawling agressivo e evasão via proxy, e também foram reveladas ligações com os dados usados pelo FBI
  • A partir desse caso, destaca-se para operadores de servidores do fediverso e para o setor de TI a necessidade de reforçar segurança de dados, observabilidade e capacidade de resposta

FSE encontra o FBI

Pete, 6 de abril de 2025

Visão geral e desenrolar do caso

  • O administrador do FSE (Freespeech Extremist) compartilha experiências incomuns envolvendo UGC do servidor, crawlers e coleta de dados por agências federais de investigação
  • Analisa os pontos de contato reais com o FBI e como os dados são raspados e acabam fluindo para sistemas internos de órgãos de investigação e interfaces de organização baseadas em Facebook
  • O foco principal do texto está em análise de logs do servidor, resposta a usuários maliciosos, metodologias de detecção de anomalias de tráfego, além do acesso evasivo de empresas de scraping e de suas conexões com as forças de segurança

A raiz do caso – a ameaça de conteúdo ilegal

  • A entrada de criminosos sexuais contra crianças no fediverso é o risco mais grave, a ponto de ameaçar a própria existência do servidor
  • O FSE era administrado com foco na liberdade de expressão, mas, quando ocorriam atos ilegais, tudo era cuidadosamente registrado, bloqueado de forma ativa e exposto publicamente
  • Também é preciso ter cuidado com bloqueios falsos e distorções de informação causadas por mal-entendidos de outras instâncias, bem como com a estrutura pela qual os dados acabam indo para órgãos externos de inteligência, como o FBI

Resposta técnica e minicurso intensivo de análise de logs

Diagnóstico de sinais anômalos na operação do servidor

  • Devido às limitações do software do servidor, ao tráfego anormal e a crawlers/bots/scanners, um servidor público está sempre exposto ao “Weird”
  • Para responder de forma eficaz, é necessário dominar ferramentas de análise textual e de rede como awk, tail -f, whois, tcpdump, traceroute, Shodan
  • São apresentados métodos para entender o fluxo de dados em tempo real, como customização do formato de logs do servidor web (TSV etc.), registro do tempo de resposta por recurso e detecção de valores anômalos
  • Com análise estatística simples (média, desvio padrão, alertas de outliers), é possível identificar situações anormais como DDoS e crawling

“Tecido cicatricial” acumulado com a experiência e formas de resposta

  • No início, o servidor enfrentou problemas comuns com spammers e cadastros automatizados
  • Para impedir registros em massa, foram criadas e operadas ferramentas leves próprias, como e-mails vinculados aos logs, alertas por voz e rate limit no nginx
  • Em vez de adotar CAPTCHA ou verificação por e-mail, foi implementada uma política de minimização de dados pessoais e redefinição manual de senha
  • A maior parte das soluções foi implementada internamente para garantir flexibilidade, velocidade e capacidade de resposta rápida

BoardReader, FSE e detecção de crawlers

Como ocorreu o crawling da BoardReader e sua análise

  • Uma empresa até então desconhecida, chamada BoardReader, passou a reconhecer os dados do FSE como postagens de fórum e a fazer crawling em massa
  • O crawler tentou evasão usando vários IPs, proxies residenciais, Tor, diversos UAs e até reprodução de sessão do Chrome
  • Quando recebia erros 429 (throttling) ou 401/403 (autorização/proibido), tentava ainda mais requisições repetidamente
  • No fim, o bloqueio continuou com respostas variadas, como 402 (Payment Required), e embora tenha havido tentativa de diálogo, a coleta de dados prosseguiu por vias alternativas
  • Ao identificar os padrões de evasão do crawler e rastreá-lo, foram descobertas conexões com a SocialGist e indícios de envolvimento do FBI

Comunicação real com BoardReader e SocialGist

  • Diante do crawling repetido, foram feitas consultas formais à BoardReader e à SocialGist, tentando obter a interrupção do crawling e uma resposta de info@boardreader.com
  • A SocialGist forneceu apenas respostas protocolares e, na prática, continuou a evasão, confirmando o descumprimento do que havia prometido
  • Também foram rastreados IPs de desenvolvedores (ISP da Sérvia, devtools.boardreader.com) e foi apresentada internamente uma explicação sobre a arquitetura do fediverso

Intervenção direta do FBI

Como surgiu o contato com o FBI e o que foi apurado

  • Durante a troca de mensagens com Dave, da SocialGist, chegou um e-mail oficial de um endereço fbi.gov com o assunto “Emergency Disclosure Request”
  • Um agente do FBI pediu informações pessoais de um usuário chamado “WitchKingOfAngmar” e anexou capturas de tela das postagens
  • Embora a postagem em questão não fosse do FSE, mas sim vinculada ao sneed.social, o crawler a atribuiu ao FSE e a registrou no banco de dados, causando o engano
  • As capturas de tela do FBI incluíam uma lista em formato de fórum, análise de sentimento e destaque de palavras-chave relacionadas, como “kill blackrock” e “larry fink”
  • Ficaram evidentes falhas na arquitetura de dados do Relay da SocialGist e da BoardReader, o mal-entendido estrutural do FBI e, na prática, a confusão sistêmica causada pela natureza distribuída do fediverso

Medidas posteriores em relação ao FBI

  • O administrador do FSE explicou ao FBI que a postagem original não pertencia ao FSE e pediu que confirmassem a instância do autor original
  • As mensagens do agente do FBI cessaram, a resposta direta foi encerrada, a postagem foi tornada privada e, após uma ação emergencial, o acesso aos serviços do servidor foi temporariamente restringido
  • Nesse meio-tempo, a BoardReader continuou tentando crawling evasivo, mas o bloqueio foi mantido, e o FBI encerrou o caso sem novas respostas

Conclusão e implicações

  • Este caso mostra de forma concreta o estado real da integração de dados entre empresas de scraping, data brokers e órgãos estatais
  • Reforça que operadores de servidores de redes sociais distribuídas (fediverso) precisam dominar análise de logs, detecção de padrões anômalos, resposta jurídica e construção de ferramentas automatizadas de bloqueio
  • Em um plano mais amplo, sugere o risco de que sistemas democráticos e abertos da web sejam facilmente absorvidos e distorcidos por estruturas privadas ou estatais de vigilância
  • Por fim, enfatiza que o compartilhamento de informações sobre design de redes abertas e entre comunidades de operadores é o núcleo de uma defesa eficaz de segurança de dados

1 comentários

 
GN⁺ 2025-06-10
Comentários do Hacker News
  • Houve críticas de que o Fediblock gerava mal-entendidos por não checar os fatos, mas foi levantado o ponto de que o local linkado no post do blog era apenas uma lista de instâncias que haviam sido desfederadas entre si, enfatizando que o Fediblock já era um serviço encerrado havia alguns anos e não um critério oficial, mas só uma referência; também foi compartilhada a impressão de que o autor do blog estava procurando o conteúdo original do Fediblock e acabou usando sem perceber um link substituto

    • Sou administrador de um servidor Mastodon de porte médio e compartilhei que já bloqueei uma instância depois que um usuário me dirigiu insultos racistas e, mesmo após denunciar aos administradores, nenhuma ação foi tomada; enfatizei que a decisão não teve qualquer relação com fediblock ou mecanismos comunitários e que não havia motivo para manter comunicação com uma instância cujos usuários praticavam trolling para assediar os usuários do meu servidor; por isso, acho até engraçado a FSE falar como se alguém os tivesse bloqueado por uma conspiração
    • Foi apontado que o serviço Fediblock de fato encerrou em setembro de 2023 e que a maioria dos incidentes mencionados no artigo aconteceu antes dessa data
  • Foi feita uma análise do que tornou o texto tão interessante: ele começa com uma preocupação legítima de que a adoção de CAPTCHA pudesse prejudicar usuários reais, mas depois expõe de forma crua o longo processo pelo qual o cadastro e a timeline foram tornados públicos e, com isso, surgiram inúmeros problemas que acabaram piorando a experiência dos usuários; a leitura levou à conclusão pessoal de que administrar diretamente um espaço comunitário é algo que jamais se gostaria de tentar

  • O apelo do post foi resumido em cinco pontos: 1) uma investigação em estilo de ciência cidadã sobre os mecanismos de coleta de informação/vigilância do FBI, 2) pequenos incidentes internos do Fediverse, 3) dicas práticas de operação de sistemas do ponto de vista de um operador de servidor pequeno, 4) a subtrama interessante em torno da figura chamada torswats, no centro de vários eventos, até sua prisão, 5) e um estilo de escrita inteligente e fluido, avaliado com 5 estrelas e considerado leitura obrigatória

    • Também achei o texto excelente, com a dose certa de detalhes técnicos; foi avaliado como algo que não faria feio se fosse apresentado em uma conferência hacker como o Chaos Communication Congress
    • Foi apontado que o autor chegou a uma conclusão errada: o FBI enviou capturas de tela de um usuário contendo ameaças violentas ao pedir informações, mas o autor tratou isso como pura fanfarronice; considerando casos reais recentes de violência, como o assassinato de um CEO, isso teria subestimado o risco; embora seja positivo que o operador da FSE tenha dialogado ativamente com os investigadores federais, foi enfatizado que concluir automaticamente que uma ameaça é inofensiva ao ver a captura é um viés perigoso
  • Houve genuína admiração pelo conteúdo do texto, e a observação mais detalhada foi a interpretação de que o botão "Negative" do mecanismo de busca talvez não indicasse análise de sentimento, mas sim inadequação do resultado de busca (falha de descoberta negativa); foi compartilhada a visão de que análise de sentimento não teria grande utilidade nesse cenário

    • Também houve discordância: foi analisado que o design do ícone de "Negative", em forma de cabeça vermelha, soa linguisticamente estranho para indicar inadequação, e por isso a interpretação de análise de sentimento pareceria mais provável
  • Foi dito que o fediblock levou à falsa impressão de que a FSE tinha regras permissivas incorretas, junto com reclamações sobre citar um site cujo código-fonte está no kiwifarms; acrescentou-se que a razão pela qual a FSE é bloqueada é principalmente porque a maioria dos usuários não quer se comunicar com grupos de "free speech"

    • Houve o retorno de que a relação entre ser bloqueado e checagem de fatos parece inexistente; antipatia ou bloqueio não seriam necessariamente questões ligadas a fact-checking
  • Foram sugeridas alternativas técnicas potencialmente mais eficientes para defesa contra scraping, como bloquear tráfego na camada de IP ou domínio, ou usar serviços externos de proteção de endpoints de API como o Cloudflare; ainda assim, foi mencionado que esses serviços também trazem custo e talvez não sejam adequados para um site com o perfil do Free Speech Extremist; também foi levantado que, do ponto de vista financeiro, bloquear tráfego malicioso pode até gerar economia

    • Também compartilhei experiência prática: cheguei a executar no servidor comandos para bloquear IPs de scraping, mas logo vi o padrão de novas tentativas vindas de IPs residenciais novos nos EUA, usados como proxy
  • Foi apontado que surgiu um problema envolvendo pedófilos na FSE, com o complemento de que isso é um problema do Fediverse em geral e também de lugares como o Discord

    • Houve concordância de que o mesmo tipo de problema pode acontecer em qualquer espaço online onde não há uso de nome real e é possível enviar fotos
    • Também foi apontado que plataformas de mensageria anônima como Signal e Telegram correm o mesmo risco
  • Foi questionado por que a FSE (Free Speech Extremist) deveria receber o rótulo de "extremista", levantando a dúvida sobre por que, em um país que valoriza a liberdade de expressão garantida pela Constituição dos EUA, isso precisaria ser visto como extremismo

    • Foi apontado que, pelo humor característico do autor, a própria expressão é quase uma piada; na prática, o alcance e os limites da liberdade de expressão continuam sendo tema de debate dentro do próprio sistema jurídico americano, e foi analisado que a política da instância FSE opera com a ideia de que "fala legalmente permitida deve, em princípio, ser permitida mesmo que seja repulsiva ou ofensiva"; também houve a opinião sincera de que se concorda com o princípio, mas não se teria coragem de segui-lo integralmente na prática; em contraste, foi explicado que a maioria das outras instâncias da federação opera com regras rígidas e listas de bloqueio, com link relacionado
    • Foi apontado que levantar esse debate se torna ainda mais importante em um episódio que mostra o FBI evitando ou violando diretamente deveres constitucionais
    • Foi mencionado que "Extremist" é uma forma pejorativa de "radical" e que, histórica e culturalmente, qualquer posição vista como controversa acaba recebendo rótulos assim
    • Foi explicado que os direitos garantidos pela Constituição dos EUA não são absolutos e que os tribunais já estabeleceram limites claros; por isso, quando alguém defende algo fora desses limites na prática, opositores tendem a rotular isso facilmente como "extremismo"
    • Foi transmitida a ideia de que extremistas sempre priorizam um único valor acima de todos os outros; por exemplo, se alguém tratasse respirar como absolutamente mais importante do que comer ou beber, isso até faria sentido no curtíssimo prazo, mas causaria problemas no médio e longo prazo; a metáfora serviu para destacar a necessidade de equilíbrio entre vários valores
  • Foi resumido em uma frase que administrar espaços online é, na prática, um trabalho extremamente desgastante