29 pontos por GN⁺ 2025-12-21 | 7 comentários | Compartilhar no WhatsApp
  • Anna’s Archive fez backup de todos os metadados e arquivos de música do Spotify e os publicou como um arquivo torrent de cerca de 300 TB
  • Inclui metadados de cerca de 256 milhões de faixas e 86 milhões de arquivos de música, cobrindo 99,6% das reproduções
  • Armazena faixas populares na qualidade original OGG Vorbis 160kbit/s e faixas menos populares em OGG Opus 75kbit/s, alcançando preservação eficiente
  • Os dados são fornecidos no formato de banco de dados SQLite, incluindo até a estrutura detalhada de playlists, recursos de áudio e capas de álbuns
  • É o primeiro arquivo de preservação musical totalmente aberto do mundo, criado para preservar permanentemente o legado musical da humanidade contra desastres naturais, guerras, cortes de orçamento e mais

Visão geral do projeto

  • Anna’s Archive fez backup por meio de raspagem em grande escala de todos os metadados e arquivos musicais do Spotify
    • Volume total de cerca de 300 TB, distribuído na forma de torrents agrupados por popularidade
    • Inclui 256 milhões de faixas e 186 milhões de códigos ISRC únicos
  • Este arquivo é um repositório de preservação musical totalmente aberto que qualquer pessoa pode espelhar, incluindo 86 milhões de arquivos de música
    • Isso representa cerca de 99,6% de toda a audição no Spotify
  • A Anna’s Archive antes focava na preservação centrada em texto (livros, artigos etc.), mas agora se expandiu para a música, uma mídia não textual
  • Após descobrir um método de raspagem estrutural do Spotify, passou a promover a construção de um arquivo voltado à preservação musical

Limites da preservação musical existente

  • As tentativas anteriores de preservação musical tinham três grandes problemas
    1. Viés em favor de artistas populares, deixando a música de nicho de lado
    2. Obsessão por qualidade sem perdas, resultando em uso ineficiente de armazenamento
    3. Ausência de uma lista de torrents representativa de toda a música
  • Este backup do Spotify complementa essas limitações e constrói um arquivo musical voltado à preservação

Composição dos dados e estatísticas

  • Foram obtidos metadados de 99,9% das cerca de 256 milhões de faixas do Spotify
  • A priorização foi feita com base no indicador de popularidade (popularity)
    • Faixas com popularity>0 são armazenadas na qualidade original OGG Vorbis 160kbit/s
    • Faixas com popularity=0 são recodificadas em OGG Opus 75kbit/s
  • Estão incluídas a maioria das músicas lançadas antes de julho de 2025
  • O total de streams das 3 faixas do topo (Lady Gaga, Billie Eilish e Bad Bunny) é maior do que a soma das 20 milhões a 100 milhões de faixas da base
  • Mais de 70% de todas as músicas são faixas pouco populares com menos de 1.000 reproduções

Estrutura de distribuição via torrent

  • Os dados são compostos de duas partes: metadados e arquivos musicais
    • Metadados: fornecidos como SQLite DB, cerca de 200 GB (compactado)
    • Dados de análise de áudio: 4 TB (compactado)
  • Os arquivos de música são distribuídos no formato Anna’s Archive Containers (AAC)
    • Após remover pacotes OGG incorretos do Spotify, foram inseridos metadados como título, ISRC, capa do álbum e informações de replay gain
    • Alguns arquivos têm erro na tag REPLAYGAIN_ALBUM_PEAK

Exploração e análise dos dados

  • Distribuição de popularidade: a maior parte da audição ocorre em músicas na faixa de popularity 50~80
  • Duração das faixas: há picos em 2, 3 e 4 minutos
  • Inclui estatísticas sobre conteúdo explícito (Explicit) e faixas com ISRC duplicado
  • Distribuição de gêneros dos artistas: oferece visualizações por gêneros detalhados e gêneros agrupados
  • Análise do ano de lançamento dos álbuns: aumento recente de músicas geradas automaticamente e por IA
  • Análise de recursos de áudio: BPM médio em torno de 120, com confirmação da correlação entre loudness e energy

Estrutura detalhada dos metadados

  • Principais arquivos SQLite
    • spotify_clean.sqlite3: réplica quase completa da API de artistas, álbuns e faixas
    • spotify_clean_audio_features.sqlite3: armazena recursos de áudio por faixa, como BPM, key, energy e valence
    • spotify_clean_playlists.sqlite3: inclui 6,6 milhões de playlists e 1,7 bilhão de itens de faixa
    • spotify_clean_track_files.sqlite3: mapeamento entre faixas e arquivos reais, incluindo status do arquivo, hash SHA256 e informações de licenciador
  • Arquivos JSONL adicionais incluem dados de audiolivros, podcasts, shows e episódios
  • spotify_2025_07_coverart.tar.torrent armazena arquivos de imagem das capas dos álbuns

Participação e pedido de preservação

  • A Anna’s Archive pede doações e participação em seeding de torrents
    • Mesmo um seeding pequeno já pode contribuir para a preservação completa
  • O objetivo é preservar permanentemente o legado musical da humanidade contra desastres naturais, guerras, cortes de orçamento e mais

Recursos adicionais e experimentos

  • É possível implementar um recurso de “True Shuffle” para todas as faixas do Spotify
    • Por meio de consultas SQLite, seria possível gerar listas de reprodução realmente aleatórias
  • Se houver interesse suficiente no futuro, mencionam a possibilidade de adicionar download de arquivos individuais

Resumo

  • A Anna’s Archive fez backup de quase todos os dados do Spotify e construiu a maior base pública de metadados musicais do mundo
  • Como arquivo de preservação totalmente aberto, qualquer pessoa pode espelhar os dados
  • É um projeto que reúne transparência na estrutura dos dados, precisão técnica e preservação de longo prazo
  • Vai além da dependência da indústria musical de plataformas comerciais e estabelece uma base para a preservação permanente do registro cultural

7 comentários

 
tested 2025-12-24

Será que o Spotify vai ficar irritado?

 
lsdcnu 2026-01-25

Spotify가 Anna’s Archive 상대 소송에서 승소하여 .org 도메인 폐쇄
Pelas notícias recentes, parece que foi processado.

 
vndk2234 2025-12-23

Em algum lugar entre um fora da lei justiceiro e um fora da lei qualquer...

 
roxie 2025-12-21

Os direitos autorais...

 
devworld 2025-12-21

Agora, parece que modelos de geração musical que antes ficavam restritos ao uso comercial, como o Suno, também poderão ser treinados como open-weight e open-source.

 
daumkakao 2025-12-21

É impressionante demais, nossa.

 
GN⁺ 2025-12-21
Comentários do Hacker News
  • Isso é realmente impressionante
    Eu não sabia que o DRM do Spotify tinha sido quebrado a ponto de permitir downloads em massa assim
    Talvez isso não pareça muito útil para usuários comuns, mas pode ser uma oportunidade enorme para pesquisadores de classificação ou geração musical
    Só que provavelmente vai ser difícil divulgar com qual conjunto de dados foi treinado
    Fico curioso se isso foi feito a pedido de pesquisadores de IA ou se foi simplesmente por preservação

    • Não concordo que isso não tenha utilidade para o usuário comum
      Dispositivos e apps que encontram automaticamente streams ilegais de TV e filmes já se popularizaram
      Tecnicamente isso é totalmente viável, e até gente não técnica da minha família usa esse tipo de coisa
      Mas a equipe do Anna’s Archive é um grupo movido por motivações ideológicas, então não é algo voltado para empresas de IA
    • Eu não uso Spotify
      Quando precisava de música, baixava do YouTube com ytldp, mas hoje em dia quase nem faço isso
      Uso mais o YouTube para notícias ou como som de fundo do que para música
      É meio triste que o Google controle isso
    • Na verdade, os metadados podem valer mais do que os arquivos de música em si
    • Dizer que isso é “para pesquisadores de classificação musical” soa como uma racionalização para não precisar apoiar artistas
      O caminho certo seria regular empresas como o Spotify para garantir a remuneração justa dos músicos
      Divulgar esse tipo de dado só incentiva ainda mais a geração de lixo de IA
    • Parece que isso vai facilitar criar uma ferramenta de coleta automática de música no estilo do Lidarr, mas em nível de faixa
  • Quando você pensa na escala, é realmente gigantesco
    O antigo What.CD era chamado de “Biblioteca de Alexandria da música”, e mesmo assim estava na casa de alguns milhões de torrents
    Já os rips do Spotify do Anna incluem 186 milhões de registros únicos
    Claro que no final deve haver coisas como música de bot misturadas ali, mas a escala por si só é esmagadora

    • O que tornava o What.CD incrível não era só a quantidade, mas a raridade e a qualidade
      Tinha desde EPs iniciais de bandas do interior até discos raros que não podiam entrar no streaming por causa de direitos obscuros
      A alegria da descoberta criada pelas recomendações da comunidade, reviews e playlists feitas à mão é algo que algoritmo nenhum substitui
      Graças a isso conheci muitos artistas que ainda adoro até hoje
    • Antes do What.CD existia o OiNK’s Pink Palace
      Era uma comunidade movida puramente pelo amor à música, e até o Trent Reznor elogiou isso publicamente
      É uma pena que comunidades musicais tão genuínas tenham praticamente desaparecido hoje em dia
    • Sim, no What.CD havia muita música que não está no Spotify, como CDs, bootlegs e fitas
      O Spotify tem a limitação de incluir apenas faixas com licença de streaming
    • Eu também ouço bastante faixas de nicho no YouTube Music, e há muitos comentários dizendo “que pena que isso não está no Spotify”
      Ainda falta muito para isso virar um arquivo musical completo
    • O What.CD contava torrents por álbum, enquanto o Spotify inclui até podcasts e conteúdo gerado por IA
  • Eu realmente acho que esse tipo de projeto é necessário
    Lugares como o Anna’s Archive são tão importantes quanto o Internet Archive
    O foco é a preservação do patrimônio digital, seja de sites, jogos ou livros
    Conforme as gerações mudam, muita gente já não consegue mais vivenciar a criatividade da web do passado
    Acho que a nossa é a geração que ainda tem a oportunidade de preservar esse tipo de coisa

  • Hoje em dia, com músicas e filmes desaparecendo das plataformas um a um, esse tipo de preservação é realmente importante
    Eu mesmo já tenho três playlists acinzentadas — até os títulos sumiram, então nem sei mais o que eu ouvia
    Por isso compro em CD as músicas que quero ter para sempre, e simplesmente deixo a dance music passar

  • Esse tipo de trabalho é realmente importante
    Basta olhar artigos de 10 anos atrás: a maioria dos links externos já virou 404
    Dá para questionar se tudo deve ser preservado, mas, se for possível, deve ser preservado

  • Impressionante
    O simples fato de terem feito scraping em massa do Spotify já é fascinante
    Eles não vão divulgar os detalhes do método, mas deve ser uma leitura interessante

    • Na verdade, não é tão difícil assim
      Só é melhor não abusar e manter isso no nível de projeto de hobby
      Meu servidor de música também reproduz faixas do Spotify desse jeito
      link do código
    • O mais impressionante é que 300 TB de dados foram transferidos anonimamente
    • Imagino que tenham usado algo como isto → spotizerr-spotify
  • Pessoalmente, isso não me agrada muito
    Já existem fontes com qualidade de áudio melhor, e um rip em massa desse tipo só aumenta o risco legal
    Principalmente porque fico preocupado com o impacto sobre até bibliotecas de ebooks
    O próprio aviso dizia que “a música já está preservada o suficiente”, então isso deveria ter sido separado em outro projeto

  • Uma provedora de internet alemã (SIM.de/Drillisch) estava bloqueando o Anna’s Archive
    Quando desliguei a VPN, o site não abria, e só funcionava ao ligar o Mullvad VPN
    Eu não sabia que havia esse tipo de censura na Alemanha

    • Tive uma experiência parecida
      Se você pesquisar alextud popcorntime, o resultado do PopcornTimeTV GitHub não aparece
      Google, Kagi, DuckDuckGo e Bing fazem a mesma coisa
      Os forks aparecem, mas o original não, então suspeito de filtragem de busca
  • Antigamente houve músicas que foram apagadas de várias plataformas ao mesmo tempo
    Fico me perguntando se seria possível encontrá-las novamente nesse tipo de arquivo
    Hoje em dia surgem versões modernas de mídia perdida todos os dias
    Alguns publishers tentam eliminar deliberadamente todas as cópias, e acho isso mentalmente grotesco
    Destruir completamente uma obra criativa não pode ser justificado por motivo algum
    Se ela só continua existindo numa fita guardada em um cofre de aço, isso não é muito diferente de ela não existir

  • Tecnicamente, também seria possível criar um servidor de streaming com torrents no backend
    A ideia seria baixar só as partes necessárias conforme chegam as requisições

    • O Spotify também usava streaming P2P até 2014
      link para o artigo
    • Eu também montei recentemente uma *stack arr de homelab, mas ainda não sinto que música valha tanto a pena pelo preço
      O Spotify ainda é barato o bastante para eu não me preocupar, mas o problema da remuneração dos artistas continua
      Espero que um dia seja fácil montar um servidor de música self-hosted baseado em torrents
    • Tecnicamente não deveria ser feito, mas é possível
    • É meio no estilo do Popcorn Time