Backup completo do Spotify é disponibilizado publicamente

(annas-archive.li)

29 pontos por GN⁺ 2025-12-21 | 7 comentários | Compartilhar no WhatsApp

Anna’s Archive fez backup de todos os metadados e arquivos de música do Spotify e os publicou como um arquivo torrent de cerca de 300 TB
Inclui metadados de cerca de 256 milhões de faixas e 86 milhões de arquivos de música, cobrindo 99,6% das reproduções
Armazena faixas populares na qualidade original OGG Vorbis 160kbit/s e faixas menos populares em OGG Opus 75kbit/s, alcançando preservação eficiente
Os dados são fornecidos no formato de banco de dados SQLite, incluindo até a estrutura detalhada de playlists, recursos de áudio e capas de álbuns
É o primeiro arquivo de preservação musical totalmente aberto do mundo, criado para preservar permanentemente o legado musical da humanidade contra desastres naturais, guerras, cortes de orçamento e mais

Visão geral do projeto

Anna’s Archive fez backup por meio de raspagem em grande escala de todos os metadados e arquivos musicais do Spotify
- Volume total de cerca de 300 TB, distribuído na forma de torrents agrupados por popularidade
- Inclui 256 milhões de faixas e 186 milhões de códigos ISRC únicos
Este arquivo é um repositório de preservação musical totalmente aberto que qualquer pessoa pode espelhar, incluindo 86 milhões de arquivos de música
- Isso representa cerca de 99,6% de toda a audição no Spotify
A Anna’s Archive antes focava na preservação centrada em texto (livros, artigos etc.), mas agora se expandiu para a música, uma mídia não textual
Após descobrir um método de raspagem estrutural do Spotify, passou a promover a construção de um arquivo voltado à preservação musical

Limites da preservação musical existente

As tentativas anteriores de preservação musical tinham três grandes problemas
1. Viés em favor de artistas populares, deixando a música de nicho de lado
2. Obsessão por qualidade sem perdas, resultando em uso ineficiente de armazenamento
3. Ausência de uma lista de torrents representativa de toda a música
Este backup do Spotify complementa essas limitações e constrói um arquivo musical voltado à preservação

Composição dos dados e estatísticas

Foram obtidos metadados de 99,9% das cerca de 256 milhões de faixas do Spotify
A priorização foi feita com base no indicador de popularidade (popularity)
- Faixas com popularity>0 são armazenadas na qualidade original OGG Vorbis 160kbit/s
- Faixas com popularity=0 são recodificadas em OGG Opus 75kbit/s
Estão incluídas a maioria das músicas lançadas antes de julho de 2025
O total de streams das 3 faixas do topo (Lady Gaga, Billie Eilish e Bad Bunny) é maior do que a soma das 20 milhões a 100 milhões de faixas da base
Mais de 70% de todas as músicas são faixas pouco populares com menos de 1.000 reproduções

Estrutura de distribuição via torrent

Os dados são compostos de duas partes: metadados e arquivos musicais
- Metadados: fornecidos como SQLite DB, cerca de 200 GB (compactado)
- Dados de análise de áudio: 4 TB (compactado)
Os arquivos de música são distribuídos no formato Anna’s Archive Containers (AAC)
- Após remover pacotes OGG incorretos do Spotify, foram inseridos metadados como título, ISRC, capa do álbum e informações de replay gain
- Alguns arquivos têm erro na tag REPLAYGAIN_ALBUM_PEAK

Exploração e análise dos dados

Distribuição de popularidade: a maior parte da audição ocorre em músicas na faixa de popularity 50~80
Duração das faixas: há picos em 2, 3 e 4 minutos
Inclui estatísticas sobre conteúdo explícito (Explicit) e faixas com ISRC duplicado
Distribuição de gêneros dos artistas: oferece visualizações por gêneros detalhados e gêneros agrupados
Análise do ano de lançamento dos álbuns: aumento recente de músicas geradas automaticamente e por IA
Análise de recursos de áudio: BPM médio em torno de 120, com confirmação da correlação entre loudness e energy

Estrutura detalhada dos metadados

Principais arquivos SQLite
- spotify_clean.sqlite3: réplica quase completa da API de artistas, álbuns e faixas
- spotify_clean_audio_features.sqlite3: armazena recursos de áudio por faixa, como BPM, key, energy e valence
- spotify_clean_playlists.sqlite3: inclui 6,6 milhões de playlists e 1,7 bilhão de itens de faixa
- spotify_clean_track_files.sqlite3: mapeamento entre faixas e arquivos reais, incluindo status do arquivo, hash SHA256 e informações de licenciador
Arquivos JSONL adicionais incluem dados de audiolivros, podcasts, shows e episódios
spotify_2025_07_coverart.tar.torrent armazena arquivos de imagem das capas dos álbuns

Participação e pedido de preservação

A Anna’s Archive pede doações e participação em seeding de torrents
- Mesmo um seeding pequeno já pode contribuir para a preservação completa
O objetivo é preservar permanentemente o legado musical da humanidade contra desastres naturais, guerras, cortes de orçamento e mais

Recursos adicionais e experimentos

É possível implementar um recurso de “True Shuffle” para todas as faixas do Spotify
- Por meio de consultas SQLite, seria possível gerar listas de reprodução realmente aleatórias
Se houver interesse suficiente no futuro, mencionam a possibilidade de adicionar download de arquivos individuais

Resumo

A Anna’s Archive fez backup de quase todos os dados do Spotify e construiu a maior base pública de metadados musicais do mundo
Como arquivo de preservação totalmente aberto, qualquer pessoa pode espelhar os dados
É um projeto que reúne transparência na estrutura dos dados, precisão técnica e preservação de longo prazo
Vai além da dependência da indústria musical de plataformas comerciais e estabelece uma base para a preservação permanente do registro cultural

7 comentários

tested 2025-12-24

Será que o Spotify vai ficar irritado?

lsdcnu 2026-01-25

Spotify가 Anna’s Archive 상대 소송에서 승소하여 .org 도메인 폐쇄
Pelas notícias recentes, parece que foi processado.

vndk2234 2025-12-23

Em algum lugar entre um fora da lei justiceiro e um fora da lei qualquer...

roxie 2025-12-21

Os direitos autorais...

devworld 2025-12-21

Agora, parece que modelos de geração musical que antes ficavam restritos ao uso comercial, como o Suno, também poderão ser treinados como open-weight e open-source.

daumkakao 2025-12-21

É impressionante demais, nossa.

GN⁺ 2025-12-21

Comentários do Hacker News

Isso é realmente impressionante
Eu não sabia que o DRM do Spotify tinha sido quebrado a ponto de permitir downloads em massa assim
Talvez isso não pareça muito útil para usuários comuns, mas pode ser uma oportunidade enorme para pesquisadores de classificação ou geração musical
Só que provavelmente vai ser difícil divulgar com qual conjunto de dados foi treinado
Fico curioso se isso foi feito a pedido de pesquisadores de IA ou se foi simplesmente por preservação
- Não concordo que isso não tenha utilidade para o usuário comum
  Dispositivos e apps que encontram automaticamente streams ilegais de TV e filmes já se popularizaram
  Tecnicamente isso é totalmente viável, e até gente não técnica da minha família usa esse tipo de coisa
  Mas a equipe do Anna’s Archive é um grupo movido por motivações ideológicas, então não é algo voltado para empresas de IA
- Eu não uso Spotify
  Quando precisava de música, baixava do YouTube com ytldp, mas hoje em dia quase nem faço isso
  Uso mais o YouTube para notícias ou como som de fundo do que para música
  É meio triste que o Google controle isso
- Na verdade, os metadados podem valer mais do que os arquivos de música em si
- Dizer que isso é “para pesquisadores de classificação musical” soa como uma racionalização para não precisar apoiar artistas
  O caminho certo seria regular empresas como o Spotify para garantir a remuneração justa dos músicos
  Divulgar esse tipo de dado só incentiva ainda mais a geração de lixo de IA
- Parece que isso vai facilitar criar uma ferramenta de coleta automática de música no estilo do Lidarr, mas em nível de faixa
Quando você pensa na escala, é realmente gigantesco
O antigo What.CD era chamado de “Biblioteca de Alexandria da música”, e mesmo assim estava na casa de alguns milhões de torrents
Já os rips do Spotify do Anna incluem 186 milhões de registros únicos
Claro que no final deve haver coisas como música de bot misturadas ali, mas a escala por si só é esmagadora
- O que tornava o What.CD incrível não era só a quantidade, mas a raridade e a qualidade
  Tinha desde EPs iniciais de bandas do interior até discos raros que não podiam entrar no streaming por causa de direitos obscuros
  A alegria da descoberta criada pelas recomendações da comunidade, reviews e playlists feitas à mão é algo que algoritmo nenhum substitui
  Graças a isso conheci muitos artistas que ainda adoro até hoje
- Antes do What.CD existia o OiNK’s Pink Palace
  Era uma comunidade movida puramente pelo amor à música, e até o Trent Reznor elogiou isso publicamente
  É uma pena que comunidades musicais tão genuínas tenham praticamente desaparecido hoje em dia
- Sim, no What.CD havia muita música que não está no Spotify, como CDs, bootlegs e fitas
  O Spotify tem a limitação de incluir apenas faixas com licença de streaming
- Eu também ouço bastante faixas de nicho no YouTube Music, e há muitos comentários dizendo “que pena que isso não está no Spotify”
  Ainda falta muito para isso virar um arquivo musical completo
- O What.CD contava torrents por álbum, enquanto o Spotify inclui até podcasts e conteúdo gerado por IA
Eu realmente acho que esse tipo de projeto é necessário
Lugares como o Anna’s Archive são tão importantes quanto o Internet Archive
O foco é a preservação do patrimônio digital, seja de sites, jogos ou livros
Conforme as gerações mudam, muita gente já não consegue mais vivenciar a criatividade da web do passado
Acho que a nossa é a geração que ainda tem a oportunidade de preservar esse tipo de coisa
Hoje em dia, com músicas e filmes desaparecendo das plataformas um a um, esse tipo de preservação é realmente importante
Eu mesmo já tenho três playlists acinzentadas — até os títulos sumiram, então nem sei mais o que eu ouvia
Por isso compro em CD as músicas que quero ter para sempre, e simplesmente deixo a dance music passar
Esse tipo de trabalho é realmente importante
Basta olhar artigos de 10 anos atrás: a maioria dos links externos já virou 404
Dá para questionar se tudo deve ser preservado, mas, se for possível, deve ser preservado
Impressionante
O simples fato de terem feito scraping em massa do Spotify já é fascinante
Eles não vão divulgar os detalhes do método, mas deve ser uma leitura interessante
- Na verdade, não é tão difícil assim
  Só é melhor não abusar e manter isso no nível de projeto de hobby
  Meu servidor de música também reproduz faixas do Spotify desse jeito
  link do código
- O mais impressionante é que 300 TB de dados foram transferidos anonimamente
- Imagino que tenham usado algo como isto → spotizerr-spotify
Pessoalmente, isso não me agrada muito
Já existem fontes com qualidade de áudio melhor, e um rip em massa desse tipo só aumenta o risco legal
Principalmente porque fico preocupado com o impacto sobre até bibliotecas de ebooks
O próprio aviso dizia que “a música já está preservada o suficiente”, então isso deveria ter sido separado em outro projeto
Uma provedora de internet alemã (SIM.de/Drillisch) estava bloqueando o Anna’s Archive
Quando desliguei a VPN, o site não abria, e só funcionava ao ligar o Mullvad VPN
Eu não sabia que havia esse tipo de censura na Alemanha
- Tive uma experiência parecida
  Se você pesquisar alextud popcorntime, o resultado do PopcornTimeTV GitHub não aparece
  Google, Kagi, DuckDuckGo e Bing fazem a mesma coisa
  Os forks aparecem, mas o original não, então suspeito de filtragem de busca
Antigamente houve músicas que foram apagadas de várias plataformas ao mesmo tempo
Fico me perguntando se seria possível encontrá-las novamente nesse tipo de arquivo
Hoje em dia surgem versões modernas de mídia perdida todos os dias
Alguns publishers tentam eliminar deliberadamente todas as cópias, e acho isso mentalmente grotesco
Destruir completamente uma obra criativa não pode ser justificado por motivo algum
Se ela só continua existindo numa fita guardada em um cofre de aço, isso não é muito diferente de ela não existir
Tecnicamente, também seria possível criar um servidor de streaming com torrents no backend
A ideia seria baixar só as partes necessárias conforme chegam as requisições
- O Spotify também usava streaming P2P até 2014
  link para o artigo
- Eu também montei recentemente uma *stack arr de homelab, mas ainda não sinto que música valha tanto a pena pelo preço
  O Spotify ainda é barato o bastante para eu não me preocupar, mas o problema da remuneração dos artistas continua
  Espero que um dia seja fácil montar um servidor de música self-hosted baseado em torrents
- Tecnicamente não deveria ser feito, mas é possível
- É meio no estilo do Popcorn Time