- Projeto que restaurou as postagens desaparecidas de Anthony Bourdain no Li.st a partir de dados públicos de rastreamento da web
- Uso de Common Crawl e Internet Archive para explorar e restaurar HTML remanescente do domínio li.st
- Uso do script Python
commoncrawl_search.py para coletar automaticamente documentos HTML de buckets S3 públicos
- Muito do texto das postagens foi restaurado, mas a maioria dos arquivos de imagem foi perdida, com apenas alguns itens preservados em HTML
- Os resultados da restauração foram publicados em um repositório no GitHub, permitindo que a comunidade participe de novas tentativas de restauração e preservação
Visão geral do projeto
- Tentativa de restaurar as postagens perdidas do Li.st de Bourdain usando dados públicos de rastreamento
- Após ver que uma lista parcial já havia sido publicada no site GReg TeChnoLogY, foi explorada a possibilidade de restauração
- Com base em experiência em segurança e crawling, foram usados apenas arquivos de dados com acesso público
- Foi feita uma busca no índice documental do Common Crawl para coletar dados do caminho
https://li.st/Bourdain*
- Execução em ambiente Python 3.14.2 após instalar as dependências de
requirements.txt
- Exemplo de comando:
python commoncrawl_search.py "https://li.st/Bourdain*" --all --download
Processo de restauração e ferramentas
commoncrawl_search.py envia requisições ao índice de conjuntos de dados específicos e baixa os itens correspondentes de buckets S3 públicos
- Como os documentos HTML são pequenos, a restauração foi facilitada
- Os resultados restaurados foram organizados no repositório GitHub (https://github.com/thecsw/bourdain)
- Cada arquivo HTML mantém o layout original, mas foi reconstituído sem alterar o conteúdo
- Não é conteúdo gerado por IA; apenas parte do código foi escrita com ferramentas de automação
Principais postagens restauradas
- things-i-no-longer-have-time-or-patience-for: lista com ‘Cocaine’, ‘True Detective’, ‘Beer nerds’ etc.
- nice-views: paisagens de viagem em Montana, Porto Rico, Naxos, LA, Istambul etc.
- if-i-were-trapped-on-a-desert-island-with-only-three-tv-series: inclui ‘The Wire’, ‘Tinker, Tailor, Soldier, Spy’ etc.
- objects-of-desire: itens pessoais de coleção como óculos de sol vintage, ferramentas de trepanação, kimono de BJJ, faca Kramer etc.
- four-spy-novels-by-real-spies-and-one-not-by-a-spy: recomendação de romances de espionagem de autores como Somerset Maugham e Graham Greene
- hotel-slut-that-s-me: lista de hotéis ao redor do mundo com comentários pessoais afetuosos
- some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures e várias outras listas relacionadas a Nova York
- A maioria das postagens teve o texto restaurado com sucesso, mas todos os arquivos de imagem foram perdidos
Itens que não puderam ser restaurados
- Apenas a postagem David Bowie Related (14 de janeiro de 2016) não foi encontrada no Common Crawl
Significado do projeto e próximos passos
- O trabalho de restauração é descrito como uma tentativa de arqueologia digital, demonstrando a possibilidade de preservar conteúdo antigo da web
- Embora a restauração de imagens seja difícil, a criação de um arquivo textual foi bem-sucedida
- Por meio de um repositório Git público, qualquer pessoa pode participar de novas restaurações
- Também é apontada a necessidade de criar arquivos públicos e buscar formas de preservação de longo prazo
1 comentários
Comentários do Hacker News
Eu também caí no mesmo rabbit hole e fiz exatamente a mesma coisa na semana passada
Link para a minha tentativa
Se por acaso você se inspirou nisso, seria legal mencionar; se não, é interessante ver que chegamos independentemente à mesma ideia
De qualquer forma, atualizei tanto o git quanto a página web para mencionar explicitamente o seu trabalho. Coloquei um link direto para o seu site; me avise se isso estiver tudo bem
Como continuação deste post, restaurei todos os posts no li.st do Anthony Bourdain que pareciam ter se perdido com o tempo
Acho que realmente não existiu ninguém como o Tony
Eu gostava muito da série dele, mas fiquei decepcionado quando ele visitou minha cidade natal e a retratou completamente errado
Eu entendo o olhar anti-establishment e alternativo, mas ele andou com golpistas locais e pessoas que administravam restaurantes falidos, apresentando-os como ‘cozinheiros progressistas’
Depois disso, passei a rever os outros episódios dele também
Fico muito feliz em ver esse material restaurado :)
Seria ótimo se as imagens também pudessem ser recuperadas. Fiquei curioso sobre a lista de discos que ele mencionou
Fico feliz em saber que o SIBERIA reabriu, da lista “Great Dead Bars of New York”
Desta vez ele recomeçou dentro da estação 59th Street/Columbus Circle
Eu sei que é melhor evitar falar de design de site, mas fonte cinza-claro sobre fundo branco é difícil demais de ler. Especialmente para olhos mais velhos, fica quase invisível
O bar favorito dele, o Siberia, reabriu
Fica no extremo sul da estação de metrô Columbus Circle, a dona Tracy continua a mesma, e o clima sem firulas continua igual ao de antes
Se é uma lista de filmes que inclui Tampopo, então para mim é automaticamente uma boa lista
Sou realmente muito grato por esse trabalho de restauração
Como fã do Bourdain, acho que ele foi uma das figuras mais interessantes do espírito do seu tempo, apesar das falhas humanas
A série Parts Unknown foi um dos melhores conteúdos antropológicos que já vi na TV. Também achei este post muito interessante de ler