A armadilha do ISBN

(rygoldstein.com)

8 pontos por GN⁺ 2026-02-21 | 4 comentários | Compartilhar no WhatsApp

Ao tentar criar um app de registro de livros limpo e prático, como o app de registro de filmes Letterboxd, o principal obstáculo acabou sendo um problema estrutural do sistema ISBN
Foi descoberto que a Google Books API, usada para a função de busca de livros, retorna várias versões de ISBN da mesma obra como itens separados
Isso acontece porque, na estrutura bibliográfica (modelo FRBR), há distinção entre ‘obra (work)’, ‘expressão (expression)’ e ‘manifestação (manifestation)’, e mesmo quando o usuário só quer registrar que ‘leu um livro’, os dados já vêm excessivamente fragmentados
A OpenLibrary oferece uma estrutura de dados centrada em ‘obra’, mas ainda assim há duplicação e incompletude, então ela não se torna uma alternativa perfeita
Diferentemente do banco de dados de filmes TMDB, no campo dos livros não existe uma infraestrutura pública de metadados de alta qualidade, e isso é um grande obstáculo para o desenvolvimento de plataformas sociais centradas em livros

Comparação entre Letterboxd e plataformas de livros

O Letterboxd permite gerenciar com facilidade o registro de filmes assistidos graças à sua interface limpa e a recursos sociais não intrusivos
- O usuário pode registrar de forma simples quais filmes viu e quando viu
Já o GoodReads torna o registro de livros desconfortável por causa de uma UI complexa e de uma estrutura com cliques em múltiplas etapas
- ‘Livros lidos’ e ‘livros para ler’ ficam misturados na mesma tela, enquanto desafios de leitura, newsletters e outros elementos extras ocupam espaço
- O motivo de o GoodReads ser tão inconveniente é que ele é um produto derivado de baixa prioridade dentro do negócio de venda de livros da Amazon
O Storygraph também sofre de problemas semelhantes, então o usuário acaba gerenciando seus registros pessoais em arquivos do Obsidian

Google Books API e o problema do ISBN

Para criar a função de busca de livros, foi usada a Google Books API, mas surgiu o fenômeno de resultados duplicados da mesma obra por causa de vários ISBNs
- Por exemplo, ao buscar “The Last Unicorn”, capa dura, brochura, eBook, edições revisadas etc. são retornados separadamente com ISBNs diferentes
Cada ISBN representa um formato ou edição diferente, mas o usuário quer apenas registrar o fato de que ‘leu o livro’
Essa estrutura dificulta a busca e a integração de dados, tornando-a inadequada para construir um sistema de registro por obra única

O modelo FRBR e a abordagem por ‘obra’

O modelo FRBR, usado na biblioteconomia, divide os dados de livros em quatro camadas
- Work (obra): a criação abstrata em si (ex.: o romance "The Last Unicorn")
- Expression (expressão): uma edição específica
- Manifestation (manifestação): o formato físico de uma edição específica (brochura, capa dura etc.)
- Item (item): um objeto físico individual dentro de uma coleção
O Google Books retorna principalmente dados no nível de ‘expressão’ ou ‘manifestação’, mas o usuário precisa de uma unidade abstrata no nível de ‘obra’
A OpenLibrary oferece uma estrutura de dados centrada em ‘obra’, mas ainda assim existem itens duplicados
- Ex.: ao buscar Hotel Iris, de Yoko Ogawa, a mesma obra aparece quatro vezes em duplicidade

Limites da qualidade dos dados e do ecossistema

O Letterboxd funciona com base no The Movie Database (TMDB), e o TMDB possui cerca de 1 milhão de dados de filmes
Já a OpenLibrary inclui mais de 40 milhões de obras, mas há muitos dados incompletos e pouco refinados
Os dados de filmes têm qualidade mais alta porque combinam plataformas comerciais com contribuições da comunidade, enquanto os dados de livros têm escala maior e menos financiamento
Por isso, falta a base de dados necessária para criar um serviço ao estilo Letterboxd voltado para livros

Conclusão e tentativas futuras

Como não existe uma infraestrutura open source completa de metadados de livros, desenvolver uma plataforma de registro de livros é uma tarefa muito mais difícil do que no caso dos filmes
O autor ainda pretende tentar construir um sistema independente de registro de livros
Assim como a experiência de descobrir preferências cinematográficas, o registro de leitura também precisa de uma abordagem personalizada

4 comentários

nemorize 2026-02-21

Pois é... ISBN é o identificador de uma publicação, não do conteúdo...
O título está chamativo demais kkk

roxie 2026-02-27

Parece que o campo do identificador do conteúdo está em branco T_T

yeobi222 2026-02-22

Também é verdade que o sistema ISBN não considera muito uma classificação realmente sistemática...
Pelas regras, cada nova edição deve receber um número separado, mas como a categoria mais baixa acaba sendo a editora, apesar da necessidade de classificar por obra, isso não é fácil de gerenciar.

GN⁺ 2026-02-21

Comentários do Hacker News

Isso lembra a estrutura de banco de dados do MusicBrainz
Por exemplo, o álbum Nevermind do Nirvana é um único release group, mas existem várias versões em fita, CD, LP, promocionais e relançamentos por país
Em alguns casos, o número de catálogo ou o código de barras diferem e permitem distinguir as edições, mas em outros casos versões diferentes acabam marcadas com o mesmo código
Mesmo a mesma gravação pode mudar por causa de remasterização, edição ou censura
O MusicBrainz acompanha essas diferenças com bastante detalhe e distingue claramente quando é ou não a mesma gravação
Quando vários artistas gravam a mesma obra, como em covers ou standards, ele conecta as informações de compositor e letrista no nível de work
Acho esse tipo de projeto refinado de banco de dados relacional muito útil para registrar identidade e diferenças entre obras criativas
Link relacionado
- Recentemente, também descobri um banco de dados para livros chamado BookBrainz, atualmente em versão alfa
  bookbrainz.org/about
  Se usar um esquema parecido com o do MusicBrainz, imagino que será muito fácil extrair os dados
- Já tentei cadastrar no MusicBrainz um CD do concerto duplo para violino de Bach e enfrentei um erro de indexação de CD-ID
  Criei uma conta, enviei os dados manualmente e, depois de várias correções, consegui registrar
  Encontrei informações do mesmo CD da edição australiana em um site chinês e usei isso como referência, o que me fez perceber que existem versões sutilmente diferentes por mercado
  Sinto muita empatia pela equipe do MusicBrainz nesse ponto: as pessoas são relaxadas demais na hora de atualizar um “identificador único”
- O álbum In My Tribe, do 10000 Maniacs, é um bom exemplo
  As edições de 1987 e 1989 (a versão sem “Peace Train”) tinham o mesmo número UPC
  Lembro de ter penado em lojas de CD usados em meados dos anos 90 tentando encontrar a versão anterior à remoção
- Recentemente escaneei códigos de barras de CDs e o MusicBrainz reconheceu cerca de 90~95%
  O restante foi confuso porque havia várias versões com números de faixas diferentes dependendo da região
  Se existisse um recurso para especificar informações de artista por faixa, acho que a precisão da busca seria maior
- No caso de um livro publicado pela Kindle Press, o ISBN é o mesmo, mas existem pelo menos 3 revisões oficiais e várias revisões menores
  Mesmo diferenças como correções de typos já dificultam a distinção
O Wikidata é um banco de dados público compatível com FRBR, e a qualidade dos dados sobre livros melhorou muito nos últimos anos
O Hotel Iris, de Yoko Ogawa, citado como exemplo, não é a mesma obra, e sim traduções diferentes
Traduções devem ser vistas como obras derivadas, distintas do original
Ainda assim, as listagens estão misturadas e há muitos erros
- No FRBR, em geral as traduções também são consideradas a mesma obra (work)
  No OpenLibrary, elas são agrupadas em um único work, e idioma e tradutor ficam salvos na edition
  A duplicação atual parece ter surgido no processo de mesclagem automática por idioma
- Mesmo que se trate tradução como derivação separada, na busca elas deveriam ser agrupadas como uma única entidade
  O ideal é permitir que o usuário navegue junto pelo original e pelas traduções
Recomendo o LibraryThing
Acho muito melhor que o Goodreads
É importante distinguir a estrutura WEMI (work, expression, manifestation, item) dos livros
“Li Dom Quixote” é uma afirmação no nível de work, enquanto “meu exemplar tem mancha de café” é uma afirmação no nível de item
Em uma competição de leitura estadual, os livros eram gerenciados apenas por ISBN, o que dificultava para os alunos encontrá-los
Então adicionei um JOIN em SQL usando o banco de dados de mapeamento de ISBNs do WorldCat para ligar ISBNs diferentes do mesmo conteúdo
Como resultado, ao longo de 10 anos os alunos leram mais de um milhão de livros adicionais
- Em seguida apareceu uma pergunta pedindo a query SQL
A Anna’s Archive contribui bastante para organizar dados relacionados a ISBN
Eles usaram scraping do WorldCat e atualmente também estão montando um banco de dados de ISSN (periódicos)
Os dados de ISSN estão em situação bem pior do que os de livros
Vale lembrar que a Open Library começou a partir dos trabalhos iniciais de Brewster Kahle (fundador da Internet Archive) e Aaron Swartz
Blog relacionado
Já aconteceu várias vezes de eu ver um livro numa livraria, comprar e, quando cheguei em casa, perceber que já tinha exatamente a mesma edição
Se eu pudesse pesquisar minha coleção pelo ISBN, teria evitado essas compras duplicadas
- Houve também a resposta de alguém dizendo que tem quase mil ebooks e sabe exatamente quais livros possui, então isso nunca acontece
Em um projeto pessoal, já criei um site de gerenciamento de livros usando a API do ISBNDB
Ao buscar por título, os resultados ficavam muito confusos porque se misturavam inúmeras edições, idiomas e formatos de encadernação
Organizei os resultados com base em similaridade de Jaccard, mas não ficou perfeito
Estou considerando o OpenLibrary como alternativa
Acho o app StoryGraph bem razoável
Gosto da interface, que leva em conta usuários que querem evitar recursos de IA
A busca também é muito boa
- O Hardcover.app também é uma boa alternativa
  Pessoalmente uso desde 2017 e escolhi justamente com o objetivo de sair do oligopólio
O ISBN inclui um identificador da editora, então o mesmo livro pode ter ISBNs diferentes em mercados diferentes
- Na Nova Zelândia, os ISBNs são emitidos por meio de um serviço governamental de biblioteca, e é preciso registrar o nome da editora
  É um serviço gratuito, mas isso pode variar de país para país
- ISBNs são comprados por editoras ou empresas em blocos, e depois atribuídos internamente a cada selo
  Então o nome da editora não entra diretamente, mas a estrutura permite essa identificação