- O arXiv é um repositório de artigos científicos em acesso aberto criado por Paul Ginsparg em 1991 e, até hoje, é usado por cientistas do mundo todo como uma das plataformas mais importantes
- Ao contornar a estrutura tradicional de publicação acadêmica, lenta e cara, ele permitiu que pesquisadores compartilhassem instantaneamente artigos antes da revisão por pares (
preprints), contribuindo para a colaboração científica e a inovação - O arXiv começou como um simples script de automação, mas hoje se tornou uma plataforma gigantesca, com mais de 20 mil submissões por mês e 5 milhões de usuários
- No início, era operado de forma informal e leve, mas depois passou por várias crises envolvendo complexidade do código operacional, conflitos internos e obsolescência tecnológica
- Atualmente, com apoio da Simons Foundation e sob nova liderança, o arXiv está em processo de migração para a nuvem e refatoração de código em Python, enquanto Ginsparg continua focado na questão da filtragem de qualidade
A origem do arXiv e o desafio à estrutura da publicação científica
- O físico Paul Ginsparg citou uma fala de The Godfather para expressar o sentimento de não conseguir se desligar completamente da plataforma que criou
> “Just when I thought I was out, they pull me back in!”
> “Justo quando achei que tinha saído, eles me puxaram de volta!” - Professor da Cornell University e vencedor do MacArthur Genius Grant, ele desenvolveu há 35 anos o arXiv, um repositório digital para compartilhar artigos antes da revisão por pares (
preprints) - Até hoje, o arXiv.org mantém um design clássico no estilo web 1.0 e os símbolos da Cornell, mas, apesar dessa aparência simples, o arXiv é uma plataforma que provocou uma mudança fundamental na estrutura de circulação do conhecimento científico
- Se o arXiv saísse do ar, isso poderia causar graves interrupções no trabalho de cientistas no mundo todo; na prática, muitos matemáticos e físicos acessam o arXiv todos os dias
> “Everybody in math and physics uses it. I scan it every night.” — Scott Aaronson
> “Todo mundo em matemática e física usa. Eu dou uma olhada toda noite.”
O papel do arXiv e os questionamentos à estrutura da publicação acadêmica
-
Em vários setores da sociedade existem estruturas problemáticas crônicas, e, no meio acadêmico, a irracionalidade do sistema de publicação é apontada como um exemplo representativo
-
O modelo com fins lucrativos de grandes editoras como Elsevier e Springer é criticado da seguinte forma:
- exige que autores escrevam artigos sem remuneração
- outros pesquisadores fazem a edição gratuitamente
- os artigos finalizados são vendidos por preços altos, e as instituições arcam com assinaturas caras
> “Calling their practice a form of thuggery isn’t so much an insult as an economic observation.”
> “Chamar essa prática de uma forma de intimidação não é tanto um insulto, e sim uma observação econômica.”
-
A tradicional revisão por pares (
peer review) leva de vários meses até um ano, e esse processo lento funciona como um gargalo na circulação da informação -
Já o arXiv resolve esse problema estrutural da publicação ao permitir que, na etapa anterior à revisão (
preprint), qualquer pessoa possa publicar e acessar imediatamente o conteúdo -
A principal inovação do arXiv pode ser resumida da seguinte forma:
> “Showing that you could divorce the actual transmission of your results from the process of refereeing.” — Paul Fendley
> “Mostrar que era possível separar a transmissão efetiva dos seus resultados do processo de revisão por pares.” -
Essa estrutura teve papel decisivo para difundir rapidamente descobertas científicas relevantes em situações de crise como a pandemia de COVID-19
- Inspirados no arXiv, bioRxiv e medRxiv, entre outros, expandiram esse modelo para as ciências da vida, e chegou-se até a levantar a possibilidade de que isso tenha salvado milhões de vidas
A estrutura de controle de qualidade do arXiv
- Os artigos submetidos ao arXiv não passam por
peer reviewformal, mas mantêm padrões acadêmicos básicos e regras por meio de uma análise voluntária feita por especialistas de cada área - Principais elementos de controle de qualidade:
- só são permitidas pesquisas originais
- dados manipulados são proibidos
- deve-se usar linguagem neutra
- Além disso, os artigos submetidos também passam por uma triagem básica feita por sistemas automatizados
- Sem esses procedimentos de verificação, o arXiv correria o risco de ser inundado por pseudociência ou por submissões de não especialistas
A influência do arXiv e o momento atual de Ginsparg
- Em 2021, a revista científica Nature incluiu o arXiv entre os “10 computer codes that transformed science”
> “10 computer codes that transformed science”
> “10 códigos de computador que transformaram a ciência” - Seu papel em promover a colaboração científica foi muito valorizado e, atualmente, o arXiv
- reúne mais de 2,6 milhões de artigos
- recebe 20 mil novas submissões por mês
- registra 5 milhões de usuários mensais
- Muitas das principais descobertas científicas do século 21 foram divulgadas pela primeira vez no arXiv, incluindo, por exemplo,
- o artigo sobre “transformers” que impulsionou o boom moderno da IA
- a solução da conjectura de Poincaré, um dos Problemas do Milênio
- Muitos artigos publicados no arXiv acabam sendo posteriormente publicados em periódicos prestigiados, mas o ponto central é que, desde o momento em que entram no arXiv, passam a estar acessíveis a qualquer pessoa
> “Just because a paper is posted on arXiv doesn’t mean it won’t appear in a prestigious journal someday.”
> “Só porque um artigo foi publicado no arXiv não significa que ele não vá aparecer um dia em uma revista prestigiada.”
A realidade interna do arXiv e a questão da sustentabilidade
- Para os cientistas, o arXiv é visto como algo tão indispensável quanto uma biblioteca pública ou o GPS, mas, na prática, sua operação está longe de ser uma plataforma ideal sem atritos
- Ao longo do tempo, o arXiv enfrentou problemas como:
- conflitos burocráticos
- código obsoleto
- até mesmo casos de espionagem
- Ginsparg descreve essa realidade da seguinte forma
> “A child I sent off to college but who keeps coming back to camp out in my living room, behaving badly.”
> “É como um filho que mandei para a faculdade, mas que vive voltando para acampar na minha sala e se comportar mal.” - Ao redirecionar pedidos de entrevista para o FAQ ou desencorajar visitas presenciais, Ginsparg continua tentando manter certa distância do arXiv
A personalidade, os gostos e o cotidiano de Ginsparg
- Pela entrevista em Ithaca (onde fica a Cornell), Ginsparg aparece como alguém
- de personalidade bem-humorada e brincalhona
- mas ao mesmo tempo teimoso a ponto de impor sua filosofia sem restrições
- Segundo Geoffrey West, seu antigo chefe, ele é
> “Quite a character, infamous in the community, extremely funny, a great guy.”
> “Uma figura e tanto, famoso na comunidade, extremamente engraçado, um cara ótimo.” - O próprio Ginsparg minimiza as matérias sobre o arXiv e diz
> “So many articles, so few insights.”
> “Tantos artigos, tão poucos insights.” - Hoje, aos 69 anos, ele mantém uma vida ativa, com ciclismo e trilhas, e se veste sempre num estilo confortável de viajante
O escritório de Ginsparg e seus interesses recentes
- O escritório no departamento de física de Cornell, mais do que “bagunçado”, passa a impressão de objetos antigos parados no tempo
- Há caixas de entrega dos anos 90, revistas antigas, monitores CRT, convites da Casa Branca etc.
- Um livro enviado por Stephen Wolfram traz um bilhete bem-humorado
> “Since you can’t find it on arXiv :)”
> “Como você não vai encontrar isso no arXiv :)”
- A única coisa em uso ativo é um quadro-negro cheio de fórmulas sobre teoria da medição quântica
- Mesmo fora do escritório, ele demonstra uma capacidade de observação minuciosa, percebendo detalhes como a estrutura do prédio, o fluxo de deslocamento dos funcionários e até os tipos de pássaros que aparecem a cada ano
- Ele demonstra preocupação com o problema do aumento de artigos de baixa qualidade, que veio junto com a explosão de artigos de IA, e está desenvolvendo um “holy grail crackpot filter” capaz de filtrá-los
> “The holy grail crackpot filter.”
> “O filtro definitivo para artigos pseudocientíficos” - Para manter a qualidade do arXiv, ele ainda hoje experimenta modelos de linguagem, a ponto de recuperar ele mesmo discos rígidos
- Essa atitude pode ser interpretada como um senso de responsabilidade pessoal pela manutenção da qualidade do arXiv
O nascimento do arXiv e sua história inicial
- O arXiv originalmente não era uma infraestrutura científica, mas sim um conjunto simples de scripts de shell rodando na máquina NeXT de Ginsparg, criado em junho de 1991 a partir de um estopim ocorrido em uma conferência no Colorado
- Na época, Joanne Cohn, pós-doutoranda no Institute for Advanced Study de Princeton e responsável por uma lista de e-mails de preprints de física, mencionou o problema de que “não existia um sistema central para compartilhar artigos de física”
- O acesso à lista de e-mails dependia da afiliação institucional ou do networking, e havia a ineficiência de levar meses até um artigo ser divulgado
- Quando um físico brincou dizendo que “durante viagens, o excesso de artigos recebidos por e-mail lotava o espaço de armazenamento”, Ginsparg percebeu a necessidade de um sistema automatizado de distribuição de artigos
- Ao perguntar a Cohn se ela nunca havia pensado em automatizar isso, a resposta foi
> “Go ahead and do it yourself.”
> “Então vai lá e faz você mesmo.”
- Ao perguntar a Cohn se ela nunca havia pensado em automatizar isso, a resposta foi
- No dia seguinte, Ginsparg realmente escreveu os scripts e terminou o sistema
> “My recollection is that the next day he’d come up with the scripts and seemed pretty happy about having done it so quickly.”
> “Pelo que eu me lembro, no dia seguinte ele já tinha criado os scripts e parecia bem feliz por ter feito aquilo tão rápido.” — Joanne Cohn
A posição de Ginsparg em sua época e a evolução técnica do arXiv
- Ginsparg é frequentemente comparado a um Forrest Gump da era da internet
- Quando estudava em Harvard, era colega de turma de Bill Gates e Steve Ballmer
- Seu irmão estudou em Stanford com Terry Winograd, pioneiro da IA
- Ambos tinham contas de e-mail na Arpanet, algo extremamente raro naquela época
- Depois de obter o doutorado em física teórica em Cornell, começou a carreira docente em Harvard, mas, após ter a estabilidade negada, mudou-se para Los Alamos
- Lá, havia um ambiente onde podia se dedicar apenas à pesquisa em física teórica de altas energias e condições regionais adequadas a um estilo de vida centrado em esportes
O sistema do arXiv antes da web e sua evolução para a web
- Em seus primeiros anos, o arXiv não era um site, mas um servidor de resposta automática por e-mail; alguns meses depois, também passou a operar um servidor FTP
- Mais tarde, Ginsparg ouviu falar da nova tecnologia chamada “World Wide Web” e, de início, reagiu com ceticismo, dizendo
> “I can’t really pay attention to every single fad.”
> “Não dá para prestar atenção em toda moda passageira.”
Mas, com a chegada do navegador Mosaic em 1993, interessou-se e construiu pessoalmente a interface web
- Mais tarde, Ginsparg ouviu falar da nova tecnologia chamada “World Wide Web” e, de início, reagiu com ceticismo, dizendo
- Ele também teve contato com Tim Berners-Lee, do CERN, de quem se lembra como “um programador que grelhava muito bem peixe-espada”
> “Tim grilled excellent swordfish at his home in the French countryside.”
> “Tim grelhava um excelente peixe-espada na casa dele, no interior da França.”
A origem do nome e a reorganização da base de código
- Em 1994, com financiamento da National Science Foundation, ele contratou dois desenvolvedores para refatorar os scripts de shell iniciais em código Perl mais estável
- Mark Doyle: depois se tornaria CIO da American Physical Society
- Rob Hartill: trabalhava em paralelo no projeto IMDb e depois também atuaria na Apache Software Foundation
- O endereço inicial do arXiv era
xxx.lanl.gov, e “xxx” ainda não tinha o significado atual; depois, pensando com a esposa em “um nome melhor”, decidiu-se por ‘arXiv’, usando a letra grega chi (χ)
> “She wrote it down and crossed out the e to make it more symmetric around the X.”
> “Ela escreveu o nome e riscou o ‘e’ para deixá-lo mais simétrico em torno do X.” - No começo, não havia uma organização formal: havia 1 ou 2 desenvolvedores, e os administradores eram em sua maioria conhecidos e colegas, e, embora se esperassem cerca de 100 artigos por ano, o sistema já começou recebendo 100 por mês e cresceu rapidamente
A rápida expansão da comunidade e a consolidação do arXiv
- Segundo Ginsparg
> “Day one, something happened, day two something happened, day three, Ed Witten posted a paper. That was when the entire community joined.”
> “No primeiro dia aconteceu alguma coisa, no segundo também, e no terceiro o Ed Witten publicou um artigo. Foi aí que a comunidade inteira entrou.” - Edward Witten é considerado o maior físico teórico da atualidade e chamado de “a pessoa viva mais inteligente”; ele próprio também comentou
> “The arXiv enabled much more rapid worldwide communication among physicists.”
> “O arXiv permitiu uma comunicação mundial muito mais rápida entre os físicos.” - Depois, o serviço se expandiu para áreas diversas, como matemática e ciência da computação, e o próprio Ginsparg relembra a experiência de desenvolver o arXiv em seus primeiros anos dizendo
> “It was fun.”
> “Foi divertido.”
A expansão do arXiv e o início dos conflitos
- Com o aumento explosivo do uso do arXiv, o sistema passou a enfrentar problemas de escalabilidade e operação típicos de grandes sistemas de software, especialmente lentidão dos servidores e a sobrecarga da moderação
- Por exemplo, houve um incidente de sobrecarga causado por um pico de tráfego vindo de “stanford.edu”, que mais tarde se descobriu ter ocorrido quando Sergey Brin e Larry Page, futuros criadores do Google, estavam rastreando a web do arXiv
> “Years later, when Ginsparg visited Google HQ, both Brin and Page personally apologized to him for the incident.”
> “Anos depois, quando Ginsparg visitou a sede do Google, Brin e Page pediram desculpas pessoalmente pelo incidente.”
- Por exemplo, houve um incidente de sobrecarga causado por um pico de tráfego vindo de “stanford.edu”, que mais tarde se descobriu ter ocorrido quando Sergey Brin e Larry Page, futuros criadores do Google, estavam rastreando a web do arXiv
A estratégia de sobrevivência do arXiv e a garantia de independência em relação ao mercado editorial
- A maior razão de o arXiv ter sobrevivido foi ter evitado ataques da estrutura de interesses estabelecidos da publicação acadêmica tradicional, algo possibilitado por uma estratégia adotada desde cedo: ao submeter um artigo, o usuário concordava com uma cláusula de que “o arXiv pode distribuir permanentemente aquele artigo de forma não exclusiva”
- Graças a essa cláusula, mesmo que o artigo fosse publicado em outro periódico, ele poderia continuar no arXiv, removendo o incentivo para que grandes editoras tentassem encerrar a plataforma
A saída de Los Alamos e o retorno a Cornell
- Embora o arXiv tenha se consolidado como uma infraestrutura cada vez mais importante para a comunidade científica, dentro do laboratório de Los Alamos o projeto arXiv não contava com grande apoio; pelo contrário, o fato de ele ter se tornado mais influente do que o próprio laboratório passou a ser visto como um fardo
- Ginsparg descreveu aquele período como
> “dreamlike and heavenly” “como um sonho, celestial” - mas, após o caso de espionagem de Wen Ho Lee em 1999, o clima dentro do laboratório mudou drasticamente, e ele decidiu mudar de emprego por causa do reforço das medidas de segurança e do acúmulo de desgaste psicológico
- Na avaliação de desempenho da época, ele recebeu a crítica dura de ser “a strictly average performer with no particular computer skills”
→ “um profissional de desempenho estritamente mediano, sem nenhuma habilidade especial em computação”, e o fato de sua filha ter acabado de nascer, além da questão do ambiente educacional, também foi um dos motivos para a mudança
- Na avaliação de desempenho da época, ele recebeu a crítica dura de ser “a strictly average performer with no particular computer skills”
- Ginsparg descreveu aquele período como
- No fim, Ginsparg voltou para Cornell, sua alma mater, e o arXiv foi junto, e ele declarou que “largaria o arXiv em no máximo cinco anos”
> “They disseminate material to academics, so that seemed like a natural fit.”
> “As bibliotecas distribuem material para acadêmicos, então isso pareceu uma escolha natural.”
Conflitos operacionais dentro da biblioteca
- Mas a biblioteca de Cornell não compreendia adequadamente a complexidade técnica do arXiv, e o simples fluxo de submissão já exigia inúmeras exceções de tratamento; o problema foi tratá-lo como se fosse apenas um sistema simples de armazenamento de materiais
- Ginsparg e os membros iniciais sentiram que a biblioteca via o arXiv como uma espécie de extra recebido depois, enquanto, do outro lado, a biblioteca tinha a impressão de que Ginsparg se envolvia de forma excessivamente direta
> “Good lower-level manager … but his sense of management didn’t scale.”
> “Um bom gestor operacional… mas sua noção de gestão não escalava para uma operação maior.” - Durante a maior parte dos anos 2000, o arXiv operou sem conseguir garantir uma equipe de desenvolvimento estável
Críticas à filosofia e ao estilo de gestão de Ginsparg
- Ginsparg continuou mantendo um perfil de desenvolvedor prático, fazendo pessoalmente revisão de código e encontrando erros, e demonstrava uma postura cínica em relação a palestras externas ou funções de aconselhamento em alto nível
> “Larry Summers spending one day a week consulting for some hedge fund—it’s just unseemly.”
> “Larry Summers passar um dia por semana prestando consultoria para algum hedge fund simplesmente não pega bem.” - No entanto, o fato de ele continuar envolvido por tanto tempo também virou um problema, e o arXiv foi crescendo cada vez mais
> “bigger than all of us” — Stephanie Orphan (diretora de programa do arXiv)
> “maior do que todos nós”
e essa percepção começou a se espalhar - Surgiram várias controvérsias, como o processo movido por um físico adepto do design inteligente, polêmicas de plágio e críticas a abusos de autoridade por parte de moderadores
- Em especial, em 2009 o físico independente Philip Gibbs criou o viXra, uma plataforma oposta ao arXiv
- Ela funciona como uma “plataforma quase sem regulação, operando na direção oposta ao arXiv”, onde costumam ser publicados artigos com teorias excêntricas ou trabalhos amadores
- Um exemplo representativo é o artigo “π is fake” (link)
- Em especial, em 2009 o físico independente Philip Gibbs criou o viXra, uma plataforma oposta ao arXiv
Problemas de gestão da base de código e choque de práticas de desenvolvimento
- O arXiv cresceu até se tornar uma grande base de código, e sua estrutura inicial foi montada sem considerar manutenção e testes, o que levou a
- problemas estruturais comparáveis a uma “obra sem inspeção de segurança”
- isso permitiu desenvolvimento rápido no começo, mas gerou dívida técnica de longo prazo e aumento de complexidade
- Ginsparg continuou se envolvendo diretamente em revisões e alterações de código sem aprovação da biblioteca, e por isso
> “micromanaging and sowing distrust”
> “microgerenciamento e semear desconfiança”
passou a ser alvo desse tipo de crítica
Tentativa de aposentadoria, permanência e agravamento dos conflitos internos
- Em 2011, no 20º aniversário do arXiv, Ginsparg decidiu se aposentar, e publicou na Nature o texto “ArXiv at 20” como despedida
> “For me, the repository was supposed to be a three-hour tour, not a life sentence.”
> “Para mim, o repositório deveria ser um passeio de três horas, não uma prisão perpétua.”
> “ArXiv was originally conceived to be fully automated, so as not to scuttle my research career.”
> “O arXiv foi concebido originalmente para ser totalmente automatizado, para não afundar minha carreira de pesquisa.”
> “But daily administrative activities associated with running it can consume hours of every weekday, year-round without holiday.”
> “Mas as atividades administrativas diárias associadas à sua operação podem consumir horas de cada dia útil, o ano inteiro, sem descanso.” - Depois disso, a operação cotidiana seria transferida para a biblioteca de Cornell, e Ginsparg planejava recuar para um papel de conselheiro, mas a realidade não seguiu esse rumo
- Alguns funcionários criticaram Ginsparg, dizendo que ele estava “mantendo o código como refém” e se recusava a usar GitHub ou compartilhamento interno,
- enquanto ele expressava frustração com o fato de que funcionalidades que antes implementava em um dia agora levavam semanas
> “I learned Fortran in the 1960s, and real programmers didn’t document.”
> “Aprendi Fortran nos anos 1960, e programadores de verdade não documentavam.”
(→ descrito como uma resposta de nível “ataque cardíaco” para quem fez a pergunta)
Confusão administrativa e reorganização estrutural
- Além dos problemas técnicos, o arXiv também enfrentou confusão administrativa
- Em 2019, dentro de Cornell, o departamento ao qual o arXiv estava vinculado foi transferido para a área de computação e ciência da informação, mas mudou de novo poucos meses depois
- Depois, uma pessoa com experiência em publicação acadêmica comercial assumiu a responsabilidade operacional, mas deixou o cargo após um ano e meio
> “There was disruption … it was not a good period.”
> “Houve desorganização… não foi um bom período.” — uma fonte interna do arXiv
- O ponto de virada veio em 2022, quando, com o apoio da Fundação Simons, foi possível ampliar bastante a equipe de desenvolvimento, e
- o professor Ramin Zabih, de Cornell, foi nomeado responsável pela operação,
- enquanto a migração para a nuvem e a refatoração do código em Python passaram a avançar de forma concreta
Traços pessoais e reflexão
- Mesmo durante a entrevista com o repórter, Ginsparg manteve um jeito brincalhão, consertando a bicicleta do filho e tirando sarro do condicionamento físico do outro durante um passeio de bicicleta
- Na última subida, ele
> “I might’ve oversold this to you.”
> “Talvez eu tenha vendido demais esse trajeto para você.”
admitindo o cansaço
- Na última subida, ele
- Ao longo de vários dias de entrevista, o repórter comentou que a persistência e a teimosia dele eram parte da razão de o arXiv ter sobrevivido, e, diante disso, Ginsparg reagiu de forma inesperada
> “One person’s tenacity is another person’s terrorism.”
> “A tenacidade de uma pessoa pode ser o terrorismo de outra.” - Em seguida, ele reconheceu:
> “I’ve heard that the staff occasionally felt terrorized.”
> “Ouvi dizer que a equipe às vezes se sentia aterrorizada.”
O presente e o futuro do arXiv
- Atualmente, o arXiv continua operando de forma controversa,
- a linguista Emily Bender já criticou o arXiv, chamando-o de “câncer” que incentiva “junk science” e “fast scholarship”
(tweet relacionado, texto relacionado)
- a linguista Emily Bender já criticou o arXiv, chamando-o de “câncer” que incentiva “junk science” e “fast scholarship”
- Em 2023, um artigo que alegava a descoberta de um supercondutor à temperatura ambiente foi rapidamente refutado, tornando-se um exemplo do mecanismo de feedback rápido do arXiv
- por outro lado, também há casos em que artigos normais são retirados por “expressões provocativas” ou “linguagem não profissional”, o que também gera controvérsia sobre “censura”
- caso representativo: a retirada de um artigo de Jorge Hirsch, criador do h-index
- por outro lado, também há casos em que artigos normais são retirados por “expressões provocativas” ou “linguagem não profissional”, o que também gera controvérsia sobre “censura”
A postura atual e o apego de Ginsparg
- Ele evita se apresentar como um “pioneiro da ciência aberta” e, mais do que uma missão grandiosa, aprecia o arXiv como um espaço para experimentar ideias
> “There are various aspects of this that remain incredibly entertaining.”
> “Ainda há vários aspectos disso que continuam incrivelmente divertidos.”
> “I have the perfect platform for testing ideas and playing with them.”
> “Tenho a plataforma perfeita para testar ideias e brincar com elas.” - Embora não mexa mais no código operacional do arXiv, ele ainda está mergulhado em um projeto pessoal para desenvolver um ‘filtro de artigos falsos’
> “It’s like that Al Pacino quote: They keep bringing me back.”
> “É como aquela frase do Al Pacino: eles continuam me puxando de volta.”
> “But Al Pacino also developed a real taste for killing people.”
> “Mas o Al Pacino também acabou pegando gosto por matar pessoas.”
(→ uma forma bem-humorada de expressar sua relação de amor e ódio com o arXiv e sua própria obsessão)
1 comentários
Comentários do Hacker News