Alignment Scry, da ExoPriors, consulta um índice de 600 GB de Hacker News, arXiv e mais com Claude Code

(exopriors.com)

1 pontos por GN⁺ 2026-01-01 | 1 comentários | Compartilhar no WhatsApp

Alignment Scry, da ExoPriors, é uma plataforma que permite pesquisar 60 milhões de documentos e 22 milhões de embeddings coletados de arXiv, Hacker News, LessWrong e outras fontes com SQL e operações vetoriais via Claude Code
Fornece uma chave de API pública e oferece suporte tanto a busca textual baseada em BM25 quanto a busca semântica baseada em distância cosseno do pgvector
Com as funções alignment.search() e alignment.search_exhaustive(), é possível separar busca rápida por amostragem de busca completa
É possível configurar de forma simples e chamar a API no Claude Web ou no ambiente Claude Code, com recurso de identificador pessoal (@handle) e armazenamento de embeddings
Está aberto gratuitamente para pesquisadores e é importante como ambiente experimental de consulta de grandes volumes de dados para pesquisa em IA e automação de exploração de informações

Visão geral

Alignment Scry é um sistema de busca que permite executar SQL e álgebra vetorial sobre um índice de documentos relacionados à explosão de inteligência
- As principais fontes de dados incluem arXiv, Hacker News, LessWrong, community-archive.org e outras
- Os usuários podem explorar os dados com consultas em linguagem natural ou comandos SQL por meio do Claude Code
O sistema está em fase experimental Alpha e também inclui o Lens Studio, uma ferramenta de exploração centrada no LessWrong

Integração com Claude e forma de acesso

Pode ser usado imediatamente no Claude Code ou Claude Web por meio da configuração de acesso à API
- É preciso permitir execução de código, criação de arquivos e acesso à rede, além de adicionar api.exopriors.com à lista de domínios permitidos
O acesso sem login é possível com a chave de API pública exopriors_public_readonly_v1_2025
Para que o modelo Claude não precise passar por aprovação do usuário a cada chamada de API, é possível usar a opção --dangerously-skip-permissions (com riscos envolvidos)
Recomenda-se usar modelos Opus 4.5 ou superiores, e o texto deixa explícito que há risco de ataques de prompt injection

Principais recursos

Query: executa consultas SQL sobre 60 milhões de documentos
Embed: armazena e reutiliza embeddings para busca semântica
Timeout: ajuste automático entre cerca de 20 e 120 segundos conforme a carga
Alvos de busca: vários tipos de documento, como post, comment, paper e tweet
Lexical Search: busca por palavras-chave baseada em BM25, com suporte a busca por frase e correspondência aproximada
Semantic Search: busca por similaridade semântica usando distância cosseno do pgvector (<=>)

Consultas e gestão de desempenho

alignment.search() retorna apenas os 100 principais resultados do BM25 e é adequado para amostragem em exploração rápida
alignment.search_exhaustive() executa busca completa com suporte a paginação
Diretrizes de desempenho
- Busca simples: 1–5 segundos
- Join com embeddings (até 500 mil linhas): 5–20 segundos
- Agregações complexas (até 2 milhões de linhas): 20–60 segundos
- Varreduras em larga escala (mais de 5 milhões de linhas): pode haver timeout sob carga
Para evitar sobrecarga, há exibição de resumo antes da execução da consulta e etapa de confirmação do usuário
Consultas pesadas são identificadas automaticamente com base em LIMIT, estimated_rows, tamanho de joins e outros critérios

Estrutura de dados e views

Há materialized views disponíveis no schema alignment
- Exemplos: mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments e outros
- Colunas principais: entity_id, uri, source, kind, original_author, title, score, embedding etc.
Também é possível acessar metadados por meio de join com a tabela alignment.entities
A função alignment.author_topics() permite análise cruzada entre temas específicos e autores

Operações vetoriais e recursos de combinação

<=>: operador de distância cosseno do pgvector (quanto mais próximo de 0, mais semelhante)
@handle: referência a vetor armazenado
Mistura de vetores: combinação ponderada de conceitos em formatos como scale(@rigor,.6) - scale(@hype,.3)
Remoção de viés: debias_vector(@axis, @topic) para remover a influência de um tema específico
O cálculo de vetor central (centroid) permite representar o significado médio de autores ou períodos
O cálculo de mudança temporal (temporal delta) permite rastrear deslocamentos conceituais ao longo do tempo

Busca híbrida e exemplos

Há suporte a busca combinada lexical + semântica
- Exemplo: reordenar candidatos textuais por vetor semântico no formato WITH hits AS (search(...)) <=> @q
Exemplos de BM25
- alignment.search('corrigibility')
- alignment.search('"inner alignment"')
Exemplos de SQL
- cálculo da lista dos principais autores de um tema específico
- paginação de grandes volumes de resultados com alignment.search_exhaustive()

Escala do sistema e condições de oferta

Conta com mais de 65 milhões de documentos, mais de 22 milhões de embeddings e mais de 600 GB de índices
É gratuito para pesquisadores e inclui 1,5 milhão de tokens de embedding
Ao criar uma conta, o usuário recebe namespace próprio de identificador, timeouts mais longos (até 10 minutos) e limites de consulta ampliados

Resumo

Alignment Scry é uma plataforma de consulta de dados em larga escala para pesquisa em IA integrada ao Claude, com suporte a busca híbrida que combina SQL e operações vetoriais
Com API pública e diretrizes claras de consulta, oferece acessibilidade experimental a dados para pesquisadores e desenvolvedores de IA
Com base em índices de 600 GB e mais de 60 milhões de documentos, constrói um ambiente capaz de automatizar exploração relacionada a alinhamento de IA e pesquisa sobre inteligência

1 comentários

GN⁺ 2026-01-01

Comentários do Hacker News

Gosto que este projeto gera SQL em vez de ser apenas um chatbot de caixa-preta
Em vez de usar LLM como banco de dados, acho que o caminho certo é usá-lo como ferramenta para traduzir linguagem natural em uma linguagem de consulta estruturada
Mas fico curioso se estão usando timeout ou sandboxing para evitar abuso da API
Também queria saber se existe vazamento semântico entre datasets diferentes — por exemplo, “optimization” pode ser usado de formas diferentes no ArXiv, LessWrong e HN
- Sim, às vezes as pessoas querem precisão e controle
  O planejador de consultas SQL ainda é poderoso quando lida com muitas views e índices
  Também demos bastante atenção à segurança e ao rate limit, e bloqueamos joins perigosos com parsing de AST
  O Claude pode usar combinação por centróide de vetores para reduzir diferenças de significado entre domínios distintos
  Por exemplo, dá para fazer um experimento comparando a média entre o embedding de “optimization” no LessWrong e no ArXiv
- Também fiz algo parecido. Transformei os históricos de conversa do Claude Code e do Codex em um banco local consultável direto pela CLI
  Resumi o processo de implementação neste post do blog
  No momento é um cliente para macOS, mas também estou preparando um engine para Linux
- Acho que esse tipo de abordagem é exatamente a “inovação real que vai continuar mesmo se a bolha da IA estourar”
  O alcance de aplicação da interpretação e tradução de linguagem natural é imenso
  No fim, acho que o investimento também vai migrar para esse tipo de ferramenta prática
- Não tenho experimentos, mas pela minha experiência a separação de significados de uma palavra muda conforme o tamanho do modelo de embeddings
  Quanto maior o modelo, melhor ele distingue sentidos diferentes da mesma palavra
Projeto realmente incrível. Pretendo usar isso imediatamente na minha pesquisa atual de teoria das cordas para encontrar variedades de Calabi–Yau
Trabalhando com o Claude, encontrei dois artigos sobre flux vacua com algoritmos genéticos, e a combinação de SQL + BM25 permitiu uma busca muito refinada
Mas escapar aspas no bash é incômodo, e por causa do limite de 100 resultados de alignment.search() tive que usar search_exhaustive() para obter o conjunto completo
- Também investiguei recentemente com essa ferramenta o estudo da DESI sobre a variação da energia escura
  O Claude analisou o corpus da ExoPriors e organizou os principais artigos e resultados, sugerindo que os resultados da DESI podem mudar a direção da exploração em teoria das cordas
  Em especial, o artigo arXiv:2511.23463 explica o fenômeno de “phantom crossing” da energia escura por meio de mistura axion-dilaton
  Daqui para frente, pretendo expandir a pesquisa incluindo os parâmetros (w₀, wₐ) na função de ajuste e adicionando dinâmica de axions
  Artigo relacionado: reportagem da BBC
Usar a flag “dangerously-skip-permissions” com texto não seguro é perigoso
Entradas vindas da internet podem conter prompt injection, então isso deve sempre ser executado em um ambiente com sandbox
- Também comecei hoje a rodar o Claude em um devcontainer, e queria saber qual opção de sandbox é a mais simples
Estou procurando uma forma de consultar informações de genes e proteínas dentro do material suplementar (Supplementary Material) de artigos de ciências da vida
Hoje a indexação é inconsistente, então muitos insights de pesquisa genômica dos últimos 15 anos acabam enterrados
Acho que essa abordagem pode funcionar com dados open access
- Também construí algo parecido — papers2dataset
  Ele usa o OpenAlex para explorar o grafo de citações e analisa PDFs open access
  Eu usei para encontrar agentes crioprotetores (cryoprotective agents) por temperatura, mas deve dar para adaptar ao seu problema
Expressões como “intelligence explosion” e “ARBITRARY SQL + VECTOR ALGEBRA” soam como jargão técnico exagerado
- Não é exagero. Neste momento isso é de fato um explosor de inteligência de software
  Graças ao Opus 4.5 e ao GPT-5.2-Codex-xhigh, a velocidade de desenvolvimento explodiu
  O Scry é a única ferramenta que permite executar SQL arbitrário em corpora grandes e experimentar livremente com combinação de vetores
Combinar prompts com datasets externos é hoje o canal de exploração mais simples e poderoso
É como “curl | bash”: dá para experimentar muito rápido
- Exato. A combinação Prompt + Tool + External Dataset tem um potencial enorme
Foi descrito como ferramenta de pesquisa “state-of-the-art”, mas queria entender especificamente o que nela é tão de ponta
- Por causa da escala. Quantas ferramentas existem que permitem consultar o texto completo de todos os artigos do arXiv?
- Isso é só linguagem de marketing. Não é uma expressão protegida, então qualquer um pode usar
  Por exemplo, o modelo Gemma tinha desempenho inferior ao da concorrência, mas mesmo assim foi chamado de “state-of-the-art”
  Até o Juicero era de ponta quando foi lançado, mas no fim espremê-lo com a mão era melhor
- A ferramenta é de ponta, mas as fontes de dados são históricas
- Fico pensando se “a primeira” está sendo usada no sentido de “a melhor”
Atualmente estou desenvolvendo um sistema autônomo de pesquisa acadêmica e planejo integrar este projeto
No momento estou usando a Edison Scientific API e prompts personalizados, e queria saber se há planos de open source
Projeto relacionado: gia-agentic-short
- Eu gostaria de abrir o código, mas sinceramente estou com dificuldades para me sustentar agora
  Se eu conseguir US$ 5.000, acho que consigo liberar tudo rapidamente

Alignment Scry, da ExoPriors, consulta um índice de 600 GB de Hacker News, arXiv e mais com Claude Code

Visão geral

Integração com Claude e forma de acesso

Principais recursos

Consultas e gestão de desempenho

Estrutura de dados e views

Operações vetoriais e recursos de combinação

Busca híbrida e exemplos

Escala do sistema e condições de oferta

Resumo

Leituras relacionadas

1 comentários

Comentários do Hacker News