- Alignment Scry, da ExoPriors, é uma plataforma que permite pesquisar 60 milhões de documentos e 22 milhões de embeddings coletados de arXiv, Hacker News, LessWrong e outras fontes com SQL e operações vetoriais via Claude Code
- Fornece uma chave de API pública e oferece suporte tanto a busca textual baseada em BM25 quanto a busca semântica baseada em distância cosseno do pgvector
- Com as funções
alignment.search() e alignment.search_exhaustive(), é possível separar busca rápida por amostragem de busca completa
- É possível configurar de forma simples e chamar a API no Claude Web ou no ambiente Claude Code, com recurso de identificador pessoal (
@handle) e armazenamento de embeddings
- Está aberto gratuitamente para pesquisadores e é importante como ambiente experimental de consulta de grandes volumes de dados para pesquisa em IA e automação de exploração de informações
Visão geral
- Alignment Scry é um sistema de busca que permite executar SQL e álgebra vetorial sobre um índice de documentos relacionados à explosão de inteligência
- As principais fontes de dados incluem arXiv, Hacker News, LessWrong, community-archive.org e outras
- Os usuários podem explorar os dados com consultas em linguagem natural ou comandos SQL por meio do Claude Code
- O sistema está em fase experimental Alpha e também inclui o Lens Studio, uma ferramenta de exploração centrada no LessWrong
Integração com Claude e forma de acesso
- Pode ser usado imediatamente no Claude Code ou Claude Web por meio da configuração de acesso à API
- É preciso permitir execução de código, criação de arquivos e acesso à rede, além de adicionar
api.exopriors.com à lista de domínios permitidos
- O acesso sem login é possível com a chave de API pública
exopriors_public_readonly_v1_2025
- Para que o modelo Claude não precise passar por aprovação do usuário a cada chamada de API, é possível usar a opção
--dangerously-skip-permissions (com riscos envolvidos)
- Recomenda-se usar modelos Opus 4.5 ou superiores, e o texto deixa explícito que há risco de ataques de prompt injection
Principais recursos
- Query: executa consultas SQL sobre 60 milhões de documentos
- Embed: armazena e reutiliza embeddings para busca semântica
- Timeout: ajuste automático entre cerca de 20 e 120 segundos conforme a carga
- Alvos de busca: vários tipos de documento, como post, comment, paper e tweet
- Lexical Search: busca por palavras-chave baseada em BM25, com suporte a busca por frase e correspondência aproximada
- Semantic Search: busca por similaridade semântica usando distância cosseno do pgvector (
<=>)
Consultas e gestão de desempenho
alignment.search() retorna apenas os 100 principais resultados do BM25 e é adequado para amostragem em exploração rápida
alignment.search_exhaustive() executa busca completa com suporte a paginação
- Diretrizes de desempenho
- Busca simples: 1–5 segundos
- Join com embeddings (até 500 mil linhas): 5–20 segundos
- Agregações complexas (até 2 milhões de linhas): 20–60 segundos
- Varreduras em larga escala (mais de 5 milhões de linhas): pode haver timeout sob carga
- Para evitar sobrecarga, há exibição de resumo antes da execução da consulta e etapa de confirmação do usuário
- Consultas pesadas são identificadas automaticamente com base em LIMIT, estimated_rows, tamanho de joins e outros critérios
Estrutura de dados e views
- Há materialized views disponíveis no schema
alignment
- Exemplos:
mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments e outros
- Colunas principais:
entity_id, uri, source, kind, original_author, title, score, embedding etc.
- Também é possível acessar metadados por meio de join com a tabela
alignment.entities
- A função
alignment.author_topics() permite análise cruzada entre temas específicos e autores
Operações vetoriais e recursos de combinação
<=>: operador de distância cosseno do pgvector (quanto mais próximo de 0, mais semelhante)
@handle: referência a vetor armazenado
- Mistura de vetores: combinação ponderada de conceitos em formatos como
scale(@rigor,.6) - scale(@hype,.3)
- Remoção de viés:
debias_vector(@axis, @topic) para remover a influência de um tema específico
- O cálculo de vetor central (centroid) permite representar o significado médio de autores ou períodos
- O cálculo de mudança temporal (temporal delta) permite rastrear deslocamentos conceituais ao longo do tempo
Busca híbrida e exemplos
- Há suporte a busca combinada lexical + semântica
- Exemplo: reordenar candidatos textuais por vetor semântico no formato
WITH hits AS (search(...)) <=> @q
- Exemplos de BM25
alignment.search('corrigibility')
alignment.search('"inner alignment"')
- Exemplos de SQL
- cálculo da lista dos principais autores de um tema específico
- paginação de grandes volumes de resultados com
alignment.search_exhaustive()
Escala do sistema e condições de oferta
- Conta com mais de 65 milhões de documentos, mais de 22 milhões de embeddings e mais de 600 GB de índices
- É gratuito para pesquisadores e inclui 1,5 milhão de tokens de embedding
- Ao criar uma conta, o usuário recebe namespace próprio de identificador, timeouts mais longos (até 10 minutos) e limites de consulta ampliados
Resumo
- Alignment Scry é uma plataforma de consulta de dados em larga escala para pesquisa em IA integrada ao Claude, com suporte a busca híbrida que combina SQL e operações vetoriais
- Com API pública e diretrizes claras de consulta, oferece acessibilidade experimental a dados para pesquisadores e desenvolvedores de IA
- Com base em índices de 600 GB e mais de 60 milhões de documentos, constrói um ambiente capaz de automatizar exploração relacionada a alinhamento de IA e pesquisa sobre inteligência
1 comentários
Comentários do Hacker News
Gosto que este projeto gera SQL em vez de ser apenas um chatbot de caixa-preta
Em vez de usar LLM como banco de dados, acho que o caminho certo é usá-lo como ferramenta para traduzir linguagem natural em uma linguagem de consulta estruturada
Mas fico curioso se estão usando timeout ou sandboxing para evitar abuso da API
Também queria saber se existe vazamento semântico entre datasets diferentes — por exemplo, “optimization” pode ser usado de formas diferentes no ArXiv, LessWrong e HN
O planejador de consultas SQL ainda é poderoso quando lida com muitas views e índices
Também demos bastante atenção à segurança e ao rate limit, e bloqueamos joins perigosos com parsing de AST
O Claude pode usar combinação por centróide de vetores para reduzir diferenças de significado entre domínios distintos
Por exemplo, dá para fazer um experimento comparando a média entre o embedding de “optimization” no LessWrong e no ArXiv
Resumi o processo de implementação neste post do blog
No momento é um cliente para macOS, mas também estou preparando um engine para Linux
O alcance de aplicação da interpretação e tradução de linguagem natural é imenso
No fim, acho que o investimento também vai migrar para esse tipo de ferramenta prática
Quanto maior o modelo, melhor ele distingue sentidos diferentes da mesma palavra
Projeto realmente incrível. Pretendo usar isso imediatamente na minha pesquisa atual de teoria das cordas para encontrar variedades de Calabi–Yau
Trabalhando com o Claude, encontrei dois artigos sobre flux vacua com algoritmos genéticos, e a combinação de SQL + BM25 permitiu uma busca muito refinada
Mas escapar aspas no bash é incômodo, e por causa do limite de 100 resultados de alignment.search() tive que usar search_exhaustive() para obter o conjunto completo
O Claude analisou o corpus da ExoPriors e organizou os principais artigos e resultados, sugerindo que os resultados da DESI podem mudar a direção da exploração em teoria das cordas
Em especial, o artigo arXiv:2511.23463 explica o fenômeno de “phantom crossing” da energia escura por meio de mistura axion-dilaton
Daqui para frente, pretendo expandir a pesquisa incluindo os parâmetros (w₀, wₐ) na função de ajuste e adicionando dinâmica de axions
Artigo relacionado: reportagem da BBC
Usar a flag “dangerously-skip-permissions” com texto não seguro é perigoso
Entradas vindas da internet podem conter prompt injection, então isso deve sempre ser executado em um ambiente com sandbox
Estou procurando uma forma de consultar informações de genes e proteínas dentro do material suplementar (Supplementary Material) de artigos de ciências da vida
Hoje a indexação é inconsistente, então muitos insights de pesquisa genômica dos últimos 15 anos acabam enterrados
Acho que essa abordagem pode funcionar com dados open access
Ele usa o OpenAlex para explorar o grafo de citações e analisa PDFs open access
Eu usei para encontrar agentes crioprotetores (cryoprotective agents) por temperatura, mas deve dar para adaptar ao seu problema
Expressões como “intelligence explosion” e “ARBITRARY SQL + VECTOR ALGEBRA” soam como jargão técnico exagerado
Graças ao Opus 4.5 e ao GPT-5.2-Codex-xhigh, a velocidade de desenvolvimento explodiu
O Scry é a única ferramenta que permite executar SQL arbitrário em corpora grandes e experimentar livremente com combinação de vetores
Combinar prompts com datasets externos é hoje o canal de exploração mais simples e poderoso
É como “curl | bash”: dá para experimentar muito rápido
Foi descrito como ferramenta de pesquisa “state-of-the-art”, mas queria entender especificamente o que nela é tão de ponta
Por exemplo, o modelo Gemma tinha desempenho inferior ao da concorrência, mas mesmo assim foi chamado de “state-of-the-art”
Até o Juicero era de ponta quando foi lançado, mas no fim espremê-lo com a mão era melhor
Atualmente estou desenvolvendo um sistema autônomo de pesquisa acadêmica e planejo integrar este projeto
No momento estou usando a Edison Scientific API e prompts personalizados, e queria saber se há planos de open source
Projeto relacionado: gia-agentic-short
Se eu conseguir US$ 5.000, acho que consigo liberar tudo rapidamente