1 pontos por GN⁺ 2026-01-01 | 1 comentários | Compartilhar no WhatsApp
  • Alignment Scry, da ExoPriors, é uma plataforma que permite pesquisar 60 milhões de documentos e 22 milhões de embeddings coletados de arXiv, Hacker News, LessWrong e outras fontes com SQL e operações vetoriais via Claude Code
  • Fornece uma chave de API pública e oferece suporte tanto a busca textual baseada em BM25 quanto a busca semântica baseada em distância cosseno do pgvector
  • Com as funções alignment.search() e alignment.search_exhaustive(), é possível separar busca rápida por amostragem de busca completa
  • É possível configurar de forma simples e chamar a API no Claude Web ou no ambiente Claude Code, com recurso de identificador pessoal (@handle) e armazenamento de embeddings
  • Está aberto gratuitamente para pesquisadores e é importante como ambiente experimental de consulta de grandes volumes de dados para pesquisa em IA e automação de exploração de informações

Visão geral

  • Alignment Scry é um sistema de busca que permite executar SQL e álgebra vetorial sobre um índice de documentos relacionados à explosão de inteligência
    • As principais fontes de dados incluem arXiv, Hacker News, LessWrong, community-archive.org e outras
    • Os usuários podem explorar os dados com consultas em linguagem natural ou comandos SQL por meio do Claude Code
  • O sistema está em fase experimental Alpha e também inclui o Lens Studio, uma ferramenta de exploração centrada no LessWrong

Integração com Claude e forma de acesso

  • Pode ser usado imediatamente no Claude Code ou Claude Web por meio da configuração de acesso à API
    • É preciso permitir execução de código, criação de arquivos e acesso à rede, além de adicionar api.exopriors.com à lista de domínios permitidos
  • O acesso sem login é possível com a chave de API pública exopriors_public_readonly_v1_2025
  • Para que o modelo Claude não precise passar por aprovação do usuário a cada chamada de API, é possível usar a opção --dangerously-skip-permissions (com riscos envolvidos)
  • Recomenda-se usar modelos Opus 4.5 ou superiores, e o texto deixa explícito que há risco de ataques de prompt injection

Principais recursos

  • Query: executa consultas SQL sobre 60 milhões de documentos
  • Embed: armazena e reutiliza embeddings para busca semântica
  • Timeout: ajuste automático entre cerca de 20 e 120 segundos conforme a carga
  • Alvos de busca: vários tipos de documento, como post, comment, paper e tweet
  • Lexical Search: busca por palavras-chave baseada em BM25, com suporte a busca por frase e correspondência aproximada
  • Semantic Search: busca por similaridade semântica usando distância cosseno do pgvector (<=>)

Consultas e gestão de desempenho

  • alignment.search() retorna apenas os 100 principais resultados do BM25 e é adequado para amostragem em exploração rápida
  • alignment.search_exhaustive() executa busca completa com suporte a paginação
  • Diretrizes de desempenho
    • Busca simples: 1–5 segundos
    • Join com embeddings (até 500 mil linhas): 5–20 segundos
    • Agregações complexas (até 2 milhões de linhas): 20–60 segundos
    • Varreduras em larga escala (mais de 5 milhões de linhas): pode haver timeout sob carga
  • Para evitar sobrecarga, há exibição de resumo antes da execução da consulta e etapa de confirmação do usuário
  • Consultas pesadas são identificadas automaticamente com base em LIMIT, estimated_rows, tamanho de joins e outros critérios

Estrutura de dados e views

  • materialized views disponíveis no schema alignment
    • Exemplos: mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments e outros
    • Colunas principais: entity_id, uri, source, kind, original_author, title, score, embedding etc.
  • Também é possível acessar metadados por meio de join com a tabela alignment.entities
  • A função alignment.author_topics() permite análise cruzada entre temas específicos e autores

Operações vetoriais e recursos de combinação

  • <=>: operador de distância cosseno do pgvector (quanto mais próximo de 0, mais semelhante)
  • @handle: referência a vetor armazenado
  • Mistura de vetores: combinação ponderada de conceitos em formatos como scale(@rigor,.6) - scale(@hype,.3)
  • Remoção de viés: debias_vector(@axis, @topic) para remover a influência de um tema específico
  • O cálculo de vetor central (centroid) permite representar o significado médio de autores ou períodos
  • O cálculo de mudança temporal (temporal delta) permite rastrear deslocamentos conceituais ao longo do tempo

Busca híbrida e exemplos

  • Há suporte a busca combinada lexical + semântica
    • Exemplo: reordenar candidatos textuais por vetor semântico no formato WITH hits AS (search(...)) <=> @q
  • Exemplos de BM25
    • alignment.search('corrigibility')
    • alignment.search('"inner alignment"')
  • Exemplos de SQL
    • cálculo da lista dos principais autores de um tema específico
    • paginação de grandes volumes de resultados com alignment.search_exhaustive()

Escala do sistema e condições de oferta

  • Conta com mais de 65 milhões de documentos, mais de 22 milhões de embeddings e mais de 600 GB de índices
  • É gratuito para pesquisadores e inclui 1,5 milhão de tokens de embedding
  • Ao criar uma conta, o usuário recebe namespace próprio de identificador, timeouts mais longos (até 10 minutos) e limites de consulta ampliados

Resumo

  • Alignment Scry é uma plataforma de consulta de dados em larga escala para pesquisa em IA integrada ao Claude, com suporte a busca híbrida que combina SQL e operações vetoriais
  • Com API pública e diretrizes claras de consulta, oferece acessibilidade experimental a dados para pesquisadores e desenvolvedores de IA
  • Com base em índices de 600 GB e mais de 60 milhões de documentos, constrói um ambiente capaz de automatizar exploração relacionada a alinhamento de IA e pesquisa sobre inteligência

1 comentários

 
GN⁺ 2026-01-01
Comentários do Hacker News
  • Gosto que este projeto gera SQL em vez de ser apenas um chatbot de caixa-preta
    Em vez de usar LLM como banco de dados, acho que o caminho certo é usá-lo como ferramenta para traduzir linguagem natural em uma linguagem de consulta estruturada
    Mas fico curioso se estão usando timeout ou sandboxing para evitar abuso da API
    Também queria saber se existe vazamento semântico entre datasets diferentes — por exemplo, “optimization” pode ser usado de formas diferentes no ArXiv, LessWrong e HN

    • Sim, às vezes as pessoas querem precisão e controle
      O planejador de consultas SQL ainda é poderoso quando lida com muitas views e índices
      Também demos bastante atenção à segurança e ao rate limit, e bloqueamos joins perigosos com parsing de AST
      O Claude pode usar combinação por centróide de vetores para reduzir diferenças de significado entre domínios distintos
      Por exemplo, dá para fazer um experimento comparando a média entre o embedding de “optimization” no LessWrong e no ArXiv
    • Também fiz algo parecido. Transformei os históricos de conversa do Claude Code e do Codex em um banco local consultável direto pela CLI
      Resumi o processo de implementação neste post do blog
      No momento é um cliente para macOS, mas também estou preparando um engine para Linux
    • Acho que esse tipo de abordagem é exatamente a “inovação real que vai continuar mesmo se a bolha da IA estourar”
      O alcance de aplicação da interpretação e tradução de linguagem natural é imenso
      No fim, acho que o investimento também vai migrar para esse tipo de ferramenta prática
    • Não tenho experimentos, mas pela minha experiência a separação de significados de uma palavra muda conforme o tamanho do modelo de embeddings
      Quanto maior o modelo, melhor ele distingue sentidos diferentes da mesma palavra
  • Projeto realmente incrível. Pretendo usar isso imediatamente na minha pesquisa atual de teoria das cordas para encontrar variedades de Calabi–Yau
    Trabalhando com o Claude, encontrei dois artigos sobre flux vacua com algoritmos genéticos, e a combinação de SQL + BM25 permitiu uma busca muito refinada
    Mas escapar aspas no bash é incômodo, e por causa do limite de 100 resultados de alignment.search() tive que usar search_exhaustive() para obter o conjunto completo

    • Também investiguei recentemente com essa ferramenta o estudo da DESI sobre a variação da energia escura
      O Claude analisou o corpus da ExoPriors e organizou os principais artigos e resultados, sugerindo que os resultados da DESI podem mudar a direção da exploração em teoria das cordas
      Em especial, o artigo arXiv:2511.23463 explica o fenômeno de “phantom crossing” da energia escura por meio de mistura axion-dilaton
      Daqui para frente, pretendo expandir a pesquisa incluindo os parâmetros (w₀, wₐ) na função de ajuste e adicionando dinâmica de axions
      Artigo relacionado: reportagem da BBC
  • Usar a flag “dangerously-skip-permissions” com texto não seguro é perigoso
    Entradas vindas da internet podem conter prompt injection, então isso deve sempre ser executado em um ambiente com sandbox

    • Também comecei hoje a rodar o Claude em um devcontainer, e queria saber qual opção de sandbox é a mais simples
  • Estou procurando uma forma de consultar informações de genes e proteínas dentro do material suplementar (Supplementary Material) de artigos de ciências da vida
    Hoje a indexação é inconsistente, então muitos insights de pesquisa genômica dos últimos 15 anos acabam enterrados
    Acho que essa abordagem pode funcionar com dados open access

    • Também construí algo parecido — papers2dataset
      Ele usa o OpenAlex para explorar o grafo de citações e analisa PDFs open access
      Eu usei para encontrar agentes crioprotetores (cryoprotective agents) por temperatura, mas deve dar para adaptar ao seu problema
  • Expressões como “intelligence explosion” e “ARBITRARY SQL + VECTOR ALGEBRA” soam como jargão técnico exagerado

    • Não é exagero. Neste momento isso é de fato um explosor de inteligência de software
      Graças ao Opus 4.5 e ao GPT-5.2-Codex-xhigh, a velocidade de desenvolvimento explodiu
      O Scry é a única ferramenta que permite executar SQL arbitrário em corpora grandes e experimentar livremente com combinação de vetores
  • Combinar prompts com datasets externos é hoje o canal de exploração mais simples e poderoso
    É como “curl | bash”: dá para experimentar muito rápido

    • Exato. A combinação Prompt + Tool + External Dataset tem um potencial enorme
  • Foi descrito como ferramenta de pesquisa “state-of-the-art”, mas queria entender especificamente o que nela é tão de ponta

    • Por causa da escala. Quantas ferramentas existem que permitem consultar o texto completo de todos os artigos do arXiv?
    • Isso é só linguagem de marketing. Não é uma expressão protegida, então qualquer um pode usar
      Por exemplo, o modelo Gemma tinha desempenho inferior ao da concorrência, mas mesmo assim foi chamado de “state-of-the-art”
      Até o Juicero era de ponta quando foi lançado, mas no fim espremê-lo com a mão era melhor
    • A ferramenta é de ponta, mas as fontes de dados são históricas
    • Fico pensando se “a primeira” está sendo usada no sentido de “a melhor”
  • Atualmente estou desenvolvendo um sistema autônomo de pesquisa acadêmica e planejo integrar este projeto
    No momento estou usando a Edison Scientific API e prompts personalizados, e queria saber se há planos de open source
    Projeto relacionado: gia-agentic-short

    • Eu gostaria de abrir o código, mas sinceramente estou com dificuldades para me sustentar agora
      Se eu conseguir US$ 5.000, acho que consigo liberar tudo rapidamente