ProofBench — Benchmark híbrido de IA: cálculo simbólico + sistema de verificação de provas baseado em semântica

(github.com/Flamehaven)

1 pontos por flamehaven01 2025-10-17 | Ainda não há comentários. | Compartilhar no WhatsApp

TL;DR

ProofBench é um benchmark híbrido de IA e sistema de verificação de provas de nova geração que combina matemática simbólica (SymPy/Pyodide) com análise semântica por IA (consenso entre múltiplos LLMs).

Ao avaliar simultaneamente a estrutura lógica e a validade semântica das provas, ele detecta argumentações “aparentemente corretas” e as quantifica com o Logic Integrity Index (LII).

🎯 Por que foi criado

Verificadores tradicionais de provas

por serem baseados em lógica formal, são rígidos demais e pouco práticos, ou
param no nível da gramática e não conseguem captar erros semânticos, ou
têm alto custo computacional, o que dificulta feedback em tempo real.

O ProofBench é um framework de benchmark híbrido de IA que combina o rigor da verificação simbólica com a flexibilidade de compreensão da IA por meio de uma abordagem híbrida de “70% simbólico + 30% semântico”.

📊 O ProofBench verifica perguntas como estas

“A IA consegue entender a consistência lógica?”
“Se a estrutura de uma prova for visualizada com base em grafos, padrões de erro se tornam visíveis?”
“Até que ponto a avaliação baseada em semântica é confiável?”
“Um benchmark que combina simbólico e semântico é útil para educação, pesquisa e avaliação de IA?”

🧩 Métricas do benchmark híbrido de IA

LII (Logic Integrity Index): métrica central da integridade lógica
Coherence Variance: grau de concordância entre múltiplos modelos
Symbolic Pass Rate: taxa de consistência matemática
Semantic Stability: taxa de manutenção da consistência contextual

Esses números podem evoluir no futuro para um padrão comum de avaliação da “capacidade lógica, consistência e interpretação semântica” de modelos de IA.

🔍 Visão geral da arquitetura

Symbolic Layer — executa SymPy via Pyodide para verificação determinística no navegador
Semantic Layer — avalia respostas de vários LLMs com base em consenso
Hybrid Orchestrator — peso padrão 70/30 (ajustável), cálculo da pontuação final
LII Engine — índice de integridade lógica + cálculo de intervalo de confiança
Justification Analyzer — grafo de dependências + detecção de ciclos
Feedback Generator — gera relatórios de avaliação passo a passo em linguagem natural

⚙️ Principais recursos (v3.7.2)

Motor de verificação híbrido: execução do SymPy com Pyodide no navegador + análise semântica baseada em consenso entre múltiplos LLMs
LII (Logic Integrity Index): quantificação da consistência lógica com pontuação de 0–100 e intervalo de confiança de 95%
Justification Graph: visualização das relações de dependência entre provas e detecção automática de raciocínio circular
Consensus Manager: calcula a concordância entre vários modelos e gera uma pontuação média baseada em coerência
Natural Feedback Generator: feedback em linguagem natural sobre erros e razões em cada etapa
UI / Dashboard: visualização de resultados por etapa da prova, visão em grafo, relatórios e pontuação LII
Execução Docker com um clique: uso imediato com uma única linha de docker run

docker run -p 3000:80 ghcr.io/flamehaven/proofbench:latest  
# → http://localhost:3000

🧱 Limitações

A camada semântica é afetada por armadilhas linguísticas complexas (a camada simbólica ajuda a amortecer isso)
O LII não é um certificado formal de prova, mas um indicador de qualidade
Há um custo inicial de execução do Pyodide em dispositivos de baixo desempenho

⚡ Pontos sobre os quais gostaria de receber feedback

O peso padrão 70/30 é razoável? (há necessidade de adaptive weight?)
LII + intervalo de confiança é algo significativo como benchmark para educação e pesquisa?
A detecção de raciocínio circular é útil em tarefas reais de matemática/lógica?
Ideias para melhorar gargalos de desempenho do navegador (Pyodide)?
Envio de exemplos de provas “que parecem corretas, mas estão erradas” é bem-vindo 🧩

🗺️ Roadmap

Pesos variáveis (adaptive weighting) por seção
Suporte a vários formatos de prova (Lean, Coq, fórmulas em Markdown etc.)
Reforço de templates de exportação de relatórios baseados em LII + grafo
Montagem de benchmark de red team (divulgação de um conjunto de provas “plausíveis, mas erradas”)

🔗 Links

GitHub: https://github.com/Flamehaven/proofbench
Licença: MIT

✍️ Comentário de desenvolvimento

O ProofBench é uma ferramenta criada para testar se a IA consegue entender não a “resposta correta”, mas a “justificação”, integrando estrutura lógica, consistência semântica e explicabilidade em um único benchmark.

Isto não é apenas um verificador — é um novo campo de experimentação para medir a capacidade de raciocínio da IA.