ProofBench — Benchmark híbrido de IA: cálculo simbólico + sistema de verificação de provas baseado em semântica
(github.com/Flamehaven)TL;DR
ProofBench é um benchmark híbrido de IA e sistema de verificação de provas de nova geração que combina matemática simbólica (SymPy/Pyodide) com análise semântica por IA (consenso entre múltiplos LLMs).
Ao avaliar simultaneamente a estrutura lógica e a validade semântica das provas, ele detecta argumentações “aparentemente corretas” e as quantifica com o Logic Integrity Index (LII).
🎯 Por que foi criado
Verificadores tradicionais de provas
- por serem baseados em lógica formal, são rígidos demais e pouco práticos, ou
- param no nível da gramática e não conseguem captar erros semânticos, ou
- têm alto custo computacional, o que dificulta feedback em tempo real.
O ProofBench é um framework de benchmark híbrido de IA que combina o rigor da verificação simbólica com a flexibilidade de compreensão da IA por meio de uma abordagem híbrida de “70% simbólico + 30% semântico”.
📊 O ProofBench verifica perguntas como estas
- “A IA consegue entender a consistência lógica?”
- “Se a estrutura de uma prova for visualizada com base em grafos, padrões de erro se tornam visíveis?”
- “Até que ponto a avaliação baseada em semântica é confiável?”
- “Um benchmark que combina simbólico e semântico é útil para educação, pesquisa e avaliação de IA?”
🧩 Métricas do benchmark híbrido de IA
- LII (Logic Integrity Index): métrica central da integridade lógica
- Coherence Variance: grau de concordância entre múltiplos modelos
- Symbolic Pass Rate: taxa de consistência matemática
- Semantic Stability: taxa de manutenção da consistência contextual
Esses números podem evoluir no futuro para um padrão comum de avaliação da “capacidade lógica, consistência e interpretação semântica” de modelos de IA.
🔍 Visão geral da arquitetura
- Symbolic Layer — executa SymPy via Pyodide para verificação determinística no navegador
- Semantic Layer — avalia respostas de vários LLMs com base em consenso
- Hybrid Orchestrator — peso padrão 70/30 (ajustável), cálculo da pontuação final
- LII Engine — índice de integridade lógica + cálculo de intervalo de confiança
- Justification Analyzer — grafo de dependências + detecção de ciclos
- Feedback Generator — gera relatórios de avaliação passo a passo em linguagem natural
⚙️ Principais recursos (v3.7.2)
- Motor de verificação híbrido: execução do SymPy com Pyodide no navegador + análise semântica baseada em consenso entre múltiplos LLMs
- LII (Logic Integrity Index): quantificação da consistência lógica com pontuação de 0–100 e intervalo de confiança de 95%
- Justification Graph: visualização das relações de dependência entre provas e detecção automática de raciocínio circular
- Consensus Manager: calcula a concordância entre vários modelos e gera uma pontuação média baseada em coerência
- Natural Feedback Generator: feedback em linguagem natural sobre erros e razões em cada etapa
- UI / Dashboard: visualização de resultados por etapa da prova, visão em grafo, relatórios e pontuação LII
- Execução Docker com um clique: uso imediato com uma única linha de
docker run
docker run -p 3000:80 ghcr.io/flamehaven/proofbench:latest
# → http://localhost:3000
🧱 Limitações
- A camada semântica é afetada por armadilhas linguísticas complexas (a camada simbólica ajuda a amortecer isso)
- O LII não é um certificado formal de prova, mas um indicador de qualidade
- Há um custo inicial de execução do Pyodide em dispositivos de baixo desempenho
⚡ Pontos sobre os quais gostaria de receber feedback
- O peso padrão 70/30 é razoável? (há necessidade de adaptive weight?)
- LII + intervalo de confiança é algo significativo como benchmark para educação e pesquisa?
- A detecção de raciocínio circular é útil em tarefas reais de matemática/lógica?
- Ideias para melhorar gargalos de desempenho do navegador (Pyodide)?
- Envio de exemplos de provas “que parecem corretas, mas estão erradas” é bem-vindo 🧩
🗺️ Roadmap
- Pesos variáveis (adaptive weighting) por seção
- Suporte a vários formatos de prova (Lean, Coq, fórmulas em Markdown etc.)
- Reforço de templates de exportação de relatórios baseados em LII + grafo
- Montagem de benchmark de red team (divulgação de um conjunto de provas “plausíveis, mas erradas”)
🔗 Links
- GitHub: https://github.com/Flamehaven/proofbench
- Licença: MIT
✍️ Comentário de desenvolvimento
O ProofBench é uma ferramenta criada para testar se a IA consegue entender não a “resposta correta”, mas a “justificação”, integrando estrutura lógica, consistência semântica e explicabilidade em um único benchmark.
Isto não é apenas um verificador — é um novo campo de experimentação para medir a capacidade de raciocínio da IA.
Ainda não há comentários.