1 pontos por flamehaven01 2025-10-17 | Ainda não há comentários. | Compartilhar no WhatsApp

TL;DR

ProofBench é um benchmark híbrido de IA e sistema de verificação de provas de nova geração que combina matemática simbólica (SymPy/Pyodide) com análise semântica por IA (consenso entre múltiplos LLMs).

Ao avaliar simultaneamente a estrutura lógica e a validade semântica das provas, ele detecta argumentações “aparentemente corretas” e as quantifica com o Logic Integrity Index (LII).


🎯 Por que foi criado

Verificadores tradicionais de provas

  • por serem baseados em lógica formal, são rígidos demais e pouco práticos, ou
  • param no nível da gramática e não conseguem captar erros semânticos, ou
  • têm alto custo computacional, o que dificulta feedback em tempo real.

O ProofBench é um framework de benchmark híbrido de IA que combina o rigor da verificação simbólica com a flexibilidade de compreensão da IA por meio de uma abordagem híbrida de “70% simbólico + 30% semântico”.


📊 O ProofBench verifica perguntas como estas

  • “A IA consegue entender a consistência lógica?”
  • “Se a estrutura de uma prova for visualizada com base em grafos, padrões de erro se tornam visíveis?”
  • “Até que ponto a avaliação baseada em semântica é confiável?”
  • “Um benchmark que combina simbólico e semântico é útil para educação, pesquisa e avaliação de IA?”

🧩 Métricas do benchmark híbrido de IA

  • LII (Logic Integrity Index): métrica central da integridade lógica
  • Coherence Variance: grau de concordância entre múltiplos modelos
  • Symbolic Pass Rate: taxa de consistência matemática
  • Semantic Stability: taxa de manutenção da consistência contextual

Esses números podem evoluir no futuro para um padrão comum de avaliação da “capacidade lógica, consistência e interpretação semântica” de modelos de IA.


🔍 Visão geral da arquitetura

  • Symbolic Layer — executa SymPy via Pyodide para verificação determinística no navegador
  • Semantic Layer — avalia respostas de vários LLMs com base em consenso
  • Hybrid Orchestrator — peso padrão 70/30 (ajustável), cálculo da pontuação final
  • LII Engine — índice de integridade lógica + cálculo de intervalo de confiança
  • Justification Analyzer — grafo de dependências + detecção de ciclos
  • Feedback Generator — gera relatórios de avaliação passo a passo em linguagem natural

⚙️ Principais recursos (v3.7.2)

  • Motor de verificação híbrido: execução do SymPy com Pyodide no navegador + análise semântica baseada em consenso entre múltiplos LLMs
  • LII (Logic Integrity Index): quantificação da consistência lógica com pontuação de 0–100 e intervalo de confiança de 95%
  • Justification Graph: visualização das relações de dependência entre provas e detecção automática de raciocínio circular
  • Consensus Manager: calcula a concordância entre vários modelos e gera uma pontuação média baseada em coerência
  • Natural Feedback Generator: feedback em linguagem natural sobre erros e razões em cada etapa
  • UI / Dashboard: visualização de resultados por etapa da prova, visão em grafo, relatórios e pontuação LII
  • Execução Docker com um clique: uso imediato com uma única linha de docker run
docker run -p 3000:80 ghcr.io/flamehaven/proofbench:latest  
# → http://localhost:3000  
  

🧱 Limitações

  • A camada semântica é afetada por armadilhas linguísticas complexas (a camada simbólica ajuda a amortecer isso)
  • O LII não é um certificado formal de prova, mas um indicador de qualidade
  • Há um custo inicial de execução do Pyodide em dispositivos de baixo desempenho

⚡ Pontos sobre os quais gostaria de receber feedback

  • O peso padrão 70/30 é razoável? (há necessidade de adaptive weight?)
  • LII + intervalo de confiança é algo significativo como benchmark para educação e pesquisa?
  • A detecção de raciocínio circular é útil em tarefas reais de matemática/lógica?
  • Ideias para melhorar gargalos de desempenho do navegador (Pyodide)?
  • Envio de exemplos de provas “que parecem corretas, mas estão erradas” é bem-vindo 🧩

🗺️ Roadmap

  • Pesos variáveis (adaptive weighting) por seção
  • Suporte a vários formatos de prova (Lean, Coq, fórmulas em Markdown etc.)
  • Reforço de templates de exportação de relatórios baseados em LII + grafo
  • Montagem de benchmark de red team (divulgação de um conjunto de provas “plausíveis, mas erradas”)

🔗 Links


✍️ Comentário de desenvolvimento

O ProofBench é uma ferramenta criada para testar se a IA consegue entender não a “resposta correta”, mas a “justificação”, integrando estrutura lógica, consistência semântica e explicabilidade em um único benchmark.

Isto não é apenas um verificador — é um novo campo de experimentação para medir a capacidade de raciocínio da IA.

Ainda não há comentários.

Ainda não há comentários.