Relatório de auditoria open source Bio-AI 2026: ao examinar 10 projetos, “a maioria roda, mas é difícil confiar.”

(flamehaven.space)

2 pontos por flamehaven01 2026-03-25 | Ainda não há comentários. | Compartilhar no WhatsApp

Este relatório resume os resultados da auditoria de 10 repositórios de Bio-AI e automação científica adjacente com alta visibilidade, com base em março de 2026
A seleção não foi aleatória: usou GitHub stars, frequência de discussão técnica e exposição real no ecossistema como critérios.
A auditoria foi conduzida em duas etapas: na 1ª, revisão técnica de código — estrutura do repo, entrypoints e execução; na 2ª, pontuação com STEM-AI v1.0.4 para avaliar integridade da documentação, código, testes e governança
Conclusão: a maioria é executável. Porém, não está em um nível confiável. A ausência de governança mostra os limites da Bio-AI

Crescimento acelerado de ferramentas de Bio-AI baseadas em LLM.
O hype em torno de agents, skills e wrappers de automação também se espalha rapidamente.
O desempenho aparente e a utilidade aumentaram.
Porém, faltam mecanismos de validação.
A atribuição de responsabilidade é pouco clara.
Em áreas de alto risco, como descoberta de fármacos, isso é especialmente perigoso.
Em resumo, validação e governança estão muito mais atrasadas do que a velocidade de expansão das capacidades.

T0: confiança não estabelecida. Mesmo que execute, é difícil considerá-lo um sistema confiável.
T1: há alguma estrutura, mas a confiança ainda é insuficiente. Nível de exploração ou referência.
T2: há progresso significativo, mas ainda insuficiente para um piloto supervisionado.
T3: critério mínimo para considerar um piloto supervisionado.
T4: nível em que se pode considerar conexão com ambientes de maior responsabilidade sobre resultados.
O relatório define T3 como a linha mínima para piloto supervisionado e T4 como a linha mínima para conexão com ambientes de maior responsabilidade sobre resultados

Resultados por repositório
- AI-Scientist — 48 pontos, T1
- Biomni — 17 pontos, T0
- BioAgents — 30 pontos, T0
- BioClaw — 29 pontos, T0
- CellAgent — 15 pontos, T0
- ClawBio — 63 pontos, T2
- claude-scientific-skills — 24 pontos, T0
- LabClaw — 20 pontos, T0
- SciAgent-Skills — 32 pontos, T0
- OpenClaw-Medical-Skills — 22 pontos, T0
Significado dos resultados
- 8 dos 10 não estabeleceram confiança.
- 1 tem alguma estrutura, mas ainda é insuficiente.
- 1 foi o melhor caso, mas ainda ficou abaixo da linha mínima para piloto.
- Nenhum atingiu T3 ou acima. Ou seja, nenhum repositório passou no critério mínimo para um piloto supervisionado.

Alegações excessivas
Validação fraca
Falta de rastreabilidade
Limites de falha frágeis
Desalinhamento entre README e realidade de execução
Ausência de governança
Falta de reprodutibilidade
Licença, responsabilidade e limites operacionais pouco claros
Fala-se em escopo próximo ao clínico, mas a estrutura de responsabilidade é frágil
O CI foca mais em validação de sintaxe e formato do que em validação científica.
Foram encontrados casos em que mocks e placeholders pareciam funcionalidades reais.
Mesmo quando o design local parece bom, os padrões de implantação repetidamente se mostram arriscados.

Este relatório não está dizendo que todo open source de Bio-AI é “inútil”.
O ponto central é enfatizar que parecer competente e ser confiável são coisas diferentes.
O gargalo não é apenas a capacidade dos modelos; a ausência de validação, rastreabilidade, responsabilidade e governança é um problema maior.
Mais precisamente, a Bio-AI só poderá se tornar um sistema confiável se sua estrutura for melhorada para tornar reproduzíveis as alegações e saídas, deixar os limites claros e permitir revisão institucional.

O maior problema da Bio-AI não é a falta de capacidade, mas a falta de validação e governança

Leituras relacionadas