Visão geral
- Este relatório resume os resultados da auditoria de 10 repositórios de Bio-AI e automação científica adjacente com alta visibilidade, com base em março de 2026
- A seleção não foi aleatória: usou GitHub stars, frequência de discussão técnica e exposição real no ecossistema como critérios.
- A auditoria foi conduzida em duas etapas: na 1ª, revisão técnica de código — estrutura do repo, entrypoints e execução; na 2ª, pontuação com STEM-AI v1.0.4 para avaliar integridade da documentação, código, testes e governança
- Conclusão: a maioria é executável. Porém, não está em um nível confiável. A ausência de governança mostra os limites da Bio-AI
1. Situação atual da Bio-AI em 2026
- Crescimento acelerado de ferramentas de Bio-AI baseadas em LLM.
- O hype em torno de agents, skills e wrappers de automação também se espalha rapidamente.
- O desempenho aparente e a utilidade aumentaram.
- Porém, faltam mecanismos de validação.
- A atribuição de responsabilidade é pouco clara.
- Em áreas de alto risco, como descoberta de fármacos, isso é especialmente perigoso.
- Em resumo, validação e governança estão muito mais atrasadas do que a velocidade de expansão das capacidades.
2. Alvos da auditoria
- Foram selecionados 10 projetos.
- Os critérios foram visibilidade, influência, exposição real, frequência de discussão e centralidade.
- Biomni
- AI-Scientist
- CellAgent
- ClawBio
- LabClaw
- claude-scientific-skills
- SciAgent-Skills
- BioAgents
- BioClaw
- OpenClaw-Medical-Skills
3. Método de auditoria
- A auditoria foi conduzida em duas etapas.
- Etapa 1. Technical Code Audit
- Verificação da estrutura do repositório.
- Verificação dos entrypoints.
- Verificação da camada de orquestração.
- Rastreamento do caminho de execução.
- Verificação do caminho de saída.
- Inspeção direta dos arquivos centrais.
- Comparação entre as alegações do README e o código real.
- Em outras palavras, o foco foi menos em “o que está escrito que faz” e mais em “o que realmente faz”.
- Etapa 2. Pontuação STEM-AI v1.0.4
- Avaliação S1.
- Verificação do README e da integridade da documentação.
- Avaliação S3.
- Verificação da substância do código, dos testes, da disciplina de mudanças e dos mecanismos de integridade biológica.
- Ou seja, não foi uma impressão subjetiva; a pontuação veio após a verificação estrutural.
- Princípios da auditoria
- Não foi feita uma reprodução dinâmica completa de todos os repositórios de ponta a ponta.
- Em vez disso, a auditoria se concentrou nas partes diretamente ligadas às alegações centrais.
- Áreas com alto risco ou grandes contradições receberam revisão aprofundada.
- Princípio central: a superfície executável tem prioridade sobre o README. Em caso de conflito entre documentação e código, o julgamento foi baseado na execução, não na documentação.
- Em outras palavras, esta auditoria está mais próxima de um diagnóstico estrutural do que de um benchmark de reprodutibilidade.
4. Classificação por pontuação
- T0: confiança não estabelecida. Mesmo que execute, é difícil considerá-lo um sistema confiável.
- T1: há alguma estrutura, mas a confiança ainda é insuficiente. Nível de exploração ou referência.
- T2: há progresso significativo, mas ainda insuficiente para um piloto supervisionado.
- T3: critério mínimo para considerar um piloto supervisionado.
- T4: nível em que se pode considerar conexão com ambientes de maior responsabilidade sobre resultados.
- O relatório define T3 como a linha mínima para piloto supervisionado e T4 como a linha mínima para conexão com ambientes de maior responsabilidade sobre resultados
5. Resultados
- Resultados por repositório
- AI-Scientist — 48 pontos, T1
- Biomni — 17 pontos, T0
- BioAgents — 30 pontos, T0
- BioClaw — 29 pontos, T0
- CellAgent — 15 pontos, T0
- ClawBio — 63 pontos, T2
- claude-scientific-skills — 24 pontos, T0
- LabClaw — 20 pontos, T0
- SciAgent-Skills — 32 pontos, T0
- OpenClaw-Medical-Skills — 22 pontos, T0
- Significado dos resultados
- 8 dos 10 não estabeleceram confiança.
- 1 tem alguma estrutura, mas ainda é insuficiente.
- 1 foi o melhor caso, mas ainda ficou abaixo da linha mínima para piloto.
- Nenhum atingiu T3 ou acima. Ou seja, nenhum repositório passou no critério mínimo para um piloto supervisionado.
6. Problemas recorrentes identificados
- Alegações excessivas
- Validação fraca
- Falta de rastreabilidade
- Limites de falha frágeis
- Desalinhamento entre README e realidade de execução
- Ausência de governança
- Falta de reprodutibilidade
- Licença, responsabilidade e limites operacionais pouco claros
- Fala-se em escopo próximo ao clínico, mas a estrutura de responsabilidade é frágil
- O CI foca mais em validação de sintaxe e formato do que em validação científica.
- Foram encontrados casos em que mocks e placeholders pareciam funcionalidades reais.
- Mesmo quando o design local parece bom, os padrões de implantação repetidamente se mostram arriscados.
7. Conclusão final
- Este relatório não está dizendo que todo open source de Bio-AI é “inútil”.
- O ponto central é enfatizar que parecer competente e ser confiável são coisas diferentes.
- O gargalo não é apenas a capacidade dos modelos; a ausência de validação, rastreabilidade, responsabilidade e governança é um problema maior.
- Mais precisamente, a Bio-AI só poderá se tornar um sistema confiável se sua estrutura for melhorada para tornar reproduzíveis as alegações e saídas, deixar os limites claros e permitir revisão institucional.
8. Resumo em uma linha
- O maior problema da Bio-AI não é a falta de capacidade, mas a falta de validação e governança
Ainda não há comentários.