ArtifactNet: framework forense leve para detectar música gerada por IA com física de codecs
(arxiv.org)Todos os geradores comerciais de música por IA, como Suno, Udio, MusicGen e Stable Audio, compartilham uma restrição física inevitável.
O áudio gerado precisa necessariamente passar por Residual Vector Quantization
(RVQ).
O RVQ mapeia representações contínuas de áudio para vetores discretos de codebook. Nesse processo, a lacuna de quantização gerada é irreversível. Quando um modelo de separação de fontes treinado apenas com música humana processa áudio gerado por IA, essa lacuna aparece como um resíduo de reconstrução anormalmente grande e estruturado. Esse é o sinal forense.
Detectores existentes (CLAM, SpecTTTra) funcionam bem dentro da distribuição de treino, mas desmoronam diante de novos geradores. O ArtifactNet detecta não como a música de IA soa, mas por que ela é fisicamente diferente.
Pipeline (total de 4.0M de parâmetros):
-
ArtifactUNet (3.6M) — UNet de máscara limitada que prevê uma máscara multiplicativa restrita a [0, 0.5] na magnitude da STFT. Treinado com destilação de conhecimento em 2 estágios, usando o resíduo do Demucs v4 como professor.
-
Recursos forenses HPSS de 7 canais — o resíduo é decomposto em componentes harmônicos/percussivos e depois combinado com derivada temporal e spectral flux.
-
CNN leve (0.4M) — processa segmentos de 4 segundos, com decisão por mediana no nível da faixa.
Evidência física: medição da largura de banda efetiva do resíduo de separação de fontes (n=94):
- Música humana: média de 1.996 Hz
- Média de IA (22 geradores): 291 Hz
- Suno v3.5: 170 Hz / Riffusion: 219 Hz / MusicGen: 255 Hz
Independentemente da arquitetura, todos os geradores por IA se concentram na faixa de 200 Hz.
Resultados do ArtifactBench (6.183 faixas, 22 geradores, sem sobreposição entre treino e teste):
| Modelo | Parâmetros | F1 | FPR |
|---|---|---|---|
| ArtifactNet | 4M | 0.983 | 1.5% |
| CLAM | 194M | 0.758 | 69.3% |
| SpecTTTra | 19M | 0.771 | 19.4% |
O CLAM tem taxa de falso positivo de 69,3% ao classificar música real como IA, um nível que o torna praticamente sem sentido como discriminador. Os benchmarks SONICS/MoM distribuem o conjunto real apenas por IDs do YouTube, mas muitos já foram removidos ou tornados privados, tornando impossível comparar o F1 com base no original. O ArtifactBench compara os três modelos nas mesmas condições usando uma partição real coletada e verificada diretamente.
Limitações: requer entrada em 44.1kHz; em MP3 de baixo bitrate o FPR fica em ~8%;
com ataque de lavagem por Demucs em passe único, o TPR cai para 94%; no Udio mais recente, TPR = 87%.
Demo (~5s): https://demo.intrect.io/
Artigo: https://arxiv.org/abs/2604.16254
Modelo + benchmark (CC BY-NC 4.0): https://huggingface.co/intrect/artifactnet
Patente em processo (KR + PCT)
2 comentários
Parece que é o seu próprio artigo, certo?
Se for 69%, ainda está perto de cara ou coroa. Parece mais algo próximo de pedir para adicionar testes unitários às IAs de geração musical.