7 pontos por unohee 10 일 전 | 2 comentários | Compartilhar no WhatsApp

Todos os geradores comerciais de música por IA, como Suno, Udio, MusicGen e Stable Audio, compartilham uma restrição física inevitável.
O áudio gerado precisa necessariamente passar por Residual Vector Quantization
(RVQ).

O RVQ mapeia representações contínuas de áudio para vetores discretos de codebook. Nesse processo, a lacuna de quantização gerada é irreversível. Quando um modelo de separação de fontes treinado apenas com música humana processa áudio gerado por IA, essa lacuna aparece como um resíduo de reconstrução anormalmente grande e estruturado. Esse é o sinal forense.

Detectores existentes (CLAM, SpecTTTra) funcionam bem dentro da distribuição de treino, mas desmoronam diante de novos geradores. O ArtifactNet detecta não como a música de IA soa, mas por que ela é fisicamente diferente.


Pipeline (total de 4.0M de parâmetros):

  1. ArtifactUNet (3.6M) — UNet de máscara limitada que prevê uma máscara multiplicativa restrita a [0, 0.5] na magnitude da STFT. Treinado com destilação de conhecimento em 2 estágios, usando o resíduo do Demucs v4 como professor.

  2. Recursos forenses HPSS de 7 canais — o resíduo é decomposto em componentes harmônicos/percussivos e depois combinado com derivada temporal e spectral flux.

  3. CNN leve (0.4M) — processa segmentos de 4 segundos, com decisão por mediana no nível da faixa.


Evidência física: medição da largura de banda efetiva do resíduo de separação de fontes (n=94):

  • Música humana: média de 1.996 Hz
  • Média de IA (22 geradores): 291 Hz
  • Suno v3.5: 170 Hz / Riffusion: 219 Hz / MusicGen: 255 Hz

Independentemente da arquitetura, todos os geradores por IA se concentram na faixa de 200 Hz.


Resultados do ArtifactBench (6.183 faixas, 22 geradores, sem sobreposição entre treino e teste):

Modelo Parâmetros F1 FPR
ArtifactNet 4M 0.983 1.5%
CLAM 194M 0.758 69.3%
SpecTTTra 19M 0.771 19.4%

O CLAM tem taxa de falso positivo de 69,3% ao classificar música real como IA, um nível que o torna praticamente sem sentido como discriminador. Os benchmarks SONICS/MoM distribuem o conjunto real apenas por IDs do YouTube, mas muitos já foram removidos ou tornados privados, tornando impossível comparar o F1 com base no original. O ArtifactBench compara os três modelos nas mesmas condições usando uma partição real coletada e verificada diretamente.


Limitações: requer entrada em 44.1kHz; em MP3 de baixo bitrate o FPR fica em ~8%;
com ataque de lavagem por Demucs em passe único, o TPR cai para 94%; no Udio mais recente, TPR = 87%.


Demo (~5s): https://demo.intrect.io/
Artigo: https://arxiv.org/abs/2604.16254
Modelo + benchmark (CC BY-NC 4.0): https://huggingface.co/intrect/artifactnet
Patente em processo (KR + PCT)

2 comentários

 
unsure4000 10 일 전

Parece que é o seu próprio artigo, certo?

 
chisquare88 9 일 전

Se for 69%, ainda está perto de cara ou coroa. Parece mais algo próximo de pedir para adicionar testes unitários às IAs de geração musical.