-
A Standard Intelligence está pesquisando aprendizado cross-modal escalável e lançou em open source o hertz-dev, um modelo base em transformer voltado exclusivamente para áudio.
-
O hertz-dev tem 8,5 bilhões de parâmetros e é especializado em modelagem de áudio.
-
hertz-codec
- É um autoencoder de áudio convolucional que converte voz mono de 16 kHz em representações latentes de 8 Hz.
- Em bitrate de 1 kbps, supera Soundstream e Encodec, e apresenta desempenho semelhante ao DAC.
- Possui 5 milhões de parâmetros no encoder e 95 milhões no decoder.
-
hertz-vae
- É um decoder transformer com 1,8 bilhão de parâmetros que atua como prior aprendido de um VAE de áudio.
- Usa 8.192 representações latentes amostradas para prever o próximo frame de áudio codificado.
-
hertz-dev
- É uma pilha de transformers com 6,6 bilhões de parâmetros.
- Foi treinado por uma única época com 500 bilhões de tokens, inicializando parcialmente os pesos de um modelo de linguagem pré-treinado.
- O modelo é um bom ponto de partida para pesquisadores ajustarem finamente para diversas tarefas.
- Em uma RTX 4090, a latência teórica é de 65 ms, e a latência média real é de 120 ms.
-
Perspectivas futuras
- O Hertz-dev é um modelo que oferece um vislumbre do futuro das interações de voz em tempo real e pode ser facilmente ajustado e expandido por pesquisadores.
- Uma versão maior do Hertz está em desenvolvimento e deve melhorar significativamente as capacidades brutas do modelo e a consistência final por meio de ajuste com aprendizado por reforço.
-
Geração de amostras
- Para demonstrar a capacidade de modelagem de áudio do hertz-dev, são fornecidas amostras de geração em canal único e canal duplo, além de conversas em tempo real entre o modelo e humanos.
-
Objetivo da Standard Intelligence
- A meta é construir inteligência artificial geral, e a equipe atualmente é composta por 4 pessoas.
- A empresa está contratando pessoas interessadas em construir AGI e também recebe contato de quem tiver interesse em investir.
1 comentários
Comentários no Hacker News
Pessoas que trabalham com modelos de voz se perguntam se o som gerado pelo sistema tem efeitos fisiológicos
Dizem que o Hertz é o primeiro modelo, mas existe um modelo semelhante chamado Moshi
A abordagem de direção autônoma baseada apenas em visão da Tesla torna a tecnologia mais acessível e escalável
Estou explorando ideias para sistemas de interação por voz
Fico curioso sobre qual é a licença dos pesos do modelo
As amostras de voz frequentemente produzem sons sem sentido, mas do ponto de vista acústico são excelentes
Estou explorando VUI (Voice User Interface) e isso parece útil
Os parâmetros do codec lembram um codec de voz militar de 2010
A voz soa um pouco distorcida e há ruído de fundo
Link do repositório do Hertz-dev