2 pontos por GN⁺ 2024-11-04 | 1 comentários | Compartilhar no WhatsApp
  • A Standard Intelligence está pesquisando aprendizado cross-modal escalável e lançou em open source o hertz-dev, um modelo base em transformer voltado exclusivamente para áudio.

  • O hertz-dev tem 8,5 bilhões de parâmetros e é especializado em modelagem de áudio.

  • hertz-codec

    • É um autoencoder de áudio convolucional que converte voz mono de 16 kHz em representações latentes de 8 Hz.
    • Em bitrate de 1 kbps, supera Soundstream e Encodec, e apresenta desempenho semelhante ao DAC.
    • Possui 5 milhões de parâmetros no encoder e 95 milhões no decoder.
  • hertz-vae

    • É um decoder transformer com 1,8 bilhão de parâmetros que atua como prior aprendido de um VAE de áudio.
    • Usa 8.192 representações latentes amostradas para prever o próximo frame de áudio codificado.
  • hertz-dev

    • É uma pilha de transformers com 6,6 bilhões de parâmetros.
    • Foi treinado por uma única época com 500 bilhões de tokens, inicializando parcialmente os pesos de um modelo de linguagem pré-treinado.
    • O modelo é um bom ponto de partida para pesquisadores ajustarem finamente para diversas tarefas.
    • Em uma RTX 4090, a latência teórica é de 65 ms, e a latência média real é de 120 ms.
  • Perspectivas futuras

    • O Hertz-dev é um modelo que oferece um vislumbre do futuro das interações de voz em tempo real e pode ser facilmente ajustado e expandido por pesquisadores.
    • Uma versão maior do Hertz está em desenvolvimento e deve melhorar significativamente as capacidades brutas do modelo e a consistência final por meio de ajuste com aprendizado por reforço.
  • Geração de amostras

    • Para demonstrar a capacidade de modelagem de áudio do hertz-dev, são fornecidas amostras de geração em canal único e canal duplo, além de conversas em tempo real entre o modelo e humanos.
  • Objetivo da Standard Intelligence

    • A meta é construir inteligência artificial geral, e a equipe atualmente é composta por 4 pessoas.
    • A empresa está contratando pessoas interessadas em construir AGI e também recebe contato de quem tiver interesse em investir.

1 comentários

 
GN⁺ 2024-11-04
Comentários no Hacker News
  • Pessoas que trabalham com modelos de voz se perguntam se o som gerado pelo sistema tem efeitos fisiológicos

    • É um modelo muito superior aos mecanismos TTS open source existentes
    • Seria bom adicionar capacidades multimodais para que ele também possa aceitar texto
    • Dá para ajustá-lo finamente para reproduzir saídas como as do Piper com uma entonação mais natural
    • Seria útil conectar um LLM de texto ao Piper, e o Piper ao Hertz-dev
  • Dizem que o Hertz é o primeiro modelo, mas existe um modelo semelhante chamado Moshi

  • A abordagem de direção autônoma baseada apenas em visão da Tesla torna a tecnologia mais acessível e escalável

    • Permite coletar grandes conjuntos de dados e iterar rapidamente
    • Quando atingir um estágio maduro, pode haver a possibilidade de reintegrar dados de sensores adicionais
  • Estou explorando ideias para sistemas de interação por voz

    • Hoje, a maioria das interações por voz converte a fala em texto e depois de volta em áudio
    • Se fosse possível desenvolver um sistema que respondesse diretamente em voz, sem passar por texto, ele poderia gerar respostas naturais e improvisadas
    • Fico curioso se os modelos de interação por voz seguem o processo padrão de voz-texto-voz ou se estão explorando processamento voz-a-voz
  • Fico curioso sobre qual é a licença dos pesos do modelo

  • As amostras de voz frequentemente produzem sons sem sentido, mas do ponto de vista acústico são excelentes

    • Com SD e LLMs, é possível depurar estudando a reação a pequenas mudanças
    • Como o Hertz-dev usa som como entrada, é difícil distinguir quais tokens devem ser ajustados
    • Para uso em tempo real, ficar mexendo nisso não é viável
    • Fico curioso sobre formas de estudar sistematicamente o comportamento do Hertz-dev
  • Estou explorando VUI (Voice User Interface) e isso parece útil

    • Acho que VUI é o futuro da interação com computadores
    • Pode incluir crianças e idosos como novos grupos de usuários
  • Os parâmetros do codec lembram um codec de voz militar de 2010

    • Usa quadros de 120 ms e é codificado em áudio de 16 KHz
    • Link da IEEE
  • A voz soa um pouco distorcida e há ruído de fundo

    • Fico curioso se isso é limitação do modelo ou problema de qualidade dos dados de treinamento
  • Link do repositório do Hertz-dev