1 pontos por GN⁺ 2024-03-05 | Ainda não há comentários. | Compartilhar no WhatsApp

Principais atualizações do Opus 1.5

  • A versão Opus 1.5 foi anunciada, trazendo várias atualizações, incluindo melhorias de qualidade baseadas em machine learning.
  • Mantendo compatibilidade total com a versão anterior, novos recursos foram introduzidos para melhorar a experiência de áudio.
  • Pela primeira vez, técnicas de deep learning são usadas no processamento e na geração de sinais por meio de machine learning.

Tratamento de perda de pacotes

  • A perda de pacotes é um dos maiores incômodos durante chamadas; se os pacotes não forem entregues, nem mesmo um codec de alta qualidade adianta.
  • A ocultação de perda de pacotes (PLC) tem o papel de preencher o áudio no lugar dos pacotes ausentes, e o machine learning ajuda bastante nisso.
  • O PLC é realizado com uma rede neural profunda (DNN), como pode ser visto no artigo e nos detalhes técnicos.

Redundância profunda (DRED)

  • Quando os pacotes são perdidos de forma consecutiva, o PLC sozinho tem limitações, e isso é resolvido com redundância.
  • O Opus inclui o mecanismo de redundância de baixa taxa de bits (LBRR), mas introduz o DRED, que usa ML para comprimir voz de forma eficiente.
  • O DRED pode transmitir 1 segundo de redundância com um overhead de cerca de 12-32 kb/s.

Vocoder neural

  • A baixa complexidade do DRED e do PLC é possível graças à nova tecnologia de vocoder neural.
  • O vocoder FARGAN tem 1/5 da complexidade do LPCNet e usa menos de 1% de um núcleo de CPU mesmo em notebooks ou celulares modernos.

Melhoria da qualidade de voz em baixa taxa de bits

  • Quando não há bits suficientes disponíveis, artefatos de codificação podem ser perceptíveis, e foram introduzidos dois métodos de melhoria: LACE e NoLACE.
  • O LACE é semelhante a um pós-filtro tradicional, mas uma DNN otimiza os coeficientes do pós-filtro com base em todos os dados disponíveis para o decodificador.
  • O NoLACE exige mais processamento, mas é mais poderoso graças ao processamento adicional de sinal não linear.

Integração com WebRTC

  • O DRED exige integração estreita com o buffer de jitter, e o tamanho desse buffer determina o máximo de atraso na chegada de pacotes que pode ser tolerado.
  • Os dados de DRED são tratados de forma semelhante a pacotes de áudio que chegam atrasados, e o tamanho do buffer pode ser reduzido quando a condição da rede melhora.

IETF e padronização

  • Esse trabalho está em andamento dentro do grupo de trabalho mlcodec da IETF e se concentra no mecanismo geral de extensão do Opus, em redundância profunda e em melhorias para codificação de voz.
  • O mecanismo DRED permite incluir informações adicionais nos pacotes Opus, ao mesmo tempo em que decodificadores de versões anteriores ainda conseguem decodificar os dados Opus normais.

Outras melhorias

  • O Opus ganhou suporte a AVX2 e detecção em tempo real, tornando mais rápidos o novo código DNN e o codificador SILK.
  • A otimização ARMv7 Neon foi reativada no AArch64, tornando a codificação mais eficiente.
  • Para simular a perda de pacotes de forma mais realista, é possível criar modelos de perda de pacotes que reproduzem perdas semelhantes às do mundo real.

Opinião do GN⁺

  • O Opus 1.5 apresenta uma abordagem inovadora para aprimorar a tecnologia existente de codecs de áudio com machine learning. Isso pode representar um avanço importante para a evolução das tecnologias de comunicação.
  • O problema de perda de pacotes é crucial em comunicações em tempo real, e a tecnologia do Opus 1.5 oferece um método eficaz para lidar com isso. Em especial, recursos como o DRED podem ser úteis em ambientes com alta instabilidade de rede.
  • Tecnologias como o vocoder neural desempenham um papel importante na melhoria da qualidade de voz, mas, considerando a complexidade e os requisitos de desempenho dessas técnicas, ainda é necessário discutir se todos os usuários poderão se beneficiar delas.
  • As tecnologias do Opus 1.5 podem mostrar todo o seu valor quando integradas a plataformas de comunicação em tempo real como o WebRTC, o que pode melhorar bastante a qualidade do trabalho remoto e da comunicação online.
  • O processo de padronização tem papel importante para a adoção ampla dessas tecnologias e para manter a compatibilidade, e o esforço da IETF ajudará a permitir que essa tecnologia seja usada em uma gama mais ampla de aplicações e serviços.

Ainda não há comentários.

Ainda não há comentários.