Principais atualizações do Opus 1.5
- A versão Opus 1.5 foi anunciada, trazendo várias atualizações, incluindo melhorias de qualidade baseadas em machine learning.
- Mantendo compatibilidade total com a versão anterior, novos recursos foram introduzidos para melhorar a experiência de áudio.
- Pela primeira vez, técnicas de deep learning são usadas no processamento e na geração de sinais por meio de machine learning.
Tratamento de perda de pacotes
- A perda de pacotes é um dos maiores incômodos durante chamadas; se os pacotes não forem entregues, nem mesmo um codec de alta qualidade adianta.
- A ocultação de perda de pacotes (PLC) tem o papel de preencher o áudio no lugar dos pacotes ausentes, e o machine learning ajuda bastante nisso.
- O PLC é realizado com uma rede neural profunda (DNN), como pode ser visto no artigo e nos detalhes técnicos.
Redundância profunda (DRED)
- Quando os pacotes são perdidos de forma consecutiva, o PLC sozinho tem limitações, e isso é resolvido com redundância.
- O Opus inclui o mecanismo de redundância de baixa taxa de bits (LBRR), mas introduz o DRED, que usa ML para comprimir voz de forma eficiente.
- O DRED pode transmitir 1 segundo de redundância com um overhead de cerca de 12-32 kb/s.
Vocoder neural
- A baixa complexidade do DRED e do PLC é possível graças à nova tecnologia de vocoder neural.
- O vocoder FARGAN tem 1/5 da complexidade do LPCNet e usa menos de 1% de um núcleo de CPU mesmo em notebooks ou celulares modernos.
Melhoria da qualidade de voz em baixa taxa de bits
- Quando não há bits suficientes disponíveis, artefatos de codificação podem ser perceptíveis, e foram introduzidos dois métodos de melhoria: LACE e NoLACE.
- O LACE é semelhante a um pós-filtro tradicional, mas uma DNN otimiza os coeficientes do pós-filtro com base em todos os dados disponíveis para o decodificador.
- O NoLACE exige mais processamento, mas é mais poderoso graças ao processamento adicional de sinal não linear.
Integração com WebRTC
- O DRED exige integração estreita com o buffer de jitter, e o tamanho desse buffer determina o máximo de atraso na chegada de pacotes que pode ser tolerado.
- Os dados de DRED são tratados de forma semelhante a pacotes de áudio que chegam atrasados, e o tamanho do buffer pode ser reduzido quando a condição da rede melhora.
IETF e padronização
- Esse trabalho está em andamento dentro do grupo de trabalho mlcodec da IETF e se concentra no mecanismo geral de extensão do Opus, em redundância profunda e em melhorias para codificação de voz.
- O mecanismo DRED permite incluir informações adicionais nos pacotes Opus, ao mesmo tempo em que decodificadores de versões anteriores ainda conseguem decodificar os dados Opus normais.
Outras melhorias
- O Opus ganhou suporte a AVX2 e detecção em tempo real, tornando mais rápidos o novo código DNN e o codificador SILK.
- A otimização ARMv7 Neon foi reativada no AArch64, tornando a codificação mais eficiente.
- Para simular a perda de pacotes de forma mais realista, é possível criar modelos de perda de pacotes que reproduzem perdas semelhantes às do mundo real.
Opinião do GN⁺
- O Opus 1.5 apresenta uma abordagem inovadora para aprimorar a tecnologia existente de codecs de áudio com machine learning. Isso pode representar um avanço importante para a evolução das tecnologias de comunicação.
- O problema de perda de pacotes é crucial em comunicações em tempo real, e a tecnologia do Opus 1.5 oferece um método eficaz para lidar com isso. Em especial, recursos como o DRED podem ser úteis em ambientes com alta instabilidade de rede.
- Tecnologias como o vocoder neural desempenham um papel importante na melhoria da qualidade de voz, mas, considerando a complexidade e os requisitos de desempenho dessas técnicas, ainda é necessário discutir se todos os usuários poderão se beneficiar delas.
- As tecnologias do Opus 1.5 podem mostrar todo o seu valor quando integradas a plataformas de comunicação em tempo real como o WebRTC, o que pode melhorar bastante a qualidade do trabalho remoto e da comunicação online.
- O processo de padronização tem papel importante para a adoção ampla dessas tecnologias e para manter a compatibilidade, e o esforço da IETF ajudará a permitir que essa tecnologia seja usada em uma gama mais ampla de aplicações e serviços.
Ainda não há comentários.