6 pontos por GN⁺ 2025-10-13 | 3 comentários | Compartilhar no WhatsApp
  • AV2 é o próximo codec de vídeo aberto em desenvolvimento pela Alliance for Open Media e, após 5 anos de trabalho, se prepara para divulgar a especificação final no fim de 2025
  • Nos testes, o AV2 alcançou bitrate cerca de 30% menor que o AV1 com a mesma qualidade de imagem, registrando melhoria de 32,59% segundo o VMAF
  • O diferencial está em aumentar a eficiência com otimização matemática e melhorias de algoritmo, em vez de inovações baseadas em IA
  • Superblocos de 256×256, particionamento totalmente recursivo, modos de predição baseados em dados e TIP (Temporal Interpolation) melhoram o desempenho no processamento de alta resolução e movimentos rápidos
  • A eficiência em hardware já foi validada, e o foco de desenvolvimento deve migrar para otimização do encoder e expansão de perfis com suporte a IA

Status do desenvolvimento do AV2

  • O AV2 mantém a estrutura híbrida baseada em blocos do AV1, ao mesmo tempo em que adota superblocos maiores de 256×256 e particionamento totalmente recursivo
    • A separação entre o particionamento de luma e chroma permite uma predição mais refinada
    • O sistema de predição inclui modos intra baseados em dados, modelagem chroma-from-luma aprimorada e um sistema de referências ranqueadas que usa até 7 quadros de referência
  • O recurso TIP (Temporal Interpolation Prediction) foi adicionado para melhorar a eficiência da compensação de movimento em cenas com movimento rápido ou alta resolução

Qualidade e eficiência de compressão

  • Andrey Norkin, da Netflix, anunciou que confirmou uma redução de bitrate de 28,63% segundo o PSNR-YUV e de 32,59% segundo o VMAF
    • VMAF (Video Multi-Method Assessment Fusion) é uma métrica de qualidade de vídeo desenvolvida pela Netflix que reflete avaliações subjetivas de qualidade de imagem
  • Essas melhorias são resultado de modelagem matemática e inovação em algoritmos, não de IA; embora o grupo AOM tenha mencionado a possibilidade de extensões com IA, o codec em si se baseia em métodos tradicionais

Sistema de transformação e quantização

  • Foi introduzido um quantizador exponencial unificado (exponential quantizer), com suporte mais amplo e preciso para vídeos em 8, 10 e 12 bits
  • Quantização baseada em Trellis e matrizes personalizadas permitem controle detalhado mesmo em bitrates baixos
  • Transformações (transform) baseadas em aprendizado e transformações entre componentes reduzem artefatos de compressão preservando as texturas
  • A codificação de coeficientes (coefficient coding) foi aprimorada para conteúdos de tela e conteúdos mistos

Filtragem e pós-processamento

  • Um deblocker genérico unificado preserva melhor as texturas finas,
    enquanto novos filtros, como Guided Detail Filter e Cross-Component Sample Offset, melhoram a remoção de ruído
  • A síntese de grão de filme (film grain synthesis) pode ser aplicada com mais flexibilidade
  • Há suporte a vídeo em múltiplas camadas (multi-layer) e vídeo estereoscópico (stereo video), atendendo aos formatos multimídia de próxima geração

Próximos passos

  • Todas as ferramentas do AV2 já passaram pela validação de eficiência em hardware
  • A próxima etapa será focada em otimização do encoder e no desenvolvimento de perfis para maior profundidade de bits e extensões com IA
  • A especificação final (specification) está prevista para ser anunciada no fim de 2025, e a adoção comercial deve acontecer depois de forma gradual nas principais plataformas e serviços de streaming

3 comentários

 
kippler 2025-10-13

Eu achava que o nome AV1 era peculiar, mas pelo visto já fazia parte do plano...

 
carnoxen 2025-10-13

Achei que acabaria no AV1, mas existe possibilidade de evoluir ainda mais?!
Tecnologia realmente é algo impossível de prever...

 
GN⁺ 2025-10-13
Opiniões do Hacker News
  • Fico me perguntando quando os serviços de streaming vão parar com essa compressão excessiva. Mesmo usando uma TV 4K de ponta e internet gigabit, a imagem parece massa corrida por causa dos artefatos de compressão. Na prática, a melhor qualidade de imagem que já vi foi há 20 anos, assistindo com uma simples antena digital. Isso fica especialmente gritante em gradientes ou em cenas escuras de filmes. Minha TV, aliás, está totalmente calibrada e eu assino o plano de streaming com a maior largura de banda. Um exemplo visual semelhante pode ser visto aqui

    • Do ponto de vista dos serviços de streaming, o custo de entrega do conteúdo é enorme, e é a maior despesa remanescente depois da produção do conteúdo. Por isso eles recorrem a medidas extremas para reduzir o bitrate. É por isso que a Netflix adotou algoritmos para remover grão de câmera (ruído) e adicionar ruído gerado artificialmente no cliente, e também há o caso recente de o YouTube Shorts usar técnicas extremas de denoise. Ruído é dado aleatório e, portanto, muito difícil de comprimir, então eles querem eliminar o máximo possível. Mas, ao remover o ruído de vídeo capturado por câmera ao vivo, há o efeito colateral de apagar também detalhes extremamente finos. Veja a discussão relacionada aqui

    • O fato de você ver artefatos de compressão em gradientes ou cenas escuras é algo que aparece quando a calibração da TV não está correta. Muitas vezes o contraste está alto demais. As pessoas tendem a ajustar a imagem para tentar ver todos os detalhes das cenas escuras, mas na verdade há partes que não deveriam ser visíveis assim. Em um display corretamente ajustado, áreas escuras deveriam ser quase invisíveis. A maioria dos codecs também é projetada para eliminar detalhes em cenas escuras. Claro, os serviços de streaming também exageram demais nesse critério, mas esse conflito acontece muito porque muita gente ajusta o display de forma errada

    • Antes da pandemia, a Netflix usava algo em torno de 8 Mbps para conteúdo 1080P. Com x264/beamr era bem decente, e com HEVC era ainda melhor. Mas, depois da pandemia, todos os serviços de streaming reduziram a qualidade da imagem por causa do aumento repentino da demanda e das limitações de banda. Desde então, os clientes se acostumaram com a qualidade inferior e não parece que isso vá voltar a subir. Em testes recentes, fica na faixa de 3~5 Mbps. Codecs HEVC/AV1/AV2 podem reduzir o bitrate em mais de 50% em relação ao H.264, mas acima da faixa de 0.5~4 Mbps essa economia cai rapidamente, e o encoder x264 pode até acabar sendo melhor em bitrates mais altos

    • Não é como se todos usassem bitrates médios extremamente baixos como a Netflix; varia de serviço para serviço. Em um conjunto de dados de exemplo, Kate da Netflix fica em 11.15 Mbps, Andor da Disney em 15.03 Mbps, Jack Ryan da Amazon em 15.02 Mbps, The Last of Us da Max em 19.96 Mbps e For All Mankind da Apple em 25.12 Mbps. Mais números e comparações podem ser vistos neste link

    • Talvez conteúdo pirata combine mais com você

  • É bem surpreendente que as pessoas ainda consigam encontrar ideias para reduzir ainda mais o tamanho dos vídeos. Fico curioso se isso é simplesmente fruto de ideias de gente muito inteligente ou se é graças ao poder de processamento maior nos processos de codificação/decodificação

    • Os dois. À medida que os formatos evoluem, passa a ser possível aplicar métodos mais criativos ou investir mais recursos computacionais. Por exemplo, mudanças entre frames são codificadas por unidades chamadas "superblocos" (semelhantes a <a href="https://en.wikipedia.org/wiki/Macroblock">macroblocos</a>). Esses blocos estimam as mudanças referenciando outras partes do frame ou frames anteriores. Quanto mais precisamente for possível contornar e definir a região alterada do bloco, maior a eficiência. Mas também é preciso gastar dados para descrever a posição dos blocos, então existem regras de restrição para minimizar essa descrição. No AV2, a forma de definir os blocos mudou, facilitando o ajuste às áreas alteradas, e o maior tamanho de bloco também dobrou, o que permite comprimir movimentos grandes com mais eficiência usando menos blocos. Além disso, houve várias outras mudanças, e a criatividade algorítmica dos encoders continua evoluindo. Para aplicar de fato esses avanços, é necessário consenso no padrão sobre transformações permitidas, técnicas de predição etc. Um vídeo de referência pode ser visto aqui

    • Patentes ainda têm um papel importante. Técnicas novas precisam tomar muito cuidado para não infringir patentes existentes. Por isso pode haver truques ou métodos que não podem ser usados em AV1/AV2

    • É preciso os dois. Os codecs mais recentes têm trade-offs diferentes em termos de qualidade de imagem (PSNR, SSIM), complexidade computacional (CPU vs DSP vs memória), armazenamento e bitrate, então não existe um único codec otimizado para todas as situações

    • Fico curioso para saber quando codecs com IA generativa vão começar a ser usados em produção real. O conceito é relativamente simples: o encoder sabe exatamente qual modelo o decoder vai usar, envia só os pixels principais e o decoder preenche o resto com IA. Por exemplo, poderia gerar rostos aleatórios de pessoas em uma multidão ou, se necessário, enviar mais dados para conduzir aquela área ao rosto de um mascote específico de um time. Se a compressão for levada ao extremo, no fim sobrará algo mais parecido com um roteiro em texto descrevendo as cenas do que propriamente um vídeo

    • Não conheço os detalhes do AV2, mas na transição de H.265 para H.266 o número de ângulos de predição angular dobrou, foram adicionadas ferramentas para prever croma a partir de luma, cópia de blocos de pixels e várias outras técnicas só em intra prediction. Inter prediction também recebeu melhorias enormes. Tudo isso consome bastante lógica/circuito e área de silício nos decodificadores de hardware, mas traz grande economia de bitrate. No caso de decodificadores por CPU, a carga extra de processamento não é tão pesada. O custo real está do lado da codificação. Para maximizar a eficiência da compressão, aumenta o número de ferramentas de predição entre as quais escolher, e isso faz o tempo de codificação crescer. É por isso que o Google aplica codificação AV1 apenas a vídeos com número muito alto de visualizações

  • Como esta é a segunda largada, espero que desta vez saia algo mais bem feito. A AOM tem uma sessão ao vivo marcada para 20 de outubro, e estou ansioso. Devem abordar mais dados e métricas, complexidade de codificação/decodificação, roadmap de decodificadores de hardware, conformidade com a especificação e kits de teste, perfis futuros, melhorias no AVIF e no AV2, e comparação com JPEG-XL. Fico curioso se os 30% de BDRATE são em relação ao encoder mais recente de AV1 ou à referência 1.0. Também parece que vão falar sobre melhorias em live encoding

  • 30% de redução em relação ao AV1 é insano. Parece que ele foi lançado outro dia, mas saiu em 2019

    • Eu também só usei no ano passado meu primeiro dispositivo com suporte a hardware para AV1. Sempre há um lado ruim nesse ritmo acelerado de evolução dos codecs: ou o conteúdo precisa ser mantido continuamente em vários formatos, ou o cliente acaba tendo que fazer decodificação por software e gastar mais bateria. O YouTube claramente prefere a segunda opção

    • É tão impressionante que chega a parecer suspeito. Se for verdade, é realmente incrível

  • Trabalhar em implementação e otimização de codecs foi provavelmente uma das coisas mais divertidas que já fiz na vida. Queria muito mergulhar fundo no AV2, mas no momento não tenho tempo

  • Finalmente saiu um codec com nome que não parece AVI

    • AVI não é um formato de contêiner, e não um codec?
  • Essa internet de fibra óptica de alta velocidade está ficando meio sem propósito...

    • A maior parte do mundo ainda consome dados e vídeo por redes móveis

    • Exato. Ainda bem que o prazo para devolver meu cartão microSD de 1 TB ainda não acabou

    • Talvez isso seja útil quando começarem a fazer streaming de conteúdo em 8K, ou então para vídeo VR em 16K

    • O ideal é buscar eficiência máxima + disponibilidade máxima ao mesmo tempo. É um princípio que também deveria valer para poder computacional e para o mercado de energia

    • É um loop infinito: quanto mais mídia existe, maior a demanda por velocidade; e quanto maior a velocidade, mais mídia passa a existir

  • Eu achava que o nome AV1 era uma homenagem ou uma brincadeira com AVI (audio video interlace), mas com AV2 essa sensação desaparece. AV1 também tem extensão de arquivo .av1 e MIME type video/AV1; então agora, com AV2, vai ser tudo duplicado em .av2 e video/AV2? E o que acontece com o formato AVIF?

    • A extensão .av1 é para arquivos de dados brutos de AV1. O AV2 deve usar .av2, e eles não são compatíveis entre si. Na prática, o fluxo de vídeo vai dentro de um contêiner como Matroska (.mkv), WebM ou MP4, e o código do tipo de codec é especificado (av01, av02). O AVIF também é um contêiner; o nome significa AV1 image format, mas, se quiser, também poderia ser estendido ao AV2. Para ficar mais claro, bastaria mudar o nome para AOMedia Video Image Format

    • Então a ideia é que a extensão do arquivo reflita apenas o formato do arquivo, e não o codec interno? No passado, isso já causou problemas. É conveniente poder olhar só para a extensão e saber se será possível abrir o arquivo

  • Mais alguém recebe uma mensagem de bloqueio do Cloudflare em formatos AV1 ou AV2?

  • Fico curioso para saber quando vai surgir um codec de vídeo baseado em gaussian splatting