FÓRUM DO SISTEMA BRASILEIRO DE TV DIGITAL TERRESTRE

FÓRUM SBTVD
FÓRUM DO SISTEMA BRASILEIRO DE TV DIGITAL TERRESTRE
CODIFICAÇÃO DE ÁUDIO E VÍDEO PARA A TV DIGITAL BRASILEIRA
 Revista da SET – Edição 102
Autores: Engs. Charles Prado, Daniel Monteiro e Eduardo Costa – TV Globo
Revisão: Ana Eliza Faria e Silva – Coordenadora do Módulo Técnico do Fórum Brasileiro de TV Digital

1-Introdução
Com o advento da tecnologia digital, surgiu a necessidade de se desenvolver técnicas que permitissem armazenar o conteúdo digital (representado por bits) em unidades de espaços físicos limitados, tais como: Hard Disk, DVD, CD, e outros. A transmissão digital também se viu frente a um desafio parecido, uma vez que a representação de um sinal analógico de forma digital poderia vir a representar um uso de banda de transmissão muito elevado. Assim, técnicas de compressão do sinal digital começaram a ser estudadas tanto para permitir o seu armazenamento quanto a sua transmissão de forma eficiente. No caso específico da televisão, os estudos de compressão se concentraram essencialmente nas representações digitais do vídeo e do áudio para armazenamento e transmissão. Os estudos de compressão de vídeo e áudio remontam ao início de 1988 quando dois grupos de pesquisa o VCEG (Video Coding Experts Group – ITU-T SG16 Q.6) e o MPEG (Moving Picture Experts Group – ISO/IEC) iniciaram projetos distintos.
O grupo MPEG foi fundado em maio de 1988 como um grupo de trabalho para o desenvolvimento de padrões de codificação para áudio e vídeo. O grupo publicou, desde então, diversos padrões: o MPEG-1, padrão no qual se baseiam os Video CDs e o MP3; o MPEG-2, em que os “set-top boxes” e os DVD são baseados; e outros padrões como o MPEG-4, MPEG-7 e o MPEG-21. Na área de televisão digital, o padrão MPEG-2, em específico, tem uma larga abrangência no mundo inteiro, alcançando países da Europa, Estados Unidos e Japão.
O grupo VCEG foi, inicialmente, responsável pela pesquisa e desenvolvimento do conhecido H.264 para compressão de vídeo. Esse padrão foi projetado para ser capaz de fornecer uma boa qualidade de vídeo utilizando uma taxa substancialmente baixa de bits, sem aumentar a complexidade de implementação de modo que o tornasse impraticável e de alto custo. Estima-se que, com essa tecnologia, se possa obter entre 40 e 70% mais compressão que a tecnologia anteriormente utilizada (MPEG-2). Em uma mesma banda de transmissão de vídeo será possível transmitir ou mais canais ou mais qualidade, bene- ficiando segmentos como os de televisão e telefonia celular que poderão utilizar de forma mais eficiente os canais de transmissão e também o segmento de empresas que atuam no armazenamento de filmes em DVDs ou Blu-Rays. O nome H.264 segue o padrão H.26x do VCEG, mas é comum ter outras referências a esse padrão como H.264/AVC, AVC/H.264 ou MPEG-4/H.264 AVC para realçar o trabalho conjunto dos grupos VCEG e MPEG. Desde a primeira versão, em maio de 2003, outras oito versões foram lançadas. A oitava versão foi aprovada em novembro de 2007, o que mostra que esse padrão se mantém em constantes atualizações.
Embora seja um padrão bem melhor que o MPEG-2, sua penetração na Televisão Digital ainda é pequena, e isso em virtude de ser um padrão muito recente. O Brasil é um dos pioneiros na adoção desse padrão para transmissão terrestre, o que vai garantir ao telespectador brasileiro uma qualidade de sinal superior aos que hoje são utilizados por outros países. O Japão utiliza o H.264 como padrão, mas somente para transmissão de conteúdos em baixa resolução, o chamado “one-seg”.
A história dos padrões de compressão de áudio segue a linha de desenvolvimento do grupo MPEG. Em 1991, surgiu o padrão de áudio MP3 (MPEG-1, Layer-3 ISO/IEC 11172-3) que se tornou um formato muito popular e ainda muito usado nos dias de hoje. Em 1997, surgiu o padrão MPEG-2 AAC (ISO/IEC 13818-7), também conhecido como MPEG-2 NBC (“Non-Backward Compatible”) por não ser compatível com o padrão anterior, o MP3. O padrão MPEG2- AAC apresentou diversas melhorias quando comparado ao padrão MP3, como o aumento do número de canais que passou de cinco do MP3 para 48 canais e uma qualidade superior em taxas menores: por exemplo, a qualidade de áudio em 96 Kb/s no MPEG2- AAC é superior ao MP3 na taxa de 128Kb/s. Em 2005 o grupo MPEG definiu o padrão MPEG-4 AAC (ISO/IEC 14496-3) que adicionou novas ferramentas ao padrão MPEG-2 AAC para melhorar a qualidade de codificação em taxas menores e é atualmente o padrão de áudio mais avançado.
O padrão MPEG2-AAC é o adotado em diversos países que já iniciaram suas transmissões digitais, como Japão e os países da Europa. O Brasil, à similaridade do que fez relativamente ao padrão de vídeo, adotou o padrão mais recente, o MPEG-4 AAC, em parte por iniciar suas transmissões digitais posteriormente aos demais países, mas principalmente pelo posicionamento pioneiro de adotar padrões ainda não consolidados no mercado mundial, apostando no diferencial de sua qualidade frente aos padrões anteriores.
Adiante, teremos uma explicação mais detalhada dos padrões H.264 e o MPEG-4 AAC, adotados pelo Sistema Brasileiro de Televisão Digital, detalhando as descrições técnicas de cada um.

2- Codificação de Vídeo
Em sua essência, o padrão H.264 segue os mesmos princípios de codificação comuns aos outros formatos desde o antigo MPEG1: divisão de imagem em macroblocos, estimação de movimento usando quadros anteriores e posteriores transformada e baseada em DCT e codificação das informações por entropia através de códigos de comprimento variável. Na realidade, esses fundamentos básicos de codificação de vídeo são explorados pelo H.264 com uma sofisticação que o torna capaz de extrair uma eficiência de codificação até então não atingida por outros codificadores. Por outro lado, essa sofisticação acarretou em um aumento de complexidade que vem desafiando os engenheiros e projetistas de encoders e decoders.
Alguns dos aprimoramentos do H.264 em relação a métodos anteriores são:

2.1 Compensação de movimento com blocos de tamanho variável
Em padrões anteriores, temos a divisão dos quadros em macroblocos de tamanho 16×16 e a posterior estimação de movimento para cada um desses macroblocos resultando em vetores de movimento.
No MPEG2 cada macrobloco se divide em quatro blocos 8×8 e a estimação de movimento é feita sobre cada um desses blocos.
No H.264, além da tradicional 8×8, temos definidos diferentes formatos de partição para os macroblocos. Cada macrobloco 16×16 pode ser tratado como um macrobloco inteiro 16×16, ou ser particionado em dois blocos de tamanho 16×8 ou 8×16, ou ainda em quatro blocos 8×8. Caso o modo 8×8 seja escolhido, cada um desses blocos pode ser utilizado na sua forma completa 8×8, ou ser particionado em dois blocos 8×4 ou 4×8, ou ainda em quatro blocos 4×4. A figura 1 ilustra as partições.
O objetivo dessas partições é dar uma melhor adaptação às movimentações das diferentes texturas que compõem a imagem (Figura 2). Para cada um dos blocos criados será atribuído um vetor de movimento e a escolha do formato de partição mais eficiente para cada macrobloco da imagem fica a cargo do encoder. Esse é um dos principais fatores que implicam em diferença de qualidade entre os equipamentos.

Figura 1 – Formatos de partição de macroblocos. Fonte: IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS
FOR VIDEO TECHNOLOGY, VOL. 13, NO. 7, JULY 2003 – pag 604

2.2 Predição espacial para codificação Intra
A codificação intra, em nível de quadro ou de macrobloco, é utilizada quando a similaridade do conteú do do bloco é mais presente dentro da própria imagem do que entre vários quadros. Ao codificar um quadro Intra, primeiro o encoder gera uma estimativa dos pixels (predição) para que posteriormente o resíduo dessa predição seja codificado. É uma técnica também já presente em outros codificadores, mas no H.264, para cada bloco 4×4 de um macrobloco Intra, é possível escolher entre nove tipos de predição (vertical, horizontal, DC e mais seis diagonais). Mais uma vez, uma melhor escolha para cada bloco acarreta em maior eficiência e maior qualidade de imagem, e também caracteriza fator importante na avaliação dos equipamentos de codificação.

2.3 Múltiplos quadros de referência
A estimação de movimento utilizando o quadro imediatamente anterior ou posterior é o recurso utilizado pelo MPEG-2. No H.264 a escolha do quadro que será base para a estimação de movimento de um macrobloco é muito mais flexível, já que o codificador pode escolher entre múltiplos quadros de referência. Esse recurso torna muito mais eficiente a estimação de movimento como, por exemplo, em situações em que, ao longo dos quadros, objetos passam uns por detrás de outros.

2.4 Transformada DCT inteira e reversível
Em métodos anteriores, a transformada utilizada era a DCT de ponto flutuante, que era especificada com uma tolerância numérica inerente às operações, devido à impossibilidade de se obter uma transformada inversa com resultado perfeito. Como resultado, cada projeto de decodificador produziria quadros decodifi- cados com ligeira diferença, devido a erros de precisão numérica que varia entre os hardwares utilizados. Esses erros causam um ligeiro e progressivo descasamento entre o estado do codificador e do decodificador, resultando em perda de eficiência.
No H.264 foi introduzida uma transformada 4×4 inteira e totalmente reversível. Dessa forma, todas as operações podem ser executadas por aritmética inteira, sem perda de precisão. Por ser reversível, permite que todos os decodificadores obtenham os mesmos resultados, sem gerar descasamento entre codificador e decodificador.

Figura 2 – Exemplo de escolha otimizada de particionamento de macroblocos.
Fonte: H.264 / MPEG-4 Part 10 White Paper – Inter Prediction – www.vcodex.com

2.5 Codificador aritmético adaptativo (CABAC)
Enquanto tabelas de código de comprimento variável são geradas por amostragem estatística e experimentação, o codificador aritmético é capaz de se adaptar automaticamente à estatística inerente ao próprio conteúdo que está sendo codificado, promovendo ganhos de eficiência.

2.6 Padrão brasileiro
A norma de codificação de áudio e vídeo do Sistema Brasileiro de TV Digital (ABNT NBR 15602 – www.abnt.obr.br/tvdigital) especifica os perfis e níveis que são permitidos para cada serviço oferecido. Essa definição implica diretamente na restrição ao uso de certas ferramentas do codificador. A Figura 3 ilustra graficamente os perfis do H.264 e as ferramentas permitidas para os mesmos.
Para a transmissão do serviço em HD (alta definição) e SD (resolução padrão), foi adotado o perfil High, que nos permite contar com todo o poder de codificação do H.264 aplicado a esse tipo de serviço. Como nível máximo foi selecionado o nível 4, escolha imposta pelos compromissos com o cronograma de implantação do sistema e pelos custos dos receptores.
Para serviços one-seg, destinados aos celulares e sinais portáteis, foi especificado o perfil Baseline, que não possui todas as ferramentas do perfil High, mas é adequado para esse tipo de serviço. Como nível foi especificado o 1.3, que possibilita reprodução de imagens a uma taxa de até 30 quadros por segundo. Esse é um ponto diferencial em relação à norma japonesa, que adotou o nível 1.2 na fase de lançamento do padrão H.264, mas o mercado de semicondutores carecia de implementações práticas de decodificadores. Esse nível limita o padrão japonês a utilizar no máximo uma taxa de 15 quadros por segundo nas transmissões one-seg.


Figura 3- Distribuição das ferramentas pelos Perfis H.264

3- Codificação de áudio
O padrão de codificação de áudio em uso no Sistema Brasileiro de TV Digital é um subconjunto do MPEG-4 AAC (Advanced Audio Coding), homologado pela norma ISO 14496-3. O MPEG-4 AAC é resultado de intensa pesquisa feita nos campos de compressão de áudio e psicoacústica, utilizan- do mecanismos já presentes em padrões anteriores (MPEG-1 Audio, MPEG-2 AAC) e adicionando novas ferramentas para obter melhor qualidade e maior eficiência de compressão.
Em 1992, o conjunto de normas MPEG-1 definiu três camadas (layers) para compressão de áudio, com crescente complexidade e eficiência de codificação. A terceira camada, MPEG-1 Audio – Layer 3, mais conhecida como MP3, teve disseminação espantosa e até hoje é um dos formatos de compressão de áudio mais populares do mundo, apesar de seu padrão já possuir mais de 15 anos de idade.
Alguns anos mais tarde, em 1997, pesquisas demonstraram que seria possível atingir níveis ainda mais altos de compressão. Porém, para atingir melhores taxas de compressão, seria necessário abandonar a compatibilidade com o padrão anterior. Assim sendo, o conjunto de normas MPEG-2 se dividiu em duas atividades: melhorar o padrão já existente, permitindo um número maior de taxas de amostragem e codificação multicanal, e criar um novo método de compressão mais eficiente o MPEG-2 AAC.
O processo de padronização do MPEG-4 AAC se iniciou em 1999 e, desde então, vem sofrendo atualizações, como a adição dos novos perfis HE-AAC e HEAACv2, que melhoram consideravelmente a qualidade do áudio quando comprimido em taxas inferiores a 64 kbps. A versão revisada da norma ISO 14496-3, na qual o Sistema Brasileiro de Televisão Digital se baseia, possui os perfis HE-AAC e HE-AACv2, utilizados em dispositivos portáteis.

3.1- Descrição Técnica
A largura de banda disponível para a transmissão de áudio e vídeo na faixa de freqüências pelo setor de radiodifusão é restrita, o que reforça a necessidade do processo de compressão de dados. Nesse sentido, o procedimento de codificação de áudio utiliza um algoritmo com perdas, o que significa que o sinal decodifi- cado será uma versão degradada do original. Um bom codificador deve ser capaz de levar em consideração as características do aparelho auditivo humano para tornar a degradação o menos perceptível possível.


Figura 4 – Estrutura simplificada do codificador AAC

A compressão é resultado da eliminação de propriedades consideradas irrelevantes (inaudíveis) do sinal de áudio, do truncamento de dados ocorrido durante o processo (coeficientes de transformadas, por exemplo) e de métodos de compressão sem perdas no fluxo resultante de bits.
A estrutura de um codificador de áudio com perdas (Figura 4) pode ser resumida nos seguintes blocos principais:
1 – Modelo psicoacústico
2 – Banco de filtros
3 – Processamento espectral
4 – Codificação e quantização
5 – Formatação do fluxo de bits
A responsabilidade do modelo psicoacústico é modelar o sistema auditivo humano, de forma que as características audíveis do sinal processado sofram o mínimo possível de degradação. A saída deste bloco serve como parâmetro para a etapa de processamento espectral.
O banco de filtros separa o sinal processado em diferentes faixas de freqüência, que serão utilizadas pelo bloco de processamento espectral. A estrutura do banco de filtros utilizada depende do perfil AAC em operação. No perfil AAC-LC (Low Complexity), o banco de filtros utiliza a MDCT (Modified Discrete Cosine Transform) com comprimento de janela variável. O fato do tamanho da janela ser variável permite melhor resolução em freqüência para sinais estacionários (janela grande) e supressão de artefatos de pré-eco em sinais transitórios (janela pequena).
O bloco de processamento espectral contém a maioria das ferramentas de compressão permitidas para cada perfil AAC (algumas ferramentas são externas ao bloco de processamento espectral). No SBTVD, os perfis utilizados são: AAC-LC, HE-AAC e HE-AACv2. No perfil AAC-LC, cita-se como exemplo as ferramentas TNS (Temporal Noise Shaping) e PNS (Perceptual Noise Substitution).
Após passar pelo banco de filtros, o sinal processado contém ruído de quantização resultante da MDCT. A ferramenta TNS filtra este sinal de modo a amenizar o efeito do ruído.
O princípio de funcionamento da ferramenta PNS está baseado no fato de que o ruído tem características próprias. Ao invés de codificar o sinal e transmitilo, o sistema reproduz um sinal aleatório na saída que imita o ruído da entrada buscando reproduzir a mesma energia e faixa de freqüência original.
O perfil HE-AAC é igual ao perfil AAC-LC mais a ferramenta SBR (Spectral Band Replication). Essa ferramenta possui a capacidade de gerar uma pequena quantidade de dados capaz de representar as faixas de freqüência mais altas do sinal. Com isto, taxas de bits por segundo ainda menores podem ser usadas na transmissão, com menor degradação.
Finalmente, o perfil HE-AACv2 consiste no perfil HE-AAC mais a ferramenta PS (Parametric Stereo). Essa ferramenta atua em sinais estéreo, gerando um sinal contendo apenas um canal, e também parâmetros da distribuição dos canais esquerdo e direito. Esses dados, processados pelo decodificador PS, produzem um resultado próximo do sinal estéreo original. A etapa de quantização utiliza noise shaping e dithering de modo a reposicionar o ruído de quantização nas faixas de freqüência menos críticas ao modelo psicoacústico. Os dados quantizados são, então, codificados pelo método de Huffman e repassados ao bloco de formatação.
Com todos os dados já processados, o codificador gera o fluxo de bits final de acordo com a sintaxe definida na norma, sinalizando todas as informações necessárias ao trabalho de decodificação. O decodificador realiza o processo inverso do codificador, recuperando um sinal de áudio similar ao original.

3.2- Perfis e níveis

A lista de perfis e níveis permitida para cada tipo de serviço oferecido pelo SBTVD (full-seg e one-seg) acompanha as características de consumo de energia, de processamento e de memória viáveis para cada tipo de dispositivo. No que diz respeito à codificação de áudio, o serviço full-seg permite os seguintes perfis e níveis de codificação de áudio:
– AAC-LC nível 2 (dois canais)
– AAC-LC nível 4 (multicanal)
– HE-AAC nível 2 (dois canais)
– HE-AAC nível 4 (multicanal)
O serviço one-seg, por outro lado, permite apenas o perfil HE-AACv2 nível 2, com até 2 canais por fluxo de bits.
O perfil AAC-LC destina-se à transmissão de áudio de alta-fidelidade, enquanto que o perfil HE-AAC é mais adequado a situações onde é necessário reduzir mais fortemente a taxa de bits.

4-Conclusões
Desde o início dos estudos dos padrões de áudio e vídeo até sua definição, os esforços despendi dos pelos diversos segmentos da indústria, pelos radiodifusores, pelas universidades e pelos órgãos do governo brasileiro foram fundamentais e decisivos para viabilizar o início das transmissões digitais no dia 2 de dezembro de 2007, na região metropolitana de São Paulo, e, recentemente, também nas cidades do Rio de Janeiro, de Belo Horizonte e de Goiânia.
Os padrões de compressão de áudio e vídeo do Sistema Brasileiro de TV digital garantem a implantação de um sistema o mais “à prova de futuro” possível, sem legados e com flexibilidade na seleção do subconjunto de parâmetros adequados à prestação de cada tipo de serviço. A correta seleção dos parâmetros garantirá a longevidade dos receptores, o que vem ao encontro do perfil sócio-econômico brasileiro, ao alto nível de exigência de qualidade dos telespectadores e dos preceitos da escolha do padrão de televisão digital.

O receptor brasileiro para one-seg é igual ao Japonês?
O sintonizador e o demodulador são idênticos, mas o decodificador não é. A especificação do decodificador de vídeo brasileiro determina a compatibilidade com fluxos de transporte de até 30 quadros por segundo, enquanto no Japão são, obrigatoriamente, suportados fluxos com até 15 quadros por segundo. Além disso, a codificação de áudio no Japão emprega uma camada de multiplexação diferente do Brasil.
A transmissão de alta de- finição é obrigatória?
Não. A escolha da resolução do sinal de vídeo fica a cargo dos radiodifusores. Contudo, a especificação determina que todos os receptores de TV Digital sejam capazes de decodificar sinais com resolução convencional (atual), com alta definição e resoluções intermediárias. A resolução na casa do telespectador depende da combinação entre a resolução do sinal transmitido e a resolução do televisor.
Como conectar um home-theater sem decodificador para o áudio AAC?
Nos casos em que o seu decodificador de áudio não suporta AAC, mas tem um de codificador DTS, você deve procurar por receptores de TV Digital com a opção de transcodificação para DTS. Com esse opcional será possível desfrutar da ambiência do áudio multicanal com a mesma qualidade da trilha original do programa.

Saiba Mais
As normas de TV digital estão acessíveis gratuitamente por meio do site www.abnt.org.br/tvdigital
Para saber mais sobre codificação de áudio e vídeo, procure pelas normas :
— ABNT NBR 15602-1: Televisão digital terrestre – Codificação de vídeo, áudio e multiplexação – Parte 1: Codificação de vídeo
— ABNT NBR 15602-2: Televisão digital terrestre – Codificação de vídeo, áudio e multiplexação – Parte 2: Codificação de áudio
— ABNT NBR 15602-3: Televisão digital terrestre – Codificação de vídeo, áudio e multiplexação – Parte 3: Sistemas de multiplexação de sinais
— ABNT NBR 15608-2: Televisão digital terrestre – Guia de Operação – Parte 2: Codificação de vídeo, áudio e multiplexação – Guia para a implementação da ABNT NBR 15602