Áudio imersivo: Evolução da experiência sonora, viável e para todos

Os autores sustentam neste artigo que a evolução da experiência sonora pode ser levada a todas as plataformas e com isto a um número maior de espectadores

por Rodrigo Meirelles

“Evolução” dos aparelhos de TV Foto: Electronic World

Falar em evolução sonora na perspectiva do espectador é no mínimo controverso em televisão. Ao observamos os aparelhos de TV, percebemos na verdade uma involução no que diz respeito ao áudio. Os alto-falantes, que no passado ocupavam uma área significativa à frente dos aparelhos, foram perdendo espaço e atualmente, nas TVs HD e 4K, são localizados muitas das vezes embaixo ou até mesmo atrás dos televisores. Sendo assim, no cenário atual, podemos afirmar que para termos um áudio com mínima qualidade, precisamos assumir que o televisor não resolverá esse problema e apelar a dispositivos externos como home-theatres. Isso sem levar em conta as não raras reclamações de usuários no mundo inteiro relacionadas à inteligibilidade do que é falado, fato discutido com frequência nos fóruns internacionais de engenharia de áudio como a AES (Audio Engineering Society).
Junto a essa questão dos aparelhos, a digitalização da TV no Brasil deu a possibilidade de produzir e transmitir áudio no formato 5.1. Na época, uma iminente evolução estava ao alcance dos produtores de conteúdo. Entretanto, no próximo dia 2 de dezembro, completaremos 10 anos da primeira transmissão comercial do Sistema Brasileiro de TV Digital (SBTVD) e já podemos concluir que o áudio 5.1, ao contrário da imagem em alta-definição, ainda é assistido por um número muito reduzido de espectadores e que, infelizmente, não há expectativas de mudanças nesse cenário.
O áudio Surround 5.1 na TV Digital como é conhecido hoje, no papel de caminho para levar uma evolução da experiência sonora a uma massa de espectadores, já pode ser considerado um fracasso. Se lembrarmos, ainda, que a experiência do espectador atual não se limita às salas de TV, acontecendo em qualquer lugar através de smartphones, tablets e dispositivos conectados, com o áudio sendo reproduzido na maioria das vezes em fones de ouvido, deixamos a situação ainda mais crítica.
É justamente nesse contexto nada animador que as tecnologias conhecidas como “áudio imersivo”, “áudio 3D” ou “áudio espacial”, apresentam-se como opção para revolucionar não só as maneiras de se produzir áudio, mas também a experiência do espectador. É interessante refletir que desde o lançamento da TV estéreo, em meados dos anos 1980, não temos uma tecnologia que efetivamente leve a todos os telespectadores uma Artigoexperiência sonora diferente. Isso porque toda e qualquer tecnologia de áudio que se apresenta como alternativa de evolução em broadcasting tem que irremediavelmente atender às quatro premissas abaixo:
1 . Não depender de instalações complexas e equipamentos de alto custo nas casas dos espectadores;
2 . Estar disponível em todas as plataformas consumíveis;
3 . Não implicar em considerável elevação do custo de produção de conteúdo;
4 . Fazer diferença na experiência do espectador quando comparada à tecnologia anterior.
Vamos entender ao decorrer deste artigo que o áudio imersivo atende às três premissas e, embora dê maiores possibilidades criativas e mais dimensões sonoras, é ao mesmo tempo mais simples e viável ao espectador, além de se adequar ao mundo multiplataforma em que vivemos.

O Surround 5.1 e suas limitações
Para entender o valor do áudio imersivo, precisamos expor primeiramente alguns dos pontos do 5.1. No que diz respeito à experiência de quem assiste ao conteúdo audiovisual, o Surround 5.1, como podemos observar na Figura 2, promove um envolvimento sonoro através de 6 canais de reprodução, ou seja, permite-nos ter sons vindos da frente e de trás do ouvinte. Além disso, há por meio de um canal central uma melhor distribuição para sons que estão à frente do espectador, geralmente diálogos, influenciando positivamente na inteligibilidade, e uma melhor percepção dos graves através de um canal dedicado a efeitos de frequências baixas (lfe – low frequency effects), reproduzidos junto a frequências baixas dos demais canais em um subwoofer. Mesmo assim, não podemos classificar o 5.1 como áudio 3D, pois somente há duas dimensões de percepção: a lateralidade e a distância. A terceira dimensão sonora, a elevação, não é contemplada nesse tipo de mixagem. Nesse sentido, o Surround, como a própria tradução literal revela, é apenas mais envolvente.
No entanto, o lado mais crítico disso é que, como já discutido, para levar essa experiência que apenas envolve espectador, necessitamos impreterivelmente de um home-theatre, que carrega em seu “pacote” uma instalação bastante complicada para o usuário, com caixas acústicas dispostas em pontos pré-determinados de uma sala de TV. No SBTVD, temos mais um agravante. É necessário acessar o menu áudio do controle remoto para alternar entre o conteúdo estéreo e o 5.1. Se há troca de canal, ao retornar ao anterior o áudio volta a ser estéreo e precisamos acessar novamente o menu áudio para chavear outra vez para o 5.1. É preciso um esforço muito grande para um benefício questionável para a maioria usuários.

Figura 2. Configuração de canais 5.1

Características do áudio imersivo
A imersão é um conceito subjetivo. Deve-se ressaltar que, na prática, podemos construir uma experiência imersiva até mesmo com áudio mono. A imersão pode estar em diversos aspectos, como um roteiro bem desenvolvido, um evento ao vivo emocionante, uma edição dinâmica ou um desenho de som bem elaborado. Contudo, ao levarmos ao espectador uma experiência sonora como a que descreveremos nos próximos parágrafos, temos maiores chances e ferramentas para atingir o objetivo da imersão. O nome “áudio imersivo” vem, então, desse contexto, apenas sugerindo uma nomenclatura para as inovações tecnológicas e criativas que hoje se apresentam.
Tridimensionalidade e mixagem por objetos. É a partir dessas duas características que o áudio imersivo se diferencia tecnicamente do atual Surrround 5.1. Para broadcasting, as tecnologias proeminentes são o Dolby Atmos Home e o MPEG-H 3D Audio. Trataremos, porém, de alguns conceitos gerais, primeiramente sem apego ao detalhamento técnico de cada uma.

Figura 4. Sistema multicanal 22.2 ( NHK)
Fonte: NHK

A tridimensionalidade se dá porque a perspectiva da altura é contemplada através de canais elevados (height channels). Por isso, as tecnologias de áudio imersivo também são chamadas de áudio 3D. É como se houvesse uma esfera imaginária em torno do ouvinte e não somente sons vindos de frente e de trás.Uma configuração bastante popular é a 22.2, proposta pela emissora pública japonesa NHK como formato de áudio para o Super Hivision, cuja imagem é 8K. Trata-se de 24 canais independentes, organizados em 3 camadas sonoras: superior, intermediária e inferior.
A disposição pode ser observada na Figura 4.
A 22.2 proporciona uma incrível experiência sonora, porém, como já discutimos, trabalhar com 24 caixas acústicas nos remete ao cenário que descrevemos para a 5.1, no qual usamos apenas 6 e já temos diversas limitações para o espectador. Até para ambientes profissionais de mixagem, uma configuração com essa quantidade de caixas acústicas encontra dificuldades na viabilidade. Sendo assim, outras configurações de canais surgiram como opções mais simples, apenas com canais elevados, principalmente para esses ambientes, como, por exemplo, 5.1.2, 5.1.4, 7.1.2, 7.1.4 e 9.1.4.

Figura 5. Configuração de canais 5.1.4
© Foto: Dolby

O terceiro número é referente aos canais de altura. Na imagem abaixo, uma configuração 5.1.4.

Figura 6. Up-fire speaker
© Foto: DolbyEspecial

Mesmo com essas configurações disponíveis, no ambiente doméstico continuamos não podendo esperar que todos tenham algo parecido. Por tal motivo, começaram a surgir nos últimos anos alternativas para a experiência de áudio 3D em casa. A solução se deu com equipamentos que usam alto-falantes apontados para o teto (up-fire speakers) em vez de caixas acústicas penduradas nas salas de TV. O som emitido por esses alto-falantes reflete no teto e chega ao ouvinte como se viesse de cima (veja a Figura 6).

Entre os equipamentos com essa tecnologia, encontramos soundbars 3D, caixas acústicas com falantes posicionados para frente e para cima, além de módulos de alto-falantes “up-fire” para serem posicionados em cima das caixas que o usuário já tem.
É possível, por exemplo, levar uma experiência 5.1.4 ao ouvinte apenas com um soundbar. Isso contando, naturalmente, com as reflexões da sala do espectador, cujas superfícies não podem absorver demasiadamente o som. Veja na imagem abaixo como acontece.

Figura 7. Soundbar 3D (Atmos enabled)
Fonte: Sony

As tecnologias de áudio imersivo também visam leva a tridimensionallidade aos headphones, sem precisar de esforços direcionados a isso. Normalmente, o áudio 3D em fones de ouvido (binaural) é promovido através de uma mixagem dedicada ou até mesmo uma produção e processamento a parte. O que é proposto hoje, todavia, é levar uma experiência binaural baseada na mixagem original, sem um esforço dedicado. É como se pudéssemos optar por ouvir o mesmo conteúdo 3D adaptado para um home-theatre, soundbar ou fones.
Sendo assim, finalmente temos um cenário em que uma evolução da experiência sonora pode ser levada a todas as plataformas e a um número elevado de espectadores.

Os objetos
Além da tridimensionalidade, a mixagem por objetos é conclusiva na construção da experiência imersiva. A ideia é não depender exclusivamente da localização dos alto-falantes do sistema de reprodução, mas sim estabelecer elementos sonoros com respectivas informações de localização no espaço. Tal fonte sonora virtual é renderizada para o sistema de reprodução adotado, de acordo com a posição estabelecida. Na mixagem por canais, o conteúdo, seja em pós-produção ou ao vivo, é entregue de forma que cada sinal de áudio finalizado seja referente a um canal de reprodução. Em estéreo, por exemplo, entregamos dois canais, esquerdo e direito, em 5.1, 6 canais e assim sucessivamente. Na abordagem por objetos, por sua vez, entregamos camas e objetos.
Camas são os canais tradicionais. Conceitualmente, no ponto de vista da narrativa, podemos imaginar que elas são os sons que nos circundam, fixos, sem movimentos muito específicos em torno do ouvinte, compondo uma base sonora. Os objetos, no entanto, são elementos que promovem uma percepção precisa de localização no espaço. As camas dão a sensação de ambiente e nos mantém geograficamente e temporalmente localizados na narrativa. Sabemos se é manhã ou noite, se estamos em um espaço aberto ou fechado, se o local é um parque em cidade grande, pequena, ou uma floresta.
Os objetos, por sua vez, são mais específicos, pois podemos localizá-los precisamente no espaço como, por exemplo, o canto de um determinado pássaro, uma aeronave passando no céu, passos de alguém chegando ou um elemento sonoro cuja localização em algum ponto específico em torno do ouvinte seja importante para contar aquela estória.
Tecnicamente, a entrega das camas se dá da maneira tradicional, em canais, incluindo a elevação. Os objetos são entregues separadamente, em arquivos ou feeds isolados, junto às informações de suas localizações ou trajetórias no espaço através de metadados. Após o processo de codificação, a reprodução é feita de acordo com a o sistema de áudio da plataforma adotada, isto é, as camas são reproduzidas nos seus respectivos canais e os objetos são renderizados de forma que ocupem a localização especificada da melhor forma na configuração do ouvinte. Essa configuração pode ser desde multicanais como 22.2, ou 7.1.4, passando pelo 5.1 e estéreo, até um par de fones de ouvido em uma experiência binaural. Os objetos, por serem entregues separadamente por quem produz o conteúdo, também podem ser utilizados criativamente para a interatividade ou personalização de conteúdo. Tal personalização pode ir desde a escolha, em um musical, por volumes ou posições de instrumentos no espaço de acordo com o gosto do espectador, até escolher em uma partida de futebol entre um comentarista neutro ou que torça para o seu time. Além disso, uma chance poderosa de personalização que aparece é deixar disponível ao espectador algum controle do nível dos diálogos. Isso minimizaria significativamente as recorrentes questões de inteligibilidade.

Figura 8. Camas e objetos na composição do áudio imersivo
© Foto: Dolby

Ambisonics
Ambisonics é um sistema para captura e reprodução de campos sonoros e ambientes, muito eficiente na representação de espaços tridimensionais. Não é uma novidade na área de áudio, mas vem se tornando bastante popular com o avanço das tecnologias de áudio imersivo e áudio 360º para realidade virtual. O motivo do sucesso é que o Ambisonics parte da premissa de que sinais são capturados em um microfone desenvolvido para a técnica e são decodificados, a partir de coeficientes conhecidos da sua construção, compondo o espaço sonoro de acordo com a configuração de canais especificada. Resumidamente, o sinal gravado guarda informações que podem ser “renderizadas” de acordo com o sistema de reprodução adotado, seja estéreo, 5.1 ou multicanal. Total afinidade com a ideia que descrevemos para o áudio imersivo. No entanto, por ser um microfone capturando um campo sonoro, sua utilização nesse contexto faz mais sentido para ambientes e paisagens sonoras. Para o posicionamento específico de determinado elemento no espaço em uma mixagem imersiva, os objetos e suas coordenadas geométricas continuam sendo a técnica mais indicada.

As tecnologias
Como mencionamos anteriormente, as tecnologias que se destacam no cenário atual quando se trata de broadcasting, incluindo codificação e iniciativas de padronização, são Dolby Atmos Home e MPEG-H 3D Audio. O padrão ATSC 3.0, por exemplo, prevê suporte para os formatos de compressão Dolby AC-4, que inclui o Atmos, e o MPEG-H 3D Audio.
Dolby Atmos é uma tecnologia já popular nas salas de cinema, com mais de 2800 pelo mundo, sendo 26 no Brasil, e mais de 700 filmes produzidos. A experiência nas salas de cinema se dá pelo aumento do número de caixas acústicas, em um máximo de 64, incluindo caixas no teto. Além desse espaço tridimensional, os objetos permitem a localização precisa dentro da sala de até 118 objetos caso uma cama de 10 canais seja utilizada (7.1.2). Quanto maior for a quantidade de caixas na sala, melhor será a definição de localização e movimento dos objetos.

Dolby Atmos e MPEG-H 3D Audio, tecnologias com suporte a áudio imersivo para broadcast

Para o ambiente doméstico, em 2014 a Dolby Laboratories anunciou o lançamento da versão Home. Com compatibilidade com os formatos de compressão Dolby Digital Plus (EC-3) e Dolby TrueHD, já presentes em grande parte dos dispositivos atuais, a tecnologia hoje já está disponível em serviços de streaming como Netflix e Vudu, e sendo adotada pelos grandes estúdios de produção de conteúdo norte-americanos e europeus. Do lado dos aparelhos eletrodomésticos, algumas caixas up-fire já são lançadas como “Atmos enabled speakers” e há cerca de 10 modelos de Soundbars “Atmos enabled” com suporte ao formato no mercado. Em relação aos fabricantes de home-theatres, já são 12 fabricantes com equipamentos compatíveis com Dolby Atmos Home. Em termos de ferramentas produção de conteúdo, destaque para o lançamento feito em junho deste ano pela Avid da integração de sua popular estação de trabalho Pro Tools, que em sua versão 12.8 conta com mixagem nativa em Atmos, incluindo suporte à parte de autoração de metadados e interface com a unidade de renderização e masterização no formato.

MPEG-H 3D Audio, parte do padrão MPEG-H, que inclui a parte de vídeo, nasce já voltado para aplicações em broadcast. Desenvolvido pela MPEG-H Audio Alliance (Fraunhofer, Technicolor e Qualcomm), também parte da premissa do uso de objetos e camas no sentido de renderizar uma experiência 3D para home-theatres, soundbars ou binaural. Um ponto significativo é que a tecnologia prima pelo uso de Ambisonics (HOA, hibrgher order ambisonics), usando a nomenclatura “cenas” para tal. Desse modo, a composição do áudio 3D proposto se dá por canais (camas), objetos e cenas. O formato suporta até 64 canais de reprodução e 128 áudios simultâneos, podendo esses serem distribuídos em camas, cenas e objetos.
Embora ainda não haja equipamentos no mercado doméstico com suporte a MPEG-H 3D Audio, na Coréia do Sul a Telecommunications Technology Association (TTA) publicou em 2016 o seu padrão para transmissão e recepção de TV terrestre em UHD, baseado no padrão ATSC 3.0, e conta com o MPEG-H 3D Audio como o seu codec de áudio para TV 4K.

Figura 9. Autoração de objetos na interface do Pro Tools. Mixagem Atmos nativa
Fonte: Avid

Conclusões
Vivemos hoje a possibilidade de um grande salto na experiência sonora levada ao espectador. O áudio, que veio avançando timidamente nas últimas décadas quando comparado ao vídeo, sofrendo até involuções na reprodução final nos lares brasileiros se não levarmos os raros home-theatres em conta, encontra fôlego para uma inovação que não acontece desde o formato estéreo da década de 1980. Poder levar uma experiência sonora tridimensional, independente de configuração de alto-falantes, com elementos posicionados precisamente no espaço e personalizável a todas as plataformas é uma incrível oportunidade para todos os envolvidos no processo criativo, não só os profissionais de áudio. O poder do som no audiovisual é amplamente reconhecido, porém muitas vezes o deixamos de lado ao lembrarmo-nos das precárias condições em que ele é consumido pelo espectador. O áudio imersivo se apresenta também, nesse sentido, como oportunidade de resgate da vocação do som como um dos protagonistas na experiência audiovisual. Que venham os próximos passos!

Rodrigo Meirelles Rodrigo Meirelles
Rodrigo Meirelles é supervisor Executivo de Áudio da Globo. Formado em engenharia eletrônica e de computação, gravação e produção fonográfica tem mestrado em Educação e Mídia. Há 16 anos no mercado de áudio, começou sua carreira como engenheiro em estúdios de produção musical no Rio de Janeiro, foi instrutor e fundador do centro de treinamentos ProClass, pioneiro em certificações oficiais em Pro Tools e Avid no Brasil e, na TV Globo, foi responsável pela área de sonoplastia de pós-produção de 2009 a 2014. Hoje é responsável pela área de Produção de Áudio do Entretenimento (Estúdios Globo). Foi professor universitário por 8 anos ministrando disciplinas nos cursos de Produção Fonográfica, Produção Audiovisual, Rádio e TV e Graduação em Cinema. Contato: [email protected]