Closed Caption na TV Brasileira – Segunda Parte

Nº 144 – Agosto 2014

Por Tiago Ribeiro de Lacerda

ARTIGO

A Revista da SET solicitou a duas empresas brasileiras que trabalham com Closed Caption que expliquem porque é necessária a implantação desta ferramenta nas emissoras brasileiras. Nesta edição publicamos a segunda parte, com a visão da EITV, na anterior foi a vez da ShowcasePRO, ambas parceiras da SET, e comprometidas com o desenvolvimento de tecnologias brasileiras que possam ser utilizadas no padrão ISDB-TB. Para a EITV, o importante é garantir acessibilidade


As últimas décadas, os órgãos legislativos e executivos brasileiros têm atuado na criação de leis, diretrizes e regulamentos que definem como os meios de comunicação devem utilizar ferramentas para tornar a programação acessível aos deficientes auditivos e visuais. Nesse contexto, as emissoras de TV começaram a se preparar para adequação a essas normas, ou contratando empresas especializadas na geração de legendas, ou adquirindo equipamentos para esse propósito.
O principal dispositivo de acessibilidade atual é o closed caption. Ele corresponde à transcrição, em língua portuguesa, dos diálogos, efeitos sonoros, sons do ambiente e demais informações que não poderiam ser percebidos ou compreendidos por pessoas com deficiência auditiva. Dessa forma, o closed caption deve conter mais informações que as legendas que são exibidas em filmes, seriados e outros programas em língua estrangeira, que só exibem os diálogos.
O processo de legendagem possui duas formas principais de geração. Para programas ao vivo, os caracteres são gerados em tempo real e enviados para um equipamento que insere as legendas no vídeo no momento da veiculação. No caso da programação gravada, os caracteres são gerados e o conteúdo pode ser inserido no vídeo por meio de sistemas de edição, durante o processo de pós-produção. Este conteúdo, ao ser exibido, já conterá a transcrição dos diálogos e efeitos sonoros.
Durante a última década, duas normas e uma portaria foram publicadas para regulamentar este tópico: produção de legendas), norma ABNT 15608-3 (determina o modo de transmissão de caption para o sinal digital) e portaria N° 310, de 27 de junho de 2006 do Ministério de Comunicações (determina o número de horas diárias que uma emissora deve disponibilizar legendas na sua programação).
A primeira norma, ABNT 15290, define diversos parâmetros de como deve ser gerado o conteúdo de caption como posicionamento, cor dos caracteres, sugestões de como exibir conteúdos que não são diálogos, como onomatopeias, efeitos sonoros, ruídos.
Os pontos mais importantes dessa norma são os que definem a percentagem de acertos mínima e o atraso máximo das legendas em relação ao áudio. O índice de acerto requerido é de no mínimo 98% de acerto para legendas de programas ao vivo e 100% para programas gravados. A tolerância máxima entre o áudio e a legenda respectiva é de quatro segundos, para programas ao vivo. No caso de programas gravados, a legenda deve acompanhar o tempo exato do frame.
Uma vez que as legendas já estão geradas, existem alguns padrões de closed caption utilizados para distribuição do caption:
– DVB Subtitles
– EIA 608
– EIA 708
– ARIB B-24
– ARIB B-37
Os padrões utilizados nas emissoras brasileiras são: EIA 608, EIA 708 e ARIB B-37 para tráfego entre equipamentos. Já para transmissão ao telespectador, são utilizados os padrões: EIA 608 (transmissão analógica) e ARIB B-24 (transmissão digital).
A norma ABNT 15608-3 apresenta as diretrizes de como as emissoras e retransmissoras devem transmitir o closed caption no sinal digital. O SBTVD (Sistema Brasileiro de TV Digital) foi baseado no sistema japonês e dessa forma o caption segue as especificações existentes na norma japonesa ARIB B24. Diferentemente do caption no sinal analógico, em que as legendas são transmitidas embutidas no vídeo, a norma define que o conteúdo seja transmitido em um fluxo separado.
A portaria nº 310 do Ministério das Comunicações definiu o cronograma para que as emissoras e retransmissoras veiculassem suas programações com legendas.
Atualmente, dezasseis horas (entre seis e duas horas da manhã) diárias de programação devem conter caption, esse número aumentará para vinte horas em abril do próximo ano (2015) e por fim em junho de 2017, toda a programação deverá ser legendada. Hoje, essa obrigatoriedade se aplica a cidades com mais de cem mil habitantes, mas a partir de 2016, todas as cidades devem ser cobertas.
Para cumprir a regulamentação, as emissoras têm buscado no mercado soluções para gerar as legendas. Três tecnologias diferentes ganharam destaque e são utilizadas pela grande maioria das emissoras brasileiras.
A primeira técnica utilizada é a estenotipia. Essa técnica é utilizada pelas maiores emissoras do país desde meados da década de 1990. Um operador ouve a programação e digita todos os diálogos e outros efeitos por meio de um teclado especial. Essa técnica tem um alto grau de acerto, pequeno delay, mas devido à especificidade do profissional que realiza a operação, apresenta um custo alto, algumas vezes proibitivo para emissoras pequenas, além de ser pouco acessível longe de grandes centros.
Uma alternativa que surgiu nos últimos anos é um sistema composto por um software de reconhecimento de voz, onde um operador ouve a programação e a repete, interligado a um software que permite um segundo operador corrigir o texto gerado pelo programa de reconhecimento. Este segundo operador também pode escolher, como fonte de texto para o closed caption, conteúdos previamente inseridos nos sistemas de jornalismo das emissoras, como por exemplo, os scripts das matérias ou textos que são exibidos em teleprompters.
Essa técnica apresenta custos mais baixos quando comparados à estenotipia, por exigir profissionais que são mais facilmente treinados e que podem ser contratados em todo o Brasil, bastando à pessoa ter uma boa dicção e conhecimentos básicos de informática.
Em contra partida, o nível de acerto pode ser inferior aos bons estenotipistas e dessa forma a etapa de correção seria mais crítica, aumentando o delay de geração das legendas.
Por fim, algumas emissoras começaram a adotar desde o último ano, soluções que fazem o reconhecimento diretamente do áudio da emissora, sem necessidade de operadores. Com certeza, essa técnica é a que possui menos custos, mas por se tratar de algo inovador ainda encontra resistência de alguns profissionais para adoção e em alguns casos não apresenta níveis de acerto dentro do exigido pela norma brasileira

Tiago Ribeiro de Lacerda
é engenheiro de Computação pela Unicamp (2009). Atualmente é engenheiro de suporte na EITV, e já trabalhou em projetos de sistemas de transmissão de TV e Rádio no Grupo Bandeirantes.