CAPÍTULO 4 - A VOZ HUMANA

4.1 - O SINAL DE VOZ

A voz é uma das extensões mais fortes da personalidade humana, e, nunca a voz teve tanto poder e tantas possibilidades de uso com as que hoje dispõe amplificada pela tecnologia (BLOCH, 1958). Através dos registros em discos e fitas de gravação, do rádio, do telefone e de todo o sistema eletro-eletrônico de transmissão de ondas sonoras, quase nos acostumamos com a voz sem a presença do falante, ou mesmo do ouvinte.

A voz é som, logo, possui todas as características sonoras do mesmo. Sobre a voz humana pode-se dizer que, segundo FERREIRA (1986, p.1473), "consiste em um som ou um conjunto de sons emitidos pelo aparelho fonador".

De acordo com FOLMER-JOHNSON (1968), já em 1934, KARL BÜHLER, um pesquisador alemão que conduziu um dos primeiros estudos científicos sobre a audição vocal, comentava em seu livro Sprachtheorie ("Teoria da Fala") que qualquer emissão humana - falada, cantada ou até mesmo uma simples exclamação - apresenta 3 funções :

  1. Função de representação - a voz comunica alguma coisa, ou seja, seu uso está relacionado ao conteúdo da mensagem verbal.
  2. Função de expressão - a voz revela alguma coisa do falante, como sua idade, seu nível sócio-econômico-cultural, seu estado emocional, etc.
  3. Função de Apelo - a voz deseja e provoca uma reação no ouvinte, o que significa que existe sempre uma intenção, freqüentemente inconsciente, no tipo de voz que se utiliza no discurso.


Porém, em se tratando de som, apenas isto, outros tipos de análise são feitas sobre a pressão sonora realizada pelo aparelho fonador do homem. Por exemplo, a intensidade vocal (BLOCH, 1958) é resultado da amplitude das vibrações das cordas vocais. Ainda segundo BLOCH (1958), também depende da freqüência, porque os sons graves têm amplitude maior que os agudos.

Ainda sobre a voz humana, qualidade vocal, termo antes chamado de timbre (atualmente mais usado para instrumentos musicais), é o termo atualmente empregado para designar o conjunto de características que a identificam. A qualidade vocal se relaciona à composição dos harmônicos da onda sonora. Isso acontece porque, o que de fato ouvimos, é o som resultante da superposição de vários sons de frequências diferentes. No entanto, a frequência do som ouvido é igual à do som de menor frequência, denominado de frequência fundamental. O que a diferencia é a presença dos sons harmônicos.

LUCHSINGER (Apud BLOCH, 1958), registrou a voltagem da pressão sonora, enquanto observava com o estroboscópio, a amplitude da corda vocal através da lente de mensuração telescópica. Desta pesquisa, LUCHSINGER verificou que os sons fracos mostraram a amplitude de 0,5 a 1mm e uma pressão sonora de 1 a 2 volts. Os sons mais fortes aumentaram a amplitude até 3mm e a pressão para 9 a 10 volts. Visto que a medida é realizada em decibéis, LUCHSINGER concluiu que, entre a voz sussurrada e a voz mais intensa pode haver uma diferença de até 100 decibéis. Em uma conversa normal a intensidade oscila entre 40 e 50 dB e, segundo a maioria dos autores, a intensidade máxima da voz humana varia entre 60 e 120 dBs.

Aspectos como a frequência fundamental também tem sido o alvo de estudos atualmente. BEHLAU (1985), em 1984, realizou uma pesquisa em uma população de 90 pessoas da cidade de São Paulo. Os resultados foram obtidos por análise computadorizada e apresentaram os seguintes valores : para homens uma média de 113,01 Hz, em mulheres 204,91 Hz e em crianças uma média de 235.76 Hz.

Entretanto, apesar de ter encontrado esses valores como média, segundo pesquisas da própria MARA BEHLAU e confirmada por outros autores como NEPOMUCENO (1968) e FOLMER-JOHNSON (1968), as freqüências fundamentais das vozes masculinas podem variar de 80 a 150 Hz, as femininas de 150 a 250 Hz, e as infantis encontram-se acima de 250 Hz.

Apesar de os valores identificados das frequências fundamentais ficarem na faixa de 80 a 300 Hz, considerando homens, mulheres e crianças, FOLMER-JOHNSON (1968, p. 88) relata que "a linguagem articulada compreende sons com frequências que variam de 250 Hz a 1500 Hz, principalmente." Esses números vem de encontro aos valores descritos por EFRON (1969), onde, segundo o autor, a gama vocal se extende desde 80 a aproximadamente 1400 Hz, podendo, inclusive, alcançar limites maiores.

A complexidade da voz humana pode ser notada melhor quando e feita uma análise sobre o sinal de voz (MOORE, 1994). A modulação da voz, organizada pelas cordas vocais, patrocina diversas frequências e amplitudes diferentes (intensidades). A figura 010 exibe a palavra "ciência" amostrada em 11000 Hz, e ampliada 3 vezes no mesmo ponto. A massa escura da onda A consiste em uma grande variedade de detalhes que não é possível perceber. No entanto, aproximando-se um pouco mais, na onda B e C, já é possível notar alguma diferença, principalmente na onda C, onde se vê as diferentes frequências entre a sílaba "ci" e a sílaba "ên". Na onda D, além da diferença de frequência, podemos perceber, também, as ondas individuais.

FIGURA 010 - Zoom da palavra "ciência" em 11000 Hz.

4.1.1 - A estrutura e as frequências das palavras

Os sons que saem do aparelho fonador são constituídos por dois períodos transitórios e um período de estabilidade. Os períodos transitórios são conhecidos como de estabelecimento e de extinção do som. Esses dois períodos transitórios são chamados de consoantes. O período de estabilidade chama-se vogal.

As vogais podem ser identificadas pela análise espectrográfica dos 3 primeiros formantes. Os formantes das vogais, de acordo com BLACK (Apud RUSSO e BEHLAU, 1993), são "faixas de frequência que caracteristicamente contêm centróides de energia". Em outras palavras, podemos dizer que existe uma concentração maior de energia acústica em determinadas faixas de frequências.

Esses formantes são conhecidos como F1, F2, F3 ... Fn. Esses símbolos são associados de acordo com os valores das frequências do espectro. Quanto à identificação das vogais, de acordo com RUSSO e BEHLAU (1993, p. 29) :

... temos um número infinito de formantes, mas os três primeiros são os mais importantes, suficientes para oferecer a identidade da vogal e não é comum ir-se além do terceiro formante na análise espectrográfica. São principalmente as frequências de F1 e F2 que determinam a qualidade de uma vogal em termos acústicos e sua identidade em termos auditivos.

Sendo assim, sabendo que os 3 primeiros formantes identificam as vogais, e fazendo a média da frequência dos três formantes das vogais orais do português brasileiro (ANEXO I), verificamos que, fundamentalmente, a frequência máxima pertence a vogal / i /, com valor aproximado de 3600 Hz.

Para as consoantes, as regiões de incremento de energia no espectro não são denominadas formantes do som, mas, simplesmente, de áreas de alta intensidade. Esse aspecto não será discutido neste trabalho pois se estende a estudos relacionados à fonoaudiologia, onde existe material mais amplo e mais aprofundado sobre esse assunto especificamente.

De todas as consoantes, as que atingem as maiores frequências são /f,v,s,z/, todas conhecidas como sons fricativos. Os sons de /f,v/ são muito pouco intensos na análise espectrográfica, e sua faixa de frequência se estende de 1200 Hz a 7000 Hz. Os sons de /s,z/ são sons considerados fortes, podendo variar sua faixa de frequência entre 4500 Hz e 8000 Hz.

De qualquer forma, conforme o ANEXO II (audiograma que exibe valores acústicos médios de frequência e intensidade dos sons da fala do português brasileiro), notamos que a maior parte dos sons da fala situam-se entre a frequência de 250 Hz até, aproximadamente, 4000 Hz. Os sons de /v,f,z,s/, que situam-se em faixas superiores, foram dispostos no gráfico conforme o registro da faixa de maior intensidade, onde as setas indicam os limites superior e inferior. Para as consoantes restantes, o audiograma apresenta apenas a frequência média da zona de maior intensidade, e, para as vogais, apenas o primeiro formante do som. Esses mesmos valores podem ser verificados com mais atenção na tabela de Pistas e Informações Acústicas (ANEXO III), onde a sua disposição traz informações mais detalhadas sobre as frequências da fala do português brasileiro.

A necessidade de se conhecer corretamente as frequências não é meramente um estudo complementar. É relevante conhecer os aspectos relativos à língua com a qual estamos lidando pois, conforme estudos realizados, os sons de uma língua são diferentes de outra língua. As frequências em que os sons são emitidos variam conforme a língua utilizada para cada determinado povo. Dessa forma, conhecer o sinal que deverá ser analizado é fundamental para que o mesmo possa ser detectado o mais corretamente possível. Quanto à detecção para a identificação do som, não há dúvida sobre a sua importância, esta necessidade é profundamente ressaltada por PASCOE (apud BEHLAU, 1993, p. 53) que afirma :

... embora seja verdadeiro que a mera detecção de um som não assegura o seu reconhecimento, é ainda mais verdadeiro que sem esta detecção, as probabilidades de identificá-lo corretamente estarão seriamente comprometidas.

4.2 - MECANISMO DE AUDIÇÃO

O ouvido humano é um órgão altamente sensível que nos capacita a perceber e interpretar ondas sonoras em uma gama muito grande de frequências, algo entre 20 a 20.000 Hz (EFRON, 1969, FOLMER-JOHNSON, 1968, MATRAS, 1991 e NEPOMUCENO, 1968). A captação do som até a sua percepção é uma sequência de transformações de energia, iniciando pela sonora (canal), passando pela mecânica (ossículo), hidráulica (caracol) e finalizando com a energia elétrica dos impulsos nervosos que chegam ao cérebro (alvo).

De acordo com SCHAUF (1993), a energia sonora é captada pelo ouvido no chamado pavilhão auditivo (orelha) e penetra pelo conduto auditivo que termina em uma delicada membrana chamada tímpano. O tímpano transforma as vibrações sonoras em vibrações mecânicas que são comunicadas aos ossículos, os famosos : martelo, bigorna e estribo.

FIGURA 011 - Ouvido humano

Segundo SCHAUF (1993), esses ossos transmitem, mecanicamente, as vibrações da membrana timpânica até a membrana que recobre a janela oval. Nesse momento as vibrações mecânicas se transformam em pressão hidráulica que se propagam no fluído que preenche o caracol. Finalmente essas ondas são detectadas pelas milhares de células ciliadas que enviam ao cérebro sinais nervosos (agora elétricos) que são interpretados como som.

4.2.1 - O processamento do som no ouvido humano

Para que ocorra a sensibilidade espectral do ouvido, existem células ciliadas em diversos pontos da janela oval. As mais próximas do início das ondas hidráulicas são sensíveis às altas frequências (perto de 20.000 Hz), e as células mas próximas do helicotrema tem uma sensibilidade maior às frequências baixas (abaixo de 100 Hz). Naturalmente, entre as duas extremidades estão distribuídas as células com sensibilidade maior às frequências intermediárias que se situam entre 300 e 20.000 Hz (SCHAUF, 1993 e KANDEL, 1991).

FIGURA 012 - Propagação do sinal

Dessa forma, cada som excitará um determinado conjunto de células ciliadas e, consequêntemente, será enviado ao cérebro através do conjunto de fibras do nervo auditivo específico da frequência daquele som. Assim, o cérebro já recebe a informação de frequência devidamente analisada, restando-lhe apenas um refinamento na análise para identificar totalmente o espectro do som que está, no momento, sendo ouvido (KANDEL, 1991).