STEVENS, K. N.Propriedades acústicas usadas para a identificação de sons da fala 1983 - _traducao

July 17, 2017 | Autor: W. Ferreira Netto | Categoria: Fonética, Fonologia, Fonetica Acustica
Share Embed


Descrição do Produto

STEVENS, K. N. Acoustic properties used for the identification of speech sounds. Annals of the New York Academy of Sciences. v. 405, p. 2-17, jun, 1983. DOI: 10.1111/j.1749-6632.1983.tb31613.x Tradução de Waldemar Ferreira Netto

Propriedades acústicas usadas para a identificação de sons da fala Kenneth N. Stevens Research Laboratory of Electronics and Department of Electrical Engineering and Computer Science Massachusetts Znstitute of Technology Cambridge, Massachusetts 02139

SEGMENTOS FONÉTICOS, TRAÇOS E PROPRIEDADES Uma etapa essencial no processo de compreensão das locuções faladas é identificar palavras no interior da cadeia sonora. Normalmente, pensamos que as palavras são compostas de sequências de sons da fala ou de sementos fonéticos. O conceito de segmento fonético (tal como a vogal ee {do inglês} ou a consoante p), entretanto, isso é muito abstrato, uma vez que não é possível dividir a cadeia de sons em segmentos individuais, com fronteiras nítidas que separem segmentos adjacentes. Algumas partes da onda sonora podem influenciar mais do que um segmentos fonético e, assim, uma seção particular da onda sonora nem sempre está associada exclusivamente a um som da fala. Cada segmento fonético manifesta-se na onda sonora por um conjunto de propriedades acústicas, que são, na sua maior parte, independentes do contexto no qual o segmento ocorre. Há um inventário de um conjunto relativamente pequeno (provavelmente entre 15 e 20) dessas propriedades que são usadas para caracterizar diferentes sons da fala.1 Cada propriedade pode estar presente ou ausente (ou pode ser não especificada). Assim, um conjunto relativamente pequeno de propriedades pode ser combinado em um grande número de maneiras para produzir um grande número de sons diferentes da fala. Essas propriedades podem, de fato, organizar segmentos fonéticos em classes de tal maneira que os segmentos de cada classe tenham uma dessas propriedades em comum. Diz-se que uma tal classe de segmentos fonéticos tem um traço fonético em comum, uma propriedade acústica em particular que está presente na onda sonora sempre que esse traço estiver marcado em um segmento dentro de uma palavra. As palavras podem ser vistas, então, como complexos acústicos de propriedades fonéticas que ocorrem em um momento específico em relação a um outro. As palavras se distinguem umas das outras com base na diferença entre uma ou mais dessas propriedades. A informação acústica necessária para um ouvinte identificar uma palavra está, provavelmente, contida nessas propriedades que se distribuem ao longo da palavra. De maneira a se obter algum conhecimento desse inventário de propriedades, é comum construir pares de palavras que sejam minimamente diferentes, no sentido de que elas se distingam com base em apenas uma (ou apenas um pequeno conjunto) dessas propriedades. Assim, por exemplo, para as duas locuções a tot {'um pouquinho'} e a dot {'um ponto'} , os espectrogramas que se apresentam na FIGURA 1, muitas das propriedades acústicas são as mesmas, exceto no único caso da consoante oclusiva inicial [t] que é surda, e a outra consoante [d] que é sonora. Para consoantes sonoras, há som periódico de frequência baixa durante o tempo em que a lâmina da língua forma o fechamento do trato vocal, enquanto não há essa mesma energia de frequência baixa para [t]. O inventário de propriedades disponíveis para fazer distinções fonéticas na língua parece ser determinado, em parte, pela maneira pela qual o sistema auditivo responde aos sons e, em 1

STEVENS, K. N. Acoustic properties used for the identification of speech sounds. Annals of the New York Academy of Sciences. v. 405, p. 2-17, jun, 1983. DOI: 10.1111/j.1749-6632.1983.tb31613.x Tradução de Waldemar Ferreira Netto

parte, pelas capacidades do sistema gerador de fala de produzir sons com atributos particulares. Os sons que são usados nas línguas, provavelmente, evoluíram para proporcionar um alinhamento ótimo entre as características humanas do processamento de sons pelo sistema audivos e da geração de som pelo articulatório.

FIGURA 1. (Acima) Espectrogramas das locuções a tot e a dot. A periodicidade com frequência baixa correspondente às vibrações das cordas vocais podem ser vistas no intervalo da oclusão para [d] mas não para [t]. (Abaixo) Segmento da forma da onda próximo à desoclusão do [d].

TRAÇOS DISTINTIVOS E TRAÇOS REDUNDANTES Em uma dada língua (tal como o inglês) nem todas a propriedades são completamente utilizadas para fazer distinções fonéticas. Se cada som puder ser caracterizado pela presença ou pela ausência de umas quinze propriedades acústicas, teríamos a capacidades de produzir e de receber 215, aproximadamente 30.000, sons distintivos. É claro que muito mais do que isso é utilizado na prática, de 100 até 1.000 mais. Assim, para qualquer distinção que quisermos fazer, temos propriedades extras disponíveis, não usadas, e frequentemente recrutamos essas propriedades para reforçar a distinção, isto é, para deixar "mais fácil" para o ouvinte distinguir uma palavra de outra. Essas propriedades são, de alguma maneira, redundantes, umas vez que não são estritamente necessárias para fazer uma distinção fonética, mas estão disponíveis para ajudar o ouvinte a reforçar a propriedade distintiva principal. No exemplo dado cima (FIGURA 1) para o inglês, a distinção entre [t] e [d] é feita não somente pela periodicidade de frequência baixa durante o intervalo de oclusão para a oclusiva, mas também pela presença do ruído de aspiração que segue a desoclusão de [t], e 2

STEVENS, K. N. Acoustic properties used for the identification of speech sounds. Annals of the New York Academy of Sciences. v. 405, p. 2-17, jun, 1983. DOI: 10.1111/j.1749-6632.1983.tb31613.x Tradução de Waldemar Ferreira Netto

um consequente retardo no início das vibrações das cordas vocais. De fato, há alguns ambientes fonéticos em que a distinção entre [t] e [d] é feita somente pelo ruído de aspiração e não pela periodicidade de frequência baixa. Assim, temos uma situação em que podemos usar mais do que uma propriedade acústica para marcar uma distinção fonética, mas a combinação feita dessas propriedades pode depender do ambiente fonético no qual os segmentos aparecem. Outro tipo de redundância que ocorre na fala corrente é criada pelo contexto sintático e semântico no qual uma palavra ocorre. Se uma palavra for apresentada isoladamente a um ouvinte, na ausência de um contexto, o ouvinte precisa detectar um número substancial de propriedades acústicas diferentes ao longo da palavra para que ela seja identificada inequivocamente. Certamente há restrições na sequência dos segmentos fonéticos que são permitidos em posição inicial da palavra (por exemplo, a sequência sp é permitida em posição inicial de palavras, mas vn não), e nem todas essas sequênciad permitidas formam palavras. Consequentemente, não é necessário para um ouvinte identificar todas as propriedades distintivas para cada segmento. Mais ainda, se uma palavra ocorrer em uma sentença com significado, o número de palavras que são candidatas potenciais para essa posição particular na sentença é muito pequeno. Consequentemente, o número de propriedades acústicas necessárias para um ouvinte identificar a palavra fora desse conjunto restrito de alternativas é normalmente muito pequeno. A habilidade de um ouvinte para identificar uma palavra com base na informação contextual e nas propriedades acústicas exige conhecimento da língua: do inventário de palavras que existe na língua, das restrições das sequências de sons da fala e das restrições impostas pela sintaxe e pelo fato de que a sentença tem um significado. Um ouvinte que tenha uma audição prejudicada que não lhe permita detectar algumas propriedas acústicas vai depender mais de seu conhecimento linguístico do que um ouvinte com uma capacidade auditiva normal. Assim, um ouvinte com audição prejudicada é duplamente deficiente se ele ou ela tiver proficiência limitada na língua, como é frequente o caso com aqueles que têm audição prejudicada desde uma idade muito precoce.

ALGUMAS PROPRIEDADES UNIVERSAIS DAS SEQUÊNCIAS DOS SONS DA FALA Vamos agora examinar algumas das propriedades acústicas que são usadas para fazer distinções fonéticas. Mas, antes de comentarmos mais detalhadamente essas propriedades, vamos dar uma olhada em algumas propriedades que todas as sequências de sons da fala têm em comum. Nesse sentido, essas propriedades nos dão uma base a partir da qual podemos olhar mais detalhadamente para os atributos associados a determinada classe de segmentos fonéticos. Alguns dessas propriedades estão ilustradas na FIGURA 2. Uma propriedade básica da fala corrente e que há aumentos e diminuições na amplitude, que correspondem grosseiramente à alternância entre vogais e consoantes numa sequência de sílabas. Essas mudanças na amplitude estão ilustradas na parte de baixo da FIGURA 2. Durante a porção vocálica da sílaba, o tamanho da abertura na passagem de ar que o trato vocal forma é máxima, e a amplitude do som atinge um pico em torno desse ponto. Na região da consoante ou das consoantes que precedem ou que seguem a vogal, há um estreitamento do trato vocal, levando a um mínimo na amplitude sonora. A amplitude sonora na fala corrente raramente permanece constante durante o intervalo de tempo de mais do que umas poucas dezenas de milissegundos.

3

STEVENS, K. N. Acoustic properties used for the identification of speech sounds. Annals of the New York Academy of Sciences. v. 405, p. 2-17, jun, 1983. DOI: 10.1111/j.1749-6632.1983.tb31613.x Tradução de Waldemar Ferreira Netto

FIGURA 2. Diversas representações dos atributos de uma locução estão na frequência e no domínio do tempo. (No meio) Espectrograma da locução "The big rabbits." {Os coelhos grandes'} (Abaixo) A variação da amplitude versus tempo durante a locução. (Em cima) Amostras de espectra tomadas em vários pontos ao longo da locução, tal como está indicado. No caso de [b], à esquerda, três espectra estão apresentados, e foram obtidos pela amostragem de três pontos de 13 ms. O espectra foi computado por uma onda sonora pre-enfatizada, e foi atenuado usando um procedimento de previsão linear. (De STEVENS; BLUMSTEIN, 4. Reproduzidos com permissão.)

Durante o intervalo de tempo em que a amplitude é máxima, na porção vocálica das sílabas, as cordas vocais quase sempre estão vibrando. A frequência da vibração varia dependendo do acento que é colocado sobre a sílaba, da maneira que o falante deseja agrupar as palavras e da posição da sílaba na sentença. Dentro de uma locução, a frequência pode variar meia oitava ou mais. Um exemplo disso é mostrado na FIGURA 3. Vemos o contorno de uma frequência fundamental em relação a tempo para a sentença "We take a winding path to the pond." {'Tomamos um caminho sinuoso para a lagoa.'}. A onda sonora está ilustrada por dois breves intervalos de tempo da sentença. A frequência fundamental começa baixa na palavra inicial átona, o máximo está em take. Diminui nas poucas sílabas seguintes, tem um máximo em path, ao qual se dá uma ênfase, e novamente tem um máximo em pond, que é seguido por uma diminuição para o final da locução. As ondas sonoras mostram pulsos glóticos próximos para a palavra take, e pulsos mais afastados que correspondem à frequência fundamental mais grave perto do final de pond. Não aparece nenhum contorno durante os interavlos em que as cordas vocais não estão vibrando. Esses dois parâmetros básicos — aumento e diminuição da amplitude para cada sílaba e ascensão e queda na frequência fundamental — já dão ao ouvinte informação substancial. De início, palavras funcionais podem ser localizadas, algumas ideias de agrupamento de palavras podem ser obtidas e o final da locução ou da frase pode pode ser identificado. Esses parâmetros representam um nível macroscópico {gross} da análise acústica. Para diversos ouvintes com audição prejudicada, essas flutuações de intensidade {loudness} e tom {pitch} frequentemente podem ser ouvidas mesmo quando um numerosas outras propriedades mais sutis não puderem ser detectadas.

4

STEVENS, K. N. Acoustic properties used for the identification of speech sounds. Annals of the New York Academy of Sciences. v. 405, p. 2-17, jun, 1983. DOI: 10.1111/j.1749-6632.1983.tb31613.x Tradução de Waldemar Ferreira Netto

FIGURA 3. (Em cima) Frequência fundamental em relação a tempo para porções sonoras da sentença "We take a winding path to the pond." (Em baixo) Segmentos curtos da onda sonora da fala amostrados em duas vogais diferentes.

Mas um ouvinte precisa de mais informações do que essas mudanças macroscópicas na amplitude e na frequência para compreender uma locução. Essa informação adicional tem de vir de características espectrais do som e do tempo de variação dessas características espectrais, algumas das quais podem ser vistas na FIGURA 2. Um atributo que caracteriza a maioria dos sons da fala é a presença de picos e vales significativos no espectra, particularmente na faixa de frequências em torno de 2500 Hz. A razão da amplitude do espectro de um pico para o vale adjacente pode ser de 20 dB ou mais. Os picos surgem das ressonâncias ou dos formantes no trato vocal. Estas ressonâncias são geralmente mais estreitas do que as larguras de banda dos filtros de análise do sistema auditivo periférico. Consequentemente, o tempo de resposta desses filtros auditivos são normalmente mais influenciados pelas frequências dos picos espectrais do que pelos próprios filtros.2,3 Unidades individuais no nervo auditivo tendem a responder sincronizadamente às fequências de picos espectrais acima dos 2500 Hz, e normalmente há dois ou três desses picos nessa faixa de frequências para vogais não nasais. Para frequências de até 2500 Hz, os picos e vales no espectro não são tão proeminentes, particularmente se o espectro for examinado com filtros que simulam a filtragem do sistema auditivo periférico. Os picos que são observados no espectro de curta duração mudam com o tempo conforme muda a configuração do trato vocal durante a produção da fala. Algumas vezes, essas mudanças são muito rápidas, com movimentos significativos de picos ao longo de intervalos de tempo de 10 a 20 ms, como vai exemplificado pelas amostras sucessivas feitas após a desoclusão de [b] na FIGURA 2. Diversas propriedades acústicas que são usadas para fazer a distinção entre sons da fala podem estar amalgamadas {packaged} na onda sonora na vizinhança desses intervalos de tempo. Esses esses momentos ocorrem quando o trabalho vocal movimenta-se afastando-se ou aproximando-se de uma configuração de constrição associada com uma consoante.

5

STEVENS, K. N. Acoustic properties used for the identification of speech sounds. Annals of the New York Academy of Sciences. v. 405, p. 2-17, jun, 1983. DOI: 10.1111/j.1749-6632.1983.tb31613.x Tradução de Waldemar Ferreira Netto

ALGUMAS PROPRIEDADES SELECIONADAS DOS SONS DA FALA Tendo essas propriedades mais gerais da fala como pano de fundo, vamos examinar agora algumas propriedades acústicas mais detalhadas que os ouvintes parecem usar ao fazer distinções fonéticas. Consideraremos somente um subconjunto do total de propriedades que são usadas em várias línguas, e vamos nos concentrar nas propriedades que parecem ser utilizadas em várias línguas, incluindo o inglês. Periodicidade de baixa frequência O exemplo na FIGURA 1 ilustra umas distinção fonética que se faz ao se detectar a presença ou a ausência de periodicidade de frequência baixa, ou sonoridade {voicing} no som. A frequência dessa periodicidade normalmente ocorre na faixa entre 80 e 350 Hz em falantes adultos, e pode ser mais alta do que isso em crianças. Essa periodicidade pode ser detectada por um ouvinte mesmo que não haja energia presente na frequência fundamental do som, uma vez que essa periodicidade pode ser produzida pelos harmônicos mais altos do espectro, sem a componente fundamental. No caso de consoantes que são produzidas com uma constrição estreita no trato vocal, a periocidade de frequência baixa pode ocorrer em somente uma porção do intervalo de constrição — seja exatamente depois de a constrição ter sido produzida, seja imediatamente antes de ser liberada. Por exemplo, no intervalo de oclusão de [d] na FIGURA 1, o espectrograma e a onda sonora mostram que a periodicidade de frequência baixa parece desaparecer (ou, pelo menos, ficar muito fraca) entre os 10 - 20 ms que precedem a desoclusão da consoante, mas está presente ao longo da parte inicial do intervalo de oclusão. A FIGURA 4 mostra exemplos adicionais de som sem periodicidade de baixa frequência (fin), e com periodicidade (knot e win). Presença de aperiodicidade no som Alguma aperiodicidade ou ruído aparecem no som se o trato vocal estiver constricto para produzir uma consoantes de uma tal maneira que a pressão aumente atrás dessa constrição. Quando o ar flui através da constrição, uma turbulência é gerada nesse fluxo, produzindo um ruído na proximidade da constrição. Exemplos de locuções que se distinguem com base na produção de uma consoantes com ou sem esse ruído são dados na FIGURA 4. Para a locução a knot, não há aumento da pressão atrás da constrição alveolar, e assim, não há aperiodicidade no som, enquanto que em a dot (FIGURA 1), um ruído foi gerado no instante da desoclusão consonantal. Para ambas as locuções há um oclusão completa do trato vocal durante o intervalo consonantal, mas o aumento da pressão é antecipado, no caso do som nasal, permitindo que o ar flua através da abertura velofaríngea e da passagem nasal. No caso do par a win e a fin, a oclusão durante a consoante não é completa. O ruído é contínuo durante o intervalo de oclusão para [f] porque há pressão atrás da constrição, enquanto que não há aumento de pressão nem ruído para [w]. De fato, [f] e [w] distinguem-se com base nas propriedades de vozeamento {voicing 'sonoridade'} e, também, na propriedade de aperiodicidade do som. Aumento abrupto de amplitude No decorrer da geração de alguns sons da fala, faz-se uma oclusão completa em algum ponto ao longo do trato vocal, enquanto para outros sons há somente uma constrição parcial. Quando se faz uma oclusão completa, como em [t] na FIGURA 1 e em [d] em [n] na FIGURA 4, a amplitude do som durante a oclusão é muito baixa, e assim, quando a oclusão é liberada há um aumento abrupto na amplitude em toda a faixa de frequência. Esse aumento abrupto na 6

STEVENS, K. N. Acoustic properties used for the identification of speech sounds. Annals of the New York Academy of Sciences. v. 405, p. 2-17, jun, 1983. DOI: 10.1111/j.1749-6632.1983.tb31613.x Tradução de Waldemar Ferreira Netto

amplitude, precedido por um inervalo de amplitude baixa, distingue segmentos não contínuos ou segmentos abruptos dos segmentos contínuos. Nos exemplos na FIGURA 4, os segmentos [f, v] são contínuos.

FIGURA 4: Espectrograma das locuções a knot, a win e a fin. Para as duas primeiras locuções, não há ausência de periodicidade na onda sonora na consoante intervocálica, enquanto que o [f] exibe aperiodicidade ou ruído.

Entre as cinco consoantes ilustradas nos espectrogramas da FIGURA 1 e da FIGURA 4, podemos observar diversas combinações de três propriedades: periodicidade de frequência baixa, presença de ruído ou aperiodicidade e aumento abrupto da amplitude. Essas combinações estão resumidas na TABELA 1. Com base nessas poucas e simples propriedades, é possível, então, para um ouvinte fazer uma identificação parcial de uma palavra. TABELA 1

d t f w n

Periodicidade de frequência baixa + + +

Presença de aperiodicidade + + -

Aumento abrupto de amplitude + + + +

NOTA: Os sinais + e - indicam a presença ou a ausência da três propriedade diferentes que correspondem aos segmentos fonéticos na coluna mais à esquerda.

Estridência Algumas consoantes em inglês e em outras línguas são produzidas por uma tubulência gerada na corrente de ar. Esse fluxo turbulento é uma fonte de ruído ou de som aperiódico no trato vocal. A amplitude desse ruído por ser controlado com uma manipulação apropriada da corrente de ar. Se a corrente de ar for diretamente contra um obstáculo, tal como os dentes inferiores, então o ruído tem uma amplitude relativamente grande, enquanto que, se a corrente de ar for diretamente por um caminho que não atinja algum obstáculo, então o ruído será muito mais fraco. Consoantes produzidas com ruído de maior amplitude são chamadas estridentes, e duas dessas ([s] e [š] como em shin) estão ilustradas na FIGURA 5. Para essas consoantes, a amplitude do ruído na região de frequências altas do espectro está bem acima daquela da vogal adjacente na mesma região. Por outro lado, para uma consoante não 7

STEVENS, K. N. Acoustic properties used for the identification of speech sounds. Annals of the New York Academy of Sciences. v. 405, p. 2-17, jun, 1983. DOI: 10.1111/j.1749-6632.1983.tb31613.x Tradução de Waldemar Ferreira Netto

estridente (tal como [θ] na palavra thin na FIGURA 5, a amplitude do espectro do ruído é menor do que a da vogal na maior parte de toda a faixa de frequências Outros exemplo de consoantes estridentes em inglês são [z], [ž] (azure), [č] (church) e [j] (jump).

FIGURA 5: (Acima). Espectrogramas das locuções a thin, a sin e a shin. Para [s] e [š] há um ruído de alta frequência forte (evidência para a estridência), enquanto que o ruído é fraco para a não estridente [θ]. (Abaixo). Um segmento da onda sonora próximo à desoclusão de [š].

Ponto de articulação das consoantes Como já observamos, as propriedade do som na vizinhança dos pontos em que há uma mudança rápida no espectro são comumente usadas para distinguir uma classe de sons da fala de outra, particularmente para sons consonantais. Um conjunto dessas propriedades é usada para fazer distinções de consoantes produzidas com constrições em diferentes lugares ao longo do trato vocal. Por exemplo, em inglês, distinguimos consoantes produzidas com uma constrição nos lábios (tais como [p b f v m]), consoantes com uma constrição formada pela lâmina da língua (tais como [t d s z n]), e aquelas produzidas pela elevação do corpo da língua contra o palato (tais como [k g ŋ], um exemplo deste último ocorre em sing). Uma das propriedades que ajuda a distinguir entre esses grupos de consoantes é examinar se o espectro do som tem um pico espectral proeminente ou compacto na faixa de frequências médias, ou se os picos espectrais são mais difusos, ora distribuído ao longo da faixa de frequências audíveis, ora concentrados em algum dos limites dessa faixa. Essas propriedades contrastantes relativas ao fato de serem compactas ou difusas estão ilustradas na FIGURA 6. Essa figura mostra espectrogramas das locuções a gap, a bat e a dat, junto das amostras espectrais tomadas na proximidade da desoclusão da consoante. A proeminência do pico 8

STEVENS, K. N. Acoustic properties used for the identification of speech sounds. Annals of the New York Academy of Sciences. v. 405, p. 2-17, jun, 1983. DOI: 10.1111/j.1749-6632.1983.tb31613.x Tradução de Waldemar Ferreira Netto

espectral de frequência média para [g] constrasta com o espectro mais difuso para [b] e [d]. A faixa de frequências médias, onde a pico espectral proeminente ocorre, está geralmente entre 1000 e 3000 Hz. Essa propriedade de ser compacto é evidente em consoantes produzidas na região velar, isto é, as consoantes [k g ŋ].

FIGURA 6: (Acima). Os espectrogramas das três locuções que contêm consoantes oclusivas [g b d]. (Abaixo) Sob cada espectrograma estáa um amostra do espectro da desoclusão consonantal, indicando a forma do espectro do burst. O espectro é calculado com bandas críticas, que representam uma aproximação ao filtro da cóclea. O espectra ilustra o pico espectral proeminente para [g] (em torno de 2900 H nesse exemplo), e a propagação difusa da energia espectral, sem um pico proeminente para [b] e [d].

Se examinarmos bem a distinção entre a labial [b] e a alveolar [d], vamos ver que o espectro para [d] na desoclusão tende a ser uma curva ascendente com aumento de frequência, enquanto que o espectro no ataque de [b] tende a ser plano ou uma curva descendente. O principal atributo que distingue uma consoante labial de uma consoante alveolar, entretanto, parece ser determinado pela maneira como a amplitude do espectro nas frequências altas muda imediatamente após a desoclusão da consoante. Em cada painel da FIGURA 7, mostramos uma amostra do espectro próxima da desoclusão, junto de uma amostra do espectro no início da vogal. Para consoantes alveolares, as amplitudes dos picos espectrais nas frequências altas no burst são tão altas ou mais altas do que as amplitudes correspondentes na vogal que a segue imediatamente. No caso das labiais, entretanto, a amplitude do burst nas frequência altas não é geralmente grande como na vogal seguinte. Assim, a amplitude total de altas frequências não é alcançada senão um pouco depois do início do vozeamento da vogal. Em outras palavras, para a alveolar, o aumento na amplitude das frequêcias altas é bem abrupto, atingindo a amplitude total em poucos milissegundos, enquanto que, para a labial, o aumento na frequências altas é menos abrupto, e é, de fato, um tanto retardado. A forma pela qual a amplitude das frequências altas muda no momento que segue imediatamente a desoclusão de cada classe de consoantes está ilustrada esquematicamente na FIGURA 6. Essas propriedades constrastantes são uma consequência direta do ponto de articulação no trato vocal em que essa constrição consonantal é feita. Essas classes de consoantes, então, distinguem-se em termos do aumento abrupto da amplitude em faixas de frequência específicas. Esses atributos que envolvem o curso do tempo de mudanças 9

STEVENS, K. N. Acoustic properties used for the identification of speech sounds. Annals of the New York Academy of Sciences. v. 405, p. 2-17, jun, 1983. DOI: 10.1111/j.1749-6632.1983.tb31613.x Tradução de Waldemar Ferreira Netto

rápidas de amplitude em diferentes faixas de frequências podem ser aplicadas, também, para distinguir ponto de articulação de consoantes fricativas ([f v] versus [s z]), consoantes nasais ([m] versus [n]), e ainda consoantes oclusivas. A distinção entre labiais e alveolares em inglês também é feita pela trajetória dos formantes imediatamente seguintes à desoclusão consonantal — particularmente o segundo formante. Na FIGURA 6, por exemplo, vê-se que há uma grande separação entre o primeiro e o segundo formantes logo após a desoclusão de [d] (espectrograma à direita), enquanto que, imediatamente após a desoclusão de [b], esses dois formantes estão muito mais próximo um do outro (espectrograma ao centro). Essas duas propriedades — o curso do tempo da amplitude espectral em frequências altas, como na FIGURA 7, e a frequência inicial do segundo formante, em relação ao primeiro — dão-nos um exemplo de redundância que pode ser usado para indicar uma distinção fonética na língua.

FIGURA 7: (Acima) Dois espectra são mostrado em cada painel: um é uma amostra tomada na desoclusão da consoante oclusiva na sílaba indicada, e o outro (v) é uma amostra tomada após o ataque de vozeamento na vogal. As consoantes [d] e [t] estão representadas à esquerda e [b] e [p] à direita. Na região de frequências altas (acima de 2,5 Hz), a amplitude espectral média no ataque para [d] e [t] é igual ou maior do que na vogal seguinte, enquanto que para [b]e [p] a amplitude do espectro de alta frequência é menor do que a da vogal. (Abaixo) Representação esquemática de como a amplitude do espectro de alta frequência muda com o tempo para essas duas classes de sons representadas acima. Para [d] e [t] há um crescimento abrupto ou maior do que para o da vogal, enquanto que para [b] e [p] há um cresimento inicial no ataque, seguido por uma crescimento tardio na amplitude do início da vogal.

Distinções vocálicas Quando o trato vocal está relativamente aberto, a fonte de excitação acústica do trato está na proximidade da glote, e as mudanças no espectro do som não são muito rápidas. O som que resulta dessa configuração tem uma série de picos espectrais que correpondem às frequências naturais, ou formantes, do trato vocal. As frequências desses picos espectrais são 10

STEVENS, K. N. Acoustic properties used for the identification of speech sounds. Annals of the New York Academy of Sciences. v. 405, p. 2-17, jun, 1983. DOI: 10.1111/j.1749-6632.1983.tb31613.x Tradução de Waldemar Ferreira Netto

determinadas pela forma do trato vocal, que, por sua vez, é determinado pela posição da língua e pela configuração dos lábios. Diferentes classes de vogais são caracterizadas por diferentes padrões dessas frequências formantes, particularmente os dois ou três formantes mais baixos, que normalmente caem na faixa de frequência de até 3 KHz. Exemplos de algumas distinções vocálicas básicas estão ilustradas pelos espectrogramas e pelos espectra na FIGURA 8. Essas distinções são determinadas primeiramente pela frequência do primeiro formante. Para uma classe de vogais — as vogais altas como [i] (beat) e [u] (boot) — o pico espectral mais baixo está numa frequência baixa, de tal maneira que há uma pequena diminuição na amplitude do espectro para frequências abaixo desse pico. Essas vogais são produzidas pela elevação do corpo da língua para uma posição relativamente alta na boca. A classe constrastante de vogais — as vogais baixas, como [a] (father) e [æ] (bat) — tem o primeiro pico de formante numa frequência bem mais alta, de tal maneira que há um "vale" significativo no espectro abaixo desse pico. Outra distinção básica é determinada pela posição do segundo formante em relação ao primeiro e terceiro formantes. A classe de vogais posteriores, tal como [u] e [ɑ], caracteriza-se por um segundo formante que se localiza próximo ao primeiro formante. O vale no espectro entre os dois formantes é muito pequeno. Essa proximidade entre os dois primeiros formantes domina o espectro Os formantes mais altos têm um papel negligenciável na formação da qualidade vocálica. Vogais posteriores são produzidas com o corpo da língua deslocado em direção posterior na boca. Para vogais anteriores, tal como [i] e [æ], por outro lado, o segundo formante é bem separado do primeiro, e está localizado relativamente próximo ao terceiro formante. O segundo e o terceiro formantes (e, algumas vezes, também o quarto formante) combinam-se para formar uma proeminência espectral larga que se separa do primeiro formante por um vale relativamente profundo no espectro. Quando primeiro formante é baixo (isto é, para vogais anteriores altas), é possível deslocar o segundo e o terceiro formantes para frequências relativamente altas e, assim, as proeminências espectrais de frequência alta incluírem o quarto formante tão bem como o segundo e o terceiro. Para vogais baixas, entretanto, o adiantamento do corpo da língua não produz essas frequências altas para o segundo formante. Em acréscimo às duas classes vocálicas definidas por esses ajustes do primeiro e do segundo formantes (que dão origem a quatro vogais diferentes), é possível gerar outra classe de vogais tanto pela modificação da configuração das frequências formantes relativas a essas quatro vogais básicas, quanto pela modificação dos formantes ao longo do curso de tempo da vogal. Por exemplo, a ditongação ajuda a criar contrastes vocálicos adicionais, como podemos ver nos espectrogramas na FIGURA 9. Nessa figura, mostramos, no curso do tempo, o movimento dos formantes para três pares de palavras beet–bit, bait–bet e who'd–hood. Observamos que a vogal no segundo membro de cada par é mais breve, e que há diferenças na maneira de os formantes se moverem ao longo da vogal. Para vogais longas, o primeiro formante sempre se move descendo na frequência, e o segundo formante se move ascendendo para [i] e para [e] e descendo para [u]. Para as vogais breves de cada par, por outro lado, a trajetória dos formante se move em diferentes direções, e, assim, o contraste entre os membros de cada par é acentuado. Dessa maneira, por exemplo, para [ɪ], o segundo formante se move para baixo e o primeiro formante aumenta durante a vogal, de uma tal maneira que é exatamente o oposto dos movimento para [i].

11

STEVENS, K. N. Acoustic properties used for the identification of speech sounds. Annals of the New York Academy of Sciences. v. 405, p. 2-17, jun, 1983. DOI: 10.1111/j.1749-6632.1983.tb31613.x Tradução de Waldemar Ferreira Netto

FIGURA 8: Espectrogramas e espectra que ilustram as propriedades acústicas de diversas cactegorias vocálicas. As vogais em beet são vogais altas, que se caracterizam por um primeiro formante baixo, enquanto que as vogais em bat e em cot são vogais baixas com um primeiro formante alto. Nas vogais posteriores em boot e em cot, o segundo formante está próximo ao primeiro, enquanto que, em beet e bat, há uma diferença substancial entre esse dois formantes.

12

STEVENS, K. N. Acoustic properties used for the identification of speech sounds. Annals of the New York Academy of Sciences. v. 405, p. 2-17, jun, 1983. DOI: 10.1111/j.1749-6632.1983.tb31613.x Tradução de Waldemar Ferreira Netto

IDENTIFICAÇÃO DE PALAVRAS EM SENTENÇAS Com esse breve ensaio sobre algumas das propriedades que um ouvinte precisa detectar para fazer a distinção entre palavras, podemos examinar a tarefa com que o ouvinte se confronta quando lhe são apresentados os padrões acústics de uma sentença.

FIGURA 9: Espectrogramas que ilustram as diferenças enre vogais longas e vogais breves em inglês. Para cada par, as vogais tensas ou longas estão à esquerda, e as vogais relaxadas ou breves estão à direita. As vogais mostram diferenças não só na duração mas também na trajetória dos formantes.

Como ilustração, usamos a sentença "We take a winding path to de pond", discutida acima. Um espectrograma dessa sentença está apresentado na FIGURA 10, junto de amostras espectrais tomadas em momentos selecionados ao longo da sentença.

13

STEVENS, K. N. Acoustic properties used for the identification of speech sounds. Annals of the New York Academy of Sciences. v. 405, p. 2-17, jun, 1983. DOI: 10.1111/j.1749-6632.1983.tb31613.x Tradução de Waldemar Ferreira Netto

FIGURA 10: Espectrograma da sentença "We take a winding path to the pond" junto com espectras amostrados em pontos selecionados da sentença.

Na palavra inicial, há diversas propriedades que identificam a palavra e a distinguem de outras palavras possíveis: (1) nenhum ruído está presente no início da palavra; (2) após o ataque, o pico espectral move-se lentamente, e não há um aumento abrupto na amplitude; (3) há muito pouca energia espectral nas frequências altas e há uma energia substancial nas frequências baixas no ataque; (4) mais adiante na palavra, o primeiro pico espectral permanece baixo, e há um mínimo largo no espectro na faixa das frequências médias, tal como vai mostrado no espectro da vogal [i] nessa figura. Essas e outras propriedades são usadas pelo ouvinte para buscar seu léxico interno e identificar a palavra que é caracterizada por essa matriz de propriedades. Presume-se que diferentes itens lexicais estão representados na memória do ouvinte por matrizes de propriedades ou de traços desse tipo. Seguindo essa vogal [i], a propriedade relevante que o ouvinte precisa detectar inclui o ataque abrupto do silêncio, a falta de periodicidade nas frequências baixas durante o intervalo de fechamento, o ataque abrupto de energia na desoclusão de [t], a presença de ruído seguindo imendiatamente essa desoclusão, e um espectro difuso e ascendente próximo ao ataque, como é mostrado no painel para [t] na figura. Após o ataque do burst ruidoso, o ouvinte tem de ter sensibilidade para o fato de que há um retardo de mais do que 20 ms antes do início da vogal. Após o ataque do vozeamento da vogal, o primeiro formante (F1) está no meio de sua faixa, e o segundo formante (F2) está relativamente alto, indicando uma vogal anterior não baixa. A trajetória dos formantes (movimento descendente de F1 e ascendente de F2) também apresenta pistas para a identificação da palavra take. A vogal é seguida por uma fechamento abrupto ou uma redução na amplitude, um intervalo de silêncio, um ataque abrupto que é caracterizado por seu ruído e um espectro ruidoso que tem um pico dominante na faixa das 14

STEVENS, K. N. Acoustic properties used for the identification of speech sounds. Annals of the New York Academy of Sciences. v. 405, p. 2-17, jun, 1983. DOI: 10.1111/j.1749-6632.1983.tb31613.x Tradução de Waldemar Ferreira Netto

frequências médias, como é mostrado no espectro do ataque de [k] na figura. Essa sequência de propriedades é suficiente para o ouvinte buscar seu léxico e identificar a palavra take. Uma análise similar de propriedades acústicas relevantes poderia ser levada a cabo para as palavras subsequentes na sentença. Exmplo de espectra amostrados em pontos selecionados dessas palavras estão dados nessa figura. Assim, em cada uma das três palavras winding, path e pond, o espectro da vogal mostra um F1 relativamente alto com uma queda substancial na energia espectral abaixo de F1, indicando uma vogal baixa. Para a vogal em path, há um espaço entre F1 e F2, enquanto que para [ɑ], em winding e em pond, F2 está próximo de F1. Um ouvinte tem de ser sensível para esses padrões espectrais diferentes de maneira a identificar essas palavras. Também vai no painel do espectro de [æ] a amostra do espectro próximo à desoclusão da consoante inicial em path, indicando uma amplitude espectral que é fraca se comparada com a da vogal.

CONSIDERAÇÕES FINAIS Descrevemos um pouco das propriedades acústicas que têm de ser identificadas por um ouvinte para fazer distinção de palavras. Essas propriedades incluem a presença ou a ausência de periodicidade de frequências baixas, a presença ou a ausência de ruído ou aperiodicidade, amplitude alta versus amplitude baixa de ruído de turbulência, um aumento gradual na amplitude em oposição a um aumento abrupto, algumas característica gerais do espectro extraído proximamente à desoclusão de uma consoante e as posições relativas da dominância espectral para vogais. Presume-se que ocorra uma resposta distintiva pelo sistema auditivo do ouvinte em um ponto ou em um momento bem definido no tempo quando uma dessas propriedades está presente numa palavra. Presume-se que as palavras são armazenadas na memória em termos dos padrões dessas propriedades acústicas. Assim, quando um padrão particular de propriedades é detectado na onda da fala durante uma locução, o ouvinte é capaz de procurar no léxico e identificar a palavra que se encaixa melhor nesse padrão.

REFERÊNCIAS

1. JAKOBSON, R.; FANT, HALLE, M. Preliminaries to Speech Analysis. Cambridge, MA: MIT Press, 1963. 2. SACHS, M. B.; YOUNG, E. D. 1980. Effects of nonlinearities on speech encoding in the auditory nerve. Journal of Acoustical Society of America, n. 68, p. 858-875, 1980. 3. DELGUTTE, B. Representation of speech-like sounds in the discharge patterns of auditory-nerve fibers. Journal of Acoustical Society of America, n. 68, p. 843-857, 1980. 4. STEVENS, K,. N.; BLUMSTEIN, S.E. 1 981. The search for invariant acoustic correlates of phonetic features. In EIMAS, P.D. ; MILLER, J. L. (Eds.) Perspectives on the Study of Speech. Hilsdale, NJ: Lawrence Erlbaum Associates, 1981.

15

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.