Análise de Sinais de Voz para Caracterização de Patologias na Laringe

July 23, 2017 | Autor: V. J. D. Vieira | Categoria: Speech Processing, Digital Speech Processing, Recurrence plot
Share Embed


Descrição do Produto

˜ E COMUNICAC ˜ REVISTA DE TECNOLOGIA DA INFORMAC ¸ AO ¸ AO, VOL. 4, NO. 2, OUTUBRO 2014

Análise de Sinais de Voz para Caracterização de Patologias na Laringe Silvana C. Costa, Washington C. de A. Costa, Suzete E. N. Correia, Joseana M. F. R. de Araújo, Vinícius J. D. Vieira Instituto Federal de Educação, Ciência e Tecnologia da Paraíba – IFPB João Pessoa – Brasil {silvana,suzete,washington}@ifpb.edu.br, [email protected], [email protected] Resumo—Patologias na laringe causam distúrbios na voz que podem ser detectados por meio de técnicas de processamento digital de sinais. A análise acústica desses sinais, comparativamente a sinais de vozes produzidos por locutores com laringes saudáveis, pode ser empregada como uma ferramenta de apoio ao diagnóstico de patologias laríngeas, bem como ao tratamento terapêutico de disfonias e acompanhamento pré e pós-cirúrgicos. A eficiência do método depende de fatores tais como a escolha das características ou parâmetros que melhor representem a patologia ou o distúrbio vocal, bem como do método de classificação empregado. Este artigo apresenta alguns métodos baseados no modelo linear de produção da fala, como também na análise dinâmica não linear para a classificação de patologias na laringe. Palavras-Chave—Patologias na Laringe, Acústica, Análise linear, Análise não-linear.

Análise

Abstract—Laryngeal pathologies cause disturbances in the voice which can be detected by means of techniques of digital signal processing. The acoustic analysis of these signals compared to voices produced by speakers with healthy larynx, can be employed as a tool to support the diagnosis of laryngeal diseases, as well as therapeutic treatment of dysphonia and pre and postsurgery attendance. The method efficiency depends on factors such as the choice of characteristics or parameters that best represent the pathology or the voice disorders, as well as the classification method employed. This article presents some methods based on the linear model of speech production, as well as in the nonlinear dynamic analysis for classification of pathologies in the larynx.

Keywords—Laryngeal pathologies, Acoustic Analysis, Linear Analysis, Nonlinear analysis. I.

INTRODUÇÃO

T

écnicas de processamento digital têm sido empregadas na obtenção de características relevantes de sinais de vozes para a classificação ou detecção precoce de patologias laríngeas. A análise acústica, por meio dessas técnicas, permite a obtenção de uma ferramenta não invasiva de apoio ao diagnóstico e de baixo custo, comparada aos exames tradicionais baseados em videolaringoscopia [1,2]. Os métodos tradicionais de análise acústica de vozes alteradas empregam o pitch e medidas oriundas dele como jitter, shimmer, quociente de perturbação de amplitude (APQ –

Amplitude quociente perturbation), quociente de perturbação do pitch (PPQ), relação harmônica-ruído (HNR – harmonic-tonoise ratio), excitação do ruído glotal (GNE –Glottal to Noise Excitation), entre outras [3-7]. No entanto, sinais afetados por patologias severas apresentam dificuldades para obtenção do pitch tornando a análise por meio destes parâmetros, muitas vezes, prejudicada. Desta forma, surgem, em pesquisas mais recentes, métodos de análise de sinais patológicos baseados no modelo linear de produção da fala, que independem da obtenção do pitch. Como exemplo, pesquisas apontam medidas obtidas a partir do modelo fonte-filtro, a saber: os coeficientes de predição linear (LPC), coeficientes cepstrais e suas ponderações e coeficientes mel-cepstrais [1, 6-9]. A hipótese de que a voz é produzida por um sistema de fonte-filtro (modelo linear de produção da voz), no entanto, carrega intrinsecamente suas limitações. A presença de patologias na laringe acarreta, dependendo da severidade, alterações no padrão anatômico ou no padrão de vibração das pregas vocais [10]. O modelo não linear de produção da voz baseia-se em fatores que indicam não linearidades, tais como variação temporal da forma do trato vocal, as ressonâncias associadas à sua fisiologia, as perdas devido ao atrito viscoso nas paredes internas do trato vocal, a suavidade dessas paredes internas, a radiação do som nos lábios, o acoplamento nasal e a flexibilidade (comportamento dinâmico) associada à vibração das pregas vocais [11]. O estudo de modelos não lineares para representar a produção da voz tem se destacado em recentes pesquisas [12-15]. A transformada wavelet é uma ferramenta matemática que possui propriedades úteis e interessantes para o processamento de sinais, como: (i) a possibilidade de usar análise multiresolucional, que permite a análise de sinais em resoluções distintas, de modo que em cada escala aspectos diferentes sejam observados; (ii) o fato das wavelets não serem únicas, ou seja, existem na literatura vários tipos dessas funções, que podem ser selecionadas de acordo com a aplicação; (iii) a representação esparsa dos coeficientes, que é exatamente importante para a extração de características, por fornecer apenas um pequeno número de coeficientes não-nulos [16]. Diversas pesquisas têm sido realizadas empregando a

63

˜ E COMUNICAC ˜ REVISTA DE TECNOLOGIA DA INFORMAC ¸ AO ¸ AO, VOL. 4, NO. 2, OUTUBRO 2014

64

transformada wavelet na avaliação de desordens vocais provocadas por patologias laríngeas [17-24] e na detecção de desvios vocais [25]. Uma determinada característica, ou um vetor de características, pode representar bem a presença de um tipo de patologia, mas não ser relevante para outro. Portanto, a busca pelas características ou parâmetros mais representativos de desordens vocais provocadas por patologias na laringe é uma busca incessante. De posse das informações de quais parâmetros são mais relevantes para cada patologia de interesse, um sistema de apoio ao diagnóstico pode ser implementado com maior eficiência, apresentando altos índices de acurácia, com baixos valores de falso positivo e falso negativo. Ou seja, um estudo mais aprofundado e a escolha do melhor tipo de análise e de características proporciona um sistema especialista com alto índice de confiabilidade. Neste trabalho, estão apresentadas as principais pesquisas realizadas nos últimos anos, pelos autores, na discriminação entre sinais saudáveis e patológicos, afetados pelas patologias edema, nódulos paralisia nas pregas vocais. II.

TÉCNICAS BASEADAS NO MODELO LINEAR DE PRODUÇÃO VOCAL

As técnicas que vêm sendo utilizadas para a detecção de patologias na laringe, explorando o modelo linear de produção vocal, o modelo fonte-filtro, empregam como características representativas dos sinais de voz: coeficientes de predição linear (LPC), coeficientes cepstrais, delta cepstrais e suas versões ponderadas, coeficientes mel-cepstrais [1, 2, 8, 9].

parâmetros da fonte e do sistema devem ser escolhidos de forma tal que a saída resultante tem as propriedades semelhantes à voz desejada. Se isto puder ser feito, o modelo serve como uma base útil para o processamento de sinais de voz [26].

Figura 2: Modelo simplificado de produção da fala [27].

Um modelo detalhado para geração propagação e irradiação do som pode, em princípio, ser solucionado com valores adequados dos parâmetros da excitação e do trato vocal para calcular uma forma de onda da voz na saída. A teoria acústica fornece uma técnica simplificada, bastante utilizada, para modelar sinais de voz, que apresenta a excitação separada do trato vocal e da radiação. Os efeitos da radiação e do trato vocal são representados por um sistema linear variante no tempo [26]. O modelo completo é mostrado na Figura 2. A modelagem do sistema de produção da voz humana na codificação LPC é feita de forma que para a produção dos sinais sonoros é gerado um trem de impulsos unitários cuja periodicidade é determinada pelo período de pitch (T0 =1/F0), em que F0 representa a frequência de vibração das pregas vocais (frequência fundamental). Esse trem de pulsos é aplicado a um filtro digital G(z) que simula o efeito dos pulsos glotais, que são devidamente selecionados e aplicados ao trato vocal, após um controle de ganho. Para a produção dos sinais não-sonoros (sons surdos), é utilizado um gerador de ruído aleatório com espectro plano e um controle de ganho [26].

Figura 3: Modelo geral discreto no tempo para produção de fala [27].

Figura 1: Diagrama de processamento de sinais da voz para detecção de patologias na laringe.

A. Análise de voz por predição linear A teoria acústica da produção da fala é constituída de representações matemáticas do processo de produção da fala e tem sido usada como base para toda a análise e síntese realizada com os sinais da fala [26]. O modelo básico para produção da fala é constituído por um gerador de excitação e um sistema linear variante no tempo (Figura 1). O gerador de excitação deve fornecer dois tipos de saída: um trem de pulsos (glotais) para sinais sonoros e ruído aleatório para sinais não-sonoros. Os efeitos de radiação dos lábios e do trato vocal são produzidos pelo sistema linear. Os

No caso de análise por predição linear, as funções do pulso glotal, radiação e componentes do trato vocal, podem ser combinadas em uma única função H(z), representando o processo de produção da fala, como descrito na Equação 1. H(z) = G(z).V(z).R(z)

(1)

em que G(z), V(z) e R(z), representam a transformada Z dos modelos do pulso glotal, do trato vocal e da radiação, respectivamente. O método de predição linear estima cada amostra atual de voz baseado numa combinação linear de n amostras anteriores, em que um n maior permite um modelo mais preciso. Esta análise fornece um conjunto de parâmetros da fala que representa o trato vocal [26]. Um preditor linear com coeficientes de predição, α(k), é definido como um sistema cuja saída é dada pela Equação 2.

˜ E COMUNICAC ˜ REVISTA DE TECNOLOGIA DA INFORMAC ¸ AO ¸ AO, VOL. 4, NO. 2, OUTUBRO 2014

(2)

65

Na Figura 5 é apresentada a representação do cepstro para um sinal de voz patológico, é possível observar a diminuição do pico devido à presença da patologia.

em que α(k) são os coeficientes de predição, s(n-k) são as amostras passadas e p é a ordem do preditor. Um valor de p maior representa um modelo mais preciso do sinal de voz. Existem várias formulações diferentes para a predição linear, sendo que algumas delas são equivalentes entre si. O método da autocorrelação, método utilizado neste trabalho, e o método da covariância são dois métodos padrões de solução para cálculo dos coeficientes do preditor [26, 28]. Ambos os métodos são baseados na minimização do valor médio quadrático do erro de estimação e(n), ou sinal residual, que é descrito pela Equação 3. (3) B. Análise Cepstral A análise cepstral do sinal de voz para o estudo das alterações laríngeas pode ser muito útil, uma vez que permite se trabalhar com o sinal da glote (excitação) separadamente das repercussões ressonantes do trato vocal, facilitando o entendimento das modificações que ocorrem nas pregas vocais. A aplicação dessa técnica, no estudo do sinal acústico de vozes alteradas, poderia detectar modificações no sinal de voz que se relacionem com as alterações laríngeas e, consequentemente, identificar modelos para uma classificação, permitindo a obtenção de uma ferramenta de diagnóstico não-invasiva [29]. Na Figura 4 é apresentada a representação do cepstro para um sinal de voz normal em que o pico correspondente ao período fundamental (excitação) está próximo da quefrência de 10 ms, separado das componentes do trato vocal, que são as de baixas quefrências.

Figura 5: Cepstro de uma voz patológica [2].

Os coeficientes cepstrais podem ser obtidos a partir dos coeficientes LPC, mantendo a validade para análise dos efeitos das mudanças provocadas pelas pregas vocais no sinal de voz. Mantendo-se o trato vocal inalterado, ou seja, supondo que o trato vocal é saudável, as mudanças ocorridas no parâmetro, pelas alterações vocais, serão consideradas como sendo provenientes da excitação. C. Coeficientes Cepstrais (CEP) Os coeficientes cepstrais podem ser calculados recursivamente a partir dos coeficientes de predição linear, α(k), por meio da Equação 4 [30]. O uso dessa recursão permite um cálculo eficiente dos coeficientes cepstrais e evita fatoração polinomial. c(1)   (1)  n 1 c (n)   (n)  1  j  ( j )c(n  j ) ,  i  n j 1  

1 n  p

(4)

em que n é o índice do coeficiente. Os coeficientes cepstrais obtidos pela Equação 4 fornecem uma boa medida das diferenças na envoltória espectral dos segmentos de voz em análise. Estes coeficientes são utilizados para observar as informações das transições do sinal de voz patológico comparadas ao sinal de voz normal.

D. Coeficientes Delta Cepstrais (DCE) Figura 4: Cepstro para uma voz normal [2].

Os coeficientes Cepstrais representam as propriedades espectrais de um dado bloco de amostras de voz. Entretanto, estes não caracterizam a informação temporal ou de transição de uma sequência de blocos de amostras de voz. Para se obter um aumento de desempenho é introduzida a derivada cepstral que captura a informação de transição da voz. A primeira derivada do cepstrum (também conhecida como Delta Cepstrum), , é definida pela Equação 5 [30]: K c(n, t )  ci (n)    kc(n, t  k ) t k  K

(5)

em que c(n, t) é o n-ésimo coeficiente da predição linear no tempo t, ø é uma constante de normalização e 2K+1 é o número de quadros sobre os quais o cálculo é realizado.

66

˜ E COMUNICAC ˜ REVISTA DE TECNOLOGIA DA INFORMAC ¸ AO ¸ AO, VOL. 4, NO. 2, OUTUBRO 2014

Os coeficientes delta cepstrais também podem ser obtidos como uma versão simplificada da Equação 5, da forma [30]:

avaliação da qualidade vocal. Uma descrição sucinta da análise mel-cepstral é apresentada a seguir. G. Análise mel-cepstral

 K  ci (n)    kci q (n)G  q  K 

1 n  p

(6)

onde G é um termo de ganho (por exemplo: 0,375), p é o número dos coeficientes delta cepstrais, K = 2, n representa o índice de coeficiente e i o quadro de análise. E. Coeficientes Cepstrais Ponderados (CPP) Com o objetivo de minimizar a sensibilidade dos coeficientes cepstrais de baixa ordem em relação à envoltória espectral e à sensibilidade dos coeficientes cepstrais de alta ordem em relação ao ruído, é empregada a ponderação cepstral, também conhecida como liftering ou suavização [30]. A ponderação é obtida multiplicando-se por uma janela (a escolha correta da janela melhora a robustez), obtendose assim, o cepstrum ponderado (Equação 7), como um vetor de características. cwi (n)  ci (n).w(n)

(7)

Geralmente, é a filtragem linear (liftering) passa-faixa (Bandpass liftering– BPL) dada pela Equação 8, é mais comumente empregada.

Os coeficientes mel-cepstrais (Mel-frequency Cepstral Coefficients – MFCC) surgiram devido aos estudos na área de psicoacústica (ciência que estuda a percepção auditiva humana), que mostraram que a percepção humana das frequências de tons puros ou de sinais de voz não segue uma escala linear. Para cada tom com frequência f, medida em Hz, define-se um tom subjetivo medido em uma escala que se chama escala mel. O mel, então, é uma unidade de medida da frequência percebida de um tom [28]. A diferença entre o cálculo dos coeficientes cepstrais e dos coeficientes mel-cepstrais está na aplicação de um banco de filtros digitais ao espectro real do sinal, antes da aplicação da função logarítmica. Tais filtros, não estão linearmente espaçados no domínio da frequência. O mapeamento entre a escala de frequência real, em Hz, e a escala de frequências percebida, em mel, é aproximadamente linear abaixo de 1000 Hz e, logarítmica, acima. Logo, o espaçamento dos filtros digitais deve respeitar a escala de frequências percebidas (escala Mel). A função de mapeamento da frequência acústica f (em Hz) para uma escala de frequências percebidas Mel (em mels) é dada por Fmel  2595  log10 (1 

(8) onde L é o tamanho da janela. A ponderação linear ajusta cada componente cepstral individualmente pelo índice n, suavizando as componentes de ordem inferior. A BPL pondera uma sequência de coeficientes cepstrais por uma função senoidal deslocada, de forma que as componentes de baixa e de alta ordem são de-enfatizadas. O esquema de ponderação descrito é baseado na ideia de que os pesos são apenas função do índice do coeficiente cepstral e não tem nenhuma relação explícita com as variações instantâneas dos coeficientes cepstrais, que são introduzidas pelas condições ambientais, como por exemplo, o ruído, os efeitos do canal.

Os coeficientes delta-cepstrais ponderados (DCP) são obtidos a partir das Equações 7 e 8, associando as características dos coeficientes cepstrais ponderados com os delta-cepstrais, resultando na Equação 9:  L  n  1  sin , N  1,2,..., L w(n)   2  L   0, caso contrário 

(10)

em que Flinear é a frequência linear (em Hz) e Fmel é a frequência percebida (em mel). Após o pré-processamento dos sinais, os coeficientes mel cepstrais são obtidos para cada segmento do sinal, de acordo com os seguintes passos [28]: 







F. Coeficientes Delta Cepstrais Ponderados (DCP)

Flinear ( Hz ) ), 700

É calculado do espectro de magnitude do sinal, x(n), a partir do módulo da transformada de Fourier (|FFT(x(n)|2); Aplicação do banco de filtros triangulares em escala mel. São utilizados geralmente 20 filtros de formato triangular. No entanto, a quantidade de filtros é baseada na frequência de amostragem (Fa) (3.ln(Fa)). Cálculo do logaritmo da energia de saída de cada filtro. A aplicação do logaritmo é necessária para a obtenção do cepstro. Finalmente, o processo de obtenção dos coeficientes MFCC pode ser matematicamente descrito por [26,28]: Nf 1  ( n)   log( Sf ( k )).cos[ n( k  )]. c mel 2 Nf k 1

n  0,1, ...., Nf

(11)

em que Nf é o número de filtros digitais utilizados, cmel(n) é o n-ésimo coeficiente mel-cepstral e Sf(k) é o sinal de saída do banco de filtros digitais, dado por

(8)

Espera-se que, qualquer mudança na estrutura anatômica do trato vocal, devido à patologia, afete os coeficientes LPC (Linear Prediction Coding) como também os cepstrais e seus derivados. Os coeficientes mel-cepstrais também são indicados em análise acústica de sinais de voz para

Sf ( k ) 

NFFT  Wk ( j ). X ( j ) j 1

k  1, ..., Nf ,

(12)

em que Wk(j) são as janelas de ponderação triangulares associadas às escalas-mel e X(j) é o espectro de magnitude da FFT de N pontos [26,28].

˜ E COMUNICAC ˜ REVISTA DE TECNOLOGIA DA INFORMAC ¸ AO ¸ AO, VOL. 4, NO. 2, OUTUBRO 2014

III.

TÉCNICAS BASEADAS NA ANÁLISE DINÂMICA NÃOLINEAR DE SINAIS DE VOZES.

O uso do modelo linear para a produção da fala tem obtido sucesso na discriminação entre vozes saudáveis e patológicas. Estudos mais recentes têm apontado para a evidência do caos na voz humana, aumentando o interesse do uso da análise acústica baseada na análise dinâmica não linear [11-15] A análise dinâmica não linear de sinais de voz leva em consideração aspectos da voz humana não explorados na abordagem linear, tais como: variação temporal da forma do trato vocal, as ressonâncias associadas à sua fisiologia, as perdas devido ao atrito viscoso nas paredes internas do trato vocal, a suavidade dessas paredes internas, a radiação do som nos lábios, o acoplamento nasal e a flexibilidade (comportamento dinâmico) associada à vibração das pregas vocais [31]. Em trabalhos anteriores, foram empregadas, oriundas da análise dinâmica não linear as seguintes medidas: Dimensão de correlação, entropia de correlação, entropia aproximada, entropia de Shannon, entropia de Tsallis, expoente de Hurst, maior expoente de Lyapunov e primeiro mínimo da função de informação mútua, além da combinação de medidas lineares e não lineares [12, 32, 33]. Em anos mais recentes, vem se destacando a Análise de Quantificação de Recorrência como uma técnica promissora na análise da qualidade vocal. Os gráficos de recorrência apresentam estruturas (pontos de recorrência, linhas diagonais e verticais) que se modificam com as mudanças em amplitude e frequência provocadas no sinal de voz pela presença de um desvio vocal (rugosidade, soprosidade, tensão, entre outros) seja ele provocado por uma patologia na laringe (de origem orgânica ou neurológica) ou resultante de abuso vocal e maus hábitos sociais como tabagismo e alcoolismo. Neste trabalho, será dada ênfase às medidas de quantificação de recorrência por ser uma técnica mais recente e que tem se destacado como mais uma opção na área de análise acústica unindo avaliação visual e quantitativa dos sinais de voz.

67

x x x instante i . A distância entre os estados i e j é calculada por meio de alguma norma ||.|| (geralmente a norma Euclidiana). Se essa distância for menor que o raio ε, a função degrau unitário θ coloca valor 1, o qual representa um ponto preto no Gráfico de Recorrência. Caso contrário, o valor é 0, representado por um ponto branco. Exemplos de Gráficos de Recorrência são apresentados na Figura 5 para um segmento de 800 amostras (32 ms) para a vogal sustentada /ah/ de um dos sinais de cada classe avaliada neste trabalho. As medidas de quantificação de recorrência foram propostas inicialmente por [36] e consolidadas posteriormente por [35], como uma análise objetiva das estruturas formadas nos Gráficos de Recorrência. As principais medidas de recorrência são: -Taxa de Recorrência, que mede a densidade dos pontos de recorrência; - Determinismo, a qual está relacionada com a previsibilidade do sistema; - Comprimento máximo das linhas diagonais; - Entropia de Shannon que representa a distribuição de frequências dos comprimentos das linhas diagonais e reflete a complexidade da estrutura determinística presente no sistema; - Laminaridade, que fornece a quantidade de estruturas verticais presentes no Gráfico de Recorrência, e representa a ocorrência de estados recorrentes que não mudam com o tempo; - Tempo de Permanência (Trapping Time) – conhecido como o comprimento médio dos estados laminares; e - Comprimento máximo das linhas verticais. 900

900

800

800

700

700

600

600

500

500

400

400

300

300

200

200

100

100 200

400

600

200

800

400

(a)

600

800

(b)

A. Análise de Quantificação de Recorrência Os Gráficos de Recorrência foram propostos por [34] como uma técnica de análise de sistemas dinâmicos, a fim de proporcionar uma visualização do comportamento da trajetória do espaço de fases multidimensional [35]. Basicamente, os Gráficos de Recorrência são matrizes quadradas preenchidas por zeros e uns. Nos pontos em que houver a unidade, significa que esses pontos são recorrentes, ou seja, os estados do sistema dinâmico, referentes a esses pontos, visitam regiões próximas uns dos outros na trajetória do espaço de fases [14]. Matematicamente, um Gráfico de Recorrência pode ser definido por:





Rim, j,     xi  x j , xi m ,

(13)

com i, j = 1, ...., N Em que N é o número de variáveis xi formadas do sistema, ε é o raio de vizinhança aplicado no

900

900

800

800

700

700

600

600

500

500

400

400

300

300

200

200 100

100 200

400

600

(c)

800

200

400

600

800

(d)

Figura 6: Gráfico de Recorrência obtido de um sinal de voz: (a) saudável,

com m=3 e τ=9; (b) afetado por paralisia nas pregas vocais, com m=3 e τ=12; (c) afetado por edema de Reinke, com m=2 e τ=7; (d) afetado por nódulos, com m=3 e τ=9.

˜ E COMUNICAC ˜ REVISTA DE TECNOLOGIA DA INFORMAC ¸ AO ¸ AO, VOL. 4, NO. 2, OUTUBRO 2014

68

IV.

ANÁLISE WAVELET

A transformada wavelet contínua permite uma análise dos sinais de voz por meio de escalogramas, uma representação tempo-frequência do sinal [19,20]. Através da transformada wavelet discreta características como energia, entropia e expoente de Hurst podem ser usadas para representar os sinais analisados em várias resoluções diferentes [25,37]. A. Transformada Wavelet Contínua Os coeficientes da transformada wavelet contínua de uma função x(t) de energia finita são obtidos pela Equação (14). 

WX (a, b, )   x(t )

* a ,b

(t ) dt.

(14)



1 a

t b  a  0, b  R.  a 



(17)

d j (k )   g (m  2k )c j 1 (m).

(18)

m

m

As Equações (17) e (18) representam operações de filtragem usando a resposta ao impulso de filtros passa-baixas h e passa altas g. A transformada wavelet discreta é obtida através de filtragens sucessivas pelos filtros h e g. O sinal filtrado é subamostrado para manter o critério de Nyquist. Se o sinal original possui N amostras, os coeficientes wavelets cj(k) e dj(k) possuem, cada um, 2j N amostras [16]. A energia e a entropia dos coeficientes de detalhes da transformada wavelet podem ser calculadas em cada resolução por [26]:

em que o asterisco representa o conjugado complexo e ψa,b(t) são as wavelets geradas pela dilatação e translação de uma função wavelet mãe ψ(t), definida por:  a ,b (t ) 

c j (k )   h(m  2k )c j 1 (m),

Ej 

| d  (| c

j

(k ) |2

k

j

(19)

(k ) |2  | d j (k ) |2 )

k

(15)

A variável a representa o parâmetro da escala, b o parâmetro da translação, e os dois variam continuamente. O fator a-1/2 é utilizado para garantir a preservação de energia da transformada [37]. A análise multirresolucional da transformada wavelet é realiza através da variação do valor de a. Pequenos valores de escala permitem uma análise em altas frequências, enquanto valores altos permitem uma análise em baixas frequências. A transformada wavelet contínua mapeia um sinal unidimensional no tempo em uma representação bidimensional tempo-frequência. O módulo ao quadrado da transformada wavelet é definido como escalograma wavelet e mostra como a energia do sinal varia com o tempo e com a frequência. Os padrões obtidos pelo escalograma dependem da família wavelet empregada. Na avaliação de desordem vocais a wavelet Chapéu Mexicano tem sido comumente usada [19]. A Figura 6 ilustra os escalogramas de voz saudável e afetada por paralisia e edema de Reinke nas pregas vocais.

(a)

(b) B. Transformada Wavelet Discreta A versão discreta da transformada wavelet é obtida definindo a = 2j e b = k.2j, em que j e k são números inteiros. Na análise multirresolucional, além da wavelet mãe ψ(t), é empregada na decomposição outra função ortogonal denominada função escalonamento, ϕ(t). Todas as funções base são obtidas pela translação e escalonamento dessas funções. Uma função contínua x(t) pode ser decomposta em termos das funções base wavelet e escalonamento por: f (t )   ( c j (k ) j ,k (t )  d j (k ) j ,k (t ) ),

(c)

(16)

k

em cj(k) and dj(k) denotam os coeficientes wavelets de aproximação e detalhes, na resolição j, definidos por:

Figura 7: Escalogramas obtidos de um sinal de voz: (a) saudável; (b) afetado por paralisia nas pregas vocais; (c) afetado por edema de Reinke.

e por H j   p j (k ) log p j (k ), k

(20)

˜ E COMUNICAC ˜ REVISTA DE TECNOLOGIA DA INFORMAC ¸ AO ¸ AO, VOL. 4, NO. 2, OUTUBRO 2014

| d j (k ) |2 . em que p j (k )   | d j (k ) |2 k

A energia dos coeficientes de detalhe como característica, pode ser útil para identificar o quanto a energia do sinal de voz encontra-se distribuída ao longo da frequência. A entropia pode avaliar as irregularidades presentes nos sinais de vozes afetados por desordens vocais. O parâmetro de Hurst, obtido por meio da transformada wavelet discreta, foi investigado como extrator de características, para diferenciar vozes saudáveis de vozes afetadas por edema de Reinke, paralisia e nódulo nas pregas vocais [37]. Na estimativa do expoente de Hurst por meio da transformada wavelet discreta, considera-se o fato da decomposição wavelet fornecer coeficientes em uma determinada escala j, associados à quantidade média de energia Гj. A energia do sinal Гj é calculada por meio da média dos coeficientes de detalhes dj(k), da seguinte forma: 1 (21)  | d j (k ) |2 nj k em que nj é a quantidade de coeficientes wavelets no nível de decomposição j e o parâmetro k corresponde à localização. Uma estimativa para o expoente de Hurst (H) segue da regressão linear de log2(Гj) por j. O coeficiente angular γ dessa reta ajustada fornece uma estimativa para H por meio da relação γ = 2H ± 1, em que H = γ+ / para γ < , e H = γ-1)/2 para γ > 1. j 

V.

CONCLUSÃO

Diversas abordagens tem sido utilizadas na discriminação entre vozes saudáveis e vozes afetadas por patologias laríngeas, no intuito de se chegar ao melhor método de apoio ao diagnóstico. A escolha das características mais adequadas para uma patologia específica é um campo ainda a ser bastante explorado, dado que uma característica, ou um conjunto pode representar bem uma desordem vocal provocada por uma patologia, mas não ser adequada para outro tipo. Os métodos empregados até então, seja por análise linear ou não linear tem apresentado resultados bastante promissores. Ainda falta definir, com exatidão, quais as melhores para cada caso. As dificuldades de comparação são muitas devido ao uso de base de dados diferentes, métodos de análise e de processamento diversificados. Entretanto, já se pode verificar que as pesquisas tem apresentado a análise acústica como uma forma eficaz, segura e não invasiva que pode ser empregada para auxílio ao diagnóstico médico e acompanhamento de tratamento pré e pós-cirúrgicos de patologias laríngeas. REFERÊNCIAS [1] J. I. Godino-Llorente, P. Gómez-Vilda, M. B. Velasco. “Dimensionality Reduction of a Pathological Voice Quality Assessment System Based on Gaussian Mixture Models and ShortTerm Cepstral Parameters”. IEEE Transactions on Biomedical Engineering, Vol. 53, No. 10, 2006. [2] S. L. do N. C. Costa. Análise Acústica Baseada no Modelo Linear de Produção da Fala, para Discriminação de Vozes Patológicas.

69

Tese de doutorado. Universidade Federal de Campina Grande (UFCG), 2008, 161p. [3] V. Valadez et al. “Voice Parameters and Videonasolaryngoscopy in Children with Vocal Nodules: A Longitudinal Study, Before and After Voice Therapy”. International Journal of Pediatric Otorhinolaryngology, v. 76, p.1361-1365, 2012. [4] J. I. Godino-Llorente et al. “The Effectiveness of the Glottal to Noise Excitation Ratio for the Screening of Voice Disorders”. Journal of Voice, v. 24, n. 1, p. 47-56, 2010. [5] M. K Arjmandi et al. “Identification of Voice Disorders Using Long-time Features and Support Vector Machine with Different Feature Reduction Methods”. Journal of Voice, v. 25, n. 6, p. e275e289, 2011. [6] Hakkesttegt, M. M. et al. “The Relationship Between Perceptual Evaluation and Objective Multiparametric Evaluation of Dysphonia Severity”. Journal of Voice, v. 22, n. 2, p. 138-145, 2008. [7] B. Garcia et al. “Multiplatform Interface Adapted to Pathological Voices. In: Signal Processing and Information Technology, 2005. Proceedings of the Fifth IEEE International Symposium on. IEEE, p. 912-917, 2005. [8] B.G. Aguiar Neto, S. C. Costa, J.M. Fechine, M. Muppa. “Acoustic Features of Disordered Voices Under Vocal Fold Pathology”. 19th International Congress on Acoustics (ICA’07), Madrid, September 2007a. Disponível em http://www.seaacustica.es/WEB_ICA_07/fchrs/papers/cas-03003.pdf. [9] B. G. Aguiar Neto, J. M. Fechine, S. C. Costa, “Feature Estimation for Vocal Fold Edema Detection Term Cepstral Analysis”. Proceedings of the 7th Conference on Bioinformatics and Bioengineering, page(s) 1158-1162, 2007b.

M. MUPPA. Using ShortInternational 14-17 Oct.,

[10] M. Behlau Voz - O livro do Eespecialista. Volume I. Rio de Janeiro: Revinter, 2001. [11] A. Kumar, S. K. Mullick. “Nonlinear Dynamical Analysis of Speech”. The Journal of the Acoustical Society of America, v. 100, p. 615, 1996. [12] W. C. de A. Costa, S. L. do N. C. Costa, F. M. Assis , B. G. Aguiar Neto. “Classificação de sinais de Vozes Saudáveis e Patológicas por meio da Combinação entre Medidas da Análise Dinâmica não Linear e Codificação Preditiva Linear”. Revista Brasileira de Engenharia Biomédica, v. 29, p. 3-14, 2013. Disponível em http://rbeb.org.br/files/v29n1/v29n1a01.pdf. [13] P. Henríquez. et al. “Characterization of Healthy and Pathological Voice Through Measures Based on Nonlinear Dynamics”. Audio, Speech, and Language Processing, IEEE Transactions on, v. 17, n. 6, p. 1186-1195, 2009. [14] V. J. D. Vieira, et al. Discriminação de Sinais de Voz com Análise de Quantificação de Recorrência e Redes Neurais MLP. In: Anais do XXXI Simpósio Brasileiro de Telecomunicações (SBrT 2013), p.1-4, 2013. [15] Y. Zhang, J. Jiang, “Acoustic Analyses of Sustained and Running Voices from Patients with Laryngeal Pathologies”. Journal of Voice, v. 22, n. 1, p. 1-9, 2008. [16] S. Mallat, A Wavelet Tour of Signal Processing, Academic Press, 1999. [17] A. Parraga, A. Aplicação da Transformada Wavelet Packet na Análise e Classificação de Sinais de Vozes Patológicas. Universidade Federal do Rio Grande do Sul. Dissertação de Mestrado, 2002. [18] E. Fonseca, R. Guido, P. Scalassara, C. Maciel, e J. Pereira. “Wavelet Time-frequency Analysis and Least Squares Support Vector Machines for the Identification of Voice Disorders”. Computers in Biology and Medicine, v. 37, p. 571-578, 2007.

70

˜ E COMUNICAC ˜ REVISTA DE TECNOLOGIA DA INFORMAC ¸ AO ¸ AO, VOL. 4, NO. 2, OUTUBRO 2014

[19] J. Nayak, P. Bhat, R. Acharya e U. Aithal. “Classification and Analysis of Speech Abnormalities”. ITBM-RBM, v. 27, 2005. [20] P. Kulharchik, D. Martynov, I. Kheidorov e O. Kotov. “Vocal Fold Pathology Detection using Modified Wavelet-Like Features and Support Vector Machinnes”, 15th European Signal Processing Conference (EUSIPCO 2007), 2007. [21] R. Behroozmand, e F. Almasganj. “Optimal Selection of Wavelet-packet-based Features using Genetic Algorithm in Pathological Assessment of Patient´s Speech Signal with Unilateral Vocal Fold Paralysis”. Computers in Bioloy and Medicine, v. 37, 2007. [22] L. Salhi.; M. Talbi and A. Cherif. “Voice Disorders Identification Using Hybrid Approach: Wavelet Analysis and Multilayer Meural Networks”, World Academy of Science, Engineering and Technology, 45, pp. 330-339, 2008. [23] P. T. Hosseini e F. Almasganj. “Different Other Wavelets and Pathological Voice”. 2nd International Conference on Computer, Control and Communication ( ICA 2009), 2009. [24] S. E. N. Correia, W. C. A. Costa, S. L. N. C. Costa. “Detecção Automática de Patologias Laríngeas usando a Transformada Wavelet Discreta”. Em: Anais do 11th Brazilian Congress on Computational Intelligence (CBIC), 2013. [25] J. S. Lima, S. G. Vilela, S. C. Costa, W. C .A. Costa, S. E. N. Correia. “Autossimilaridade de Sinais de Voz Baseada em Wavelets na Detecção de Patologias Laríngeas”. Em: Anais do XXXI Simpósio Brasileiro de Telecomunicações, 2013. [26] L. R. Rabiner, R.W. Schafer. Digital Processing of Speech Signals. New Jersey: Prentice-Hall, 1978. [27] S. C Costa, B. G. Aguiar Neto, J. M. Fechine, S. Correia. “Parametric Cepstral Analysis for Pathological Voice Assessment. Proceedings of The 23rd ACM Symposium on Applied Computing 2008 (ACM SAC’ 2008). Computer Applications in Health Care Track, Pages 1410-1414, Fortaleza, Ceará, Brazil, March 16-20, 2008. [28] D. O’Shaughnessy. Speech Communications: Human and Machine. 2nd Edition, NY, IEEE Press, 2000. [29] I. C. Zwetsch, R. D. Ribeiro, T. R Fagundes, D. Scolari. “Processamento Digital de Sinais no Diagnóstico Diferencial de Doenças Laríngeas Benignas”. Scientia Medica, Porto Alegre: PUCRS, Vol. 16, n. 3, jul./set. 2006. [30] R. J. Mammone, X. Zhang, R. P. Ramachandran. “Speaker Recognition - A Feature-Based Approach”. IEEE Signal Processing Magazine, Vol. 13, No. 5, pages 58-71, September 1996. [31] A. Kumar, S. K. Mullick. “Nonlinear Dynamical Analysis of Speech”. The Journal of the Acoustical Society of America, v. 100, p. 615, 1996. [32] W. C. de A. Costa. Análise Dinâmica não Linear de Sinais de Voz para Detecção de Patologias Laríngeas. Universidade Federal de Campina Grande, Tese de Doutorado, 176 p., 2012. [33] R. T. Vieira, S. C. Costa, S. C ; N. Brunet, S. E. N. Correia, B. G. Aguiar Neto, J. M. Fechine. “Combining Entropy Measures and Cepstral Analysis for Phatological Voices Assessment”. Journal of Medical and Biological Engineering, v. 32, p. 429-436, 2012. [34] J. P. Eckmann, S. O Kamphorst, D. Ruelle. “Recurrence Plots of Dynamical Systems”. Europhysics Letters, v. 4, p. 973-977, 1987. [35] N. Marwan. Encounters with Neighbours. University of Potsdam. PhD Thesis, 159 p., 2003. [36] C. L. Webber, J. P. Zbilut. “Dynamical Assessment of Physiological Systems and States Using Recurrence Plot Strategies”. Journal of Applied Physiology, v. 76, n. 2, p. 965-973, 1994.

[37] M. O. Santos, S. C. Costa, W. C. de A. Costa, S. E. N. Correia e L. W. Lopes. “Avaliação dos Distúrbios Vocais em Crianças Usando Características Baseadas na Transformada Wavelet”. Em: Anais do XIV Congresso Brasileiro em Engenharia Biomédica, 2014.

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.