Reconhecimento de Palavras Isoladas Utilizando Fluxó Optico e Redes Neurais Artificiais através de Informações Visuais

June 3, 2017 | Autor: Thiago Ferraz | Categoria: Automatic Speech Recognition, Speech Recognition, Speech Communication, Artificial Neural Networks, Presentation of Paper in a Seminar, Principal component analysis (PCA)

Share Embed

Denunciar este link

Descrição do Produto

Reconhecimento de Palavras Isoladas Utilizando Fluxo ´ Optico e Redes Neurais Artificiais atrav´es de Informa¸co˜es Visuais Thiago V. D. Ferraz1

Dr. Gustavo F. Rodrigues2

1,2 Departamento

das Engenharias de Telecomunica¸c˜ oes e Mecatrˆ onica Universidade Federal de S˜ ao Jo˜ ao del-Rei

XXXIII Simp´ osio Brasileiro de Telecomunica¸c˜oes Juiz de Fora - MG

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

1 / 29

Roteiro 1

Introdu¸c˜ao

2

Objetivos

3

Toolbox de Vis˜ao Computacional

4

´ Fluxo Optico

5

An´alise de Componentes Principais

6

Metodologia

7

Resultados

8

Considera¸c˜oes Finais

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

2 / 29

Introdu¸c˜ao

Sistemas de reconhecimento de fala que utilizam somente informa¸c˜oes ac´ usticas possuem limita¸c˜ oes em seu desempenho, como: falta de robustez devido ao ru´ıdo. Motiva¸c˜ ao Diversos estudos tˆem demonstrado que a combina¸c˜ao de informa¸c˜oes visuais em sistemas reconhecedores de fala pode melhorar significativamente sua robustez. Surge o Reconhecimento de fala audiovisual (AVSR, Audio Visual Speech Recognition).

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

3 / 29

Introdu¸c˜ao

A partir do AVSR, surge uma nova abordagem de estudos que se mostra promissor. Reconhecedor de fala que utiliza caracter´ısticas de natureza n˜ ao ac´ ustica. (VSR, Visual Speech Recognition). Principal vantagem: imune ` as pertuba¸c˜ oes no canal ac´ ustico.

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

4 / 29

Objetivos

Implementa¸c˜ao de um sistema VSR utilizando como plataforma de desenvolvimento o MATLAB (Matrix Laboratory ). Combina¸c˜ao de duas t´ecnicas extratoras caracter´ısticas visuais. ´ Fluxo Optico (Optical Flow ). An´alise de Componentes Principais (PCA, Principal Component Analysis). Obter reconhecimento dos d´ıgitos de 0 a 9, atrav´es do classificador de dados, Redes Neurais Artificiais (ANNs, Artificial Neural Networks).

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

5 / 29

Sistema Proposto

Dados Visuais dos D´ıgitos (V´ıdeo)

Detec¸c˜ao Labial

´ Fluxo Optico

Redes Neurais Artificiais

PCA

Taxa de Acertos

Figura: Proposta do Sistema de Reconhecimento

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

6 / 29

Toolbox de Vis˜ao Computacional

Sistema de ferramentas de Vis˜ao Computacional do MATLAB. Fornece algoritmos, fun¸c˜ oes e aplicativos para simula¸c˜ao de projetos de vis˜ao computacional e processamento de v´ıdeo. Detec¸c˜ao de objetos. Extra¸c˜ao de caracter´ısticas.

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

7 / 29

´ Fluxo Optico - Horn-Schunck

Vantagens suaviza¸c˜ao do fluxo; precis˜ao no c´alculo das derivadas temporais, utilizando mais de dois frames.

Desvantagem m´etodo iterativo: lento.

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

8 / 29

´ Fluxo Optico - Lucas-Kanade

Vantagens c´alculo r´apido e f´acil; precis˜ao no c´alculo das derivadas temporais.

Desvantagem erros nos limites da imagem.

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

9 / 29

An´alise de Componentes Principais

PCA (Principal Component Analysis). ´ uma formula¸c˜ao matem´atica usada na redu¸c˜ao da dimens˜ao de dados. E Permite encontrar padr˜ oes nos dados podendo comprimi-los sem muita perda de informa¸c˜ao. Utilizado em: compress˜ao de imagens; representa¸c˜ao dos dados;

Reduz o custo computacional em certos processamentos, como o reconhecimento de padr˜ oes.

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

10 / 29

Metodologia

Captura do V´ıdeo

Segmenta¸c˜ao Temporal

Banco de Dados

Detec¸c˜ao da ROI

´ Fluxo Optico

Limiariza¸c˜ao

Normaliza¸c˜ao dos Frames

PCA

Classifica¸c˜ao RNA

Resultados do Reconhecimento

Figura: Metodologia

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

11 / 29

Captura das Imagens

Cˆamera de 14 Megapixels; formato MOV; Modo de grava¸c˜ao na resolu¸c˜ao 640x480 pixels 30 frames/segundos

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

12 / 29

Segmenta¸c˜ao Temporal

Software de edi¸c˜ao de v´ıdeo, Sony Vegas. Identifica¸c˜ao do in´ıcio e fim de cada palavra. Convers˜ao para o formato MPEG-4, resolu¸c˜ao 240x320 pixels. MPEG-4 possui alta taxa de compress˜ao e elevada qualidade.

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

13 / 29

Banco de Dados 200 amostras de fala dos d´ıgitos de 0 a 9; 20 grava¸c˜oes para cada d´ıgito.

Figura: Estrutura do Banco de Dados

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

14 / 29

Detec¸c˜ao da Regi˜ao de Interesse - ROI Detec¸c˜ao das informa¸c˜ oes lingu´ısticas relevantes; Utiliza a fun¸c˜ao CascadeObjectDetector ; Recebe como parˆametro a string “Mouth”;

Figura: Detec¸c˜ao da Boca

O Banco de Dados ´e atualizado com os novos v´ıdeos; Cada palavra ´e composta por um v´ıdeo de 10 frames (Ap´os a segmenta¸c˜ao temporal). Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

15 / 29

´ C´alculo do Fluxo Optico

Foram utilizadas as duas t´ecnicas, Horn-Schunck e Lucas-Kanade; O Banco de Dados foi atualizado com as matrizes resultantes do fluxo ´optico; Os valores possuem a forma u + jv ; Foi considerado o m´odulo quadr´atico desses valores; Todas as matrizes foram normalizadas, neste caso, todas possuem a dimens˜ao 37x61 pixels.

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

16 / 29

´ C´alculo do Fluxo Optico

Compara¸c˜ao entre HS e LK Exemplo do fluxo ´optico entre dois frames do d´ıgito “Seis”.

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

17 / 29

´ Fluxo Optico - Horn-Schunck

´ Figura: Fluxo Optico com Horn-Schunck

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

18 / 29

´ Fluxo Optico - Lucas-Kanade

´ Figura: Fluxo Optico com Lucas-Kanade Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

19 / 29

´ C´alculo do Fluxo Optico - Limiariza¸c˜ao

As informa¸c˜oes mais importantes do fluxo est˜ao na regi˜ao que contorna os l´abios, sendo essa a que possui maior magnitude de deslocamento; Em algumas regi˜oes existem deslocamentos que possuem magnitude da ordem de 10−3 a 10−8 ; Um fun¸c˜ao de limiar foi aplicada no Banco de Dados, eliminando todos os valores inferiores a 10−3 .

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

20 / 29

Extra¸c˜ao das Componentes Principais - PCA Obten¸c˜ao das matrizes com as componentes principais;

Figura: Composi¸c˜ao da matriz de componentes principais para uma palavra. Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

21 / 29

Extra¸c˜ao das Componentes Principais - PCA Uma palavra ser´a composta por 10 frames; Esses frames possuem as informa¸c˜ oes mais importantes da extra¸c˜ao.

Figura: Percentual das componentes principais extra´ıdas da primeira coluna de cada frame do d´ıgito “Nove”. Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

22 / 29

Extra¸c˜ao das Componentes Principais - PCA As matrizes referente a cada d´ıgito foram transformadas em vetores linha para ent˜ao serem classificadas na Rede Neural.

Figura: Banco de Dados atualizado ap´ os aplica¸c˜ao do PCA.

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

23 / 29

Classifica¸c˜ao e Reconhecimento

Rede Neural Perceptron Multi-Camadas com algoritmo backpropagation e aprendizagem supervisionada; fun¸c˜ao feedforwardnet do MATLAB; uso de 10 e 20 neurˆonios por camadas ocultas; fun¸c˜ao de treinamento: trainlm, um dos mais r´apidos algoritmos backpropagation e altamente recomendada em redes supervisionadas, embora exija maior custo computacional;

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

24 / 29

Classifica¸c˜ao e Reconhecimento Constru¸c˜ao dos vetores de entrada da Rede; Cada palavra ´e um vetor 1x370.

Figura: Estrutura dos vetores inseridos na Rede. Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

25 / 29

Resultados

As simula¸c˜oes foram realizadas utilizando 75% dos dados para treinamento e 25% para testes. Utilizou-se o parˆametro trainlm, uma vez que com este, obteve-se os melhores resultados; Durante o treinamento dos dados foram realizadas 20 itera¸c˜oes para cada configura¸c˜ao da rede; Por exemplo: para a configura¸c˜ao apresentada, o treinamento da rede foi realizado 20 vezes usando a fun¸c˜ao trainlm; Isso foi necess´ario para ajustar os pesos, pois os mesmos, s˜ao inicializados aleatoriamente e a rede pode convergir para m´ınimos locais diferentes.

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

26 / 29

Resultados Tabela: Taxa de Acertos na sa´ıda da Rede (Testes) - (em %)

zero um dois trˆes quatro cinco seis sete oito nove Geral

Horn-Schunck (HS) 10 neurˆonios 20 neurˆ onios 80,0 68,0 91,0 92,0 58,0 60,0 60,0 57,0 82,0 83,0 90,0 90,0 59,0 57,0 80,0 78,0 85,0 91,0 85,0 82,0 77,0 76,0

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

Lucas-Kanade (LK) 10 neurˆ onios 20 neurˆonios 81,0 77,0 92,0 94,0 68,0 60,0 55,0 44,0 86,0 85,0 92,0 87,0 55,0 54,0 78,0 78,0 89,0 83,0 92,0 86,0 79,0 75,0 03 de Setembro de 2015

27 / 29

Considera¸co˜es Finais Foi desenvolvido um sistema de reconhecimento de fala atrav´es do rastreamento dos movimentos dos l´abios a partir de um v´ıdeo utilizando a an´alise de fluxo ´optico; Os resultados obtidos demonstraram experimentalmente um sistema capaz de funcionar em ambientes ruidosos; N˜ao houve discrepˆancias nos resultados, comparando as t´ecnicas de fluxo ´optico; Para trabalhos futuros, ´e interessante verificar: a utiliza¸c˜ao de outros m´etodos de extra¸c˜ao de caracter´ısticas mais eficazes do que as apresentadas; a utiliza¸c˜ao de outro classificador de padr˜ oes, como: Modelos Ocultos de Markov; a utiliza¸c˜ao de outra plataforma de desenvolvimento com bibliotecas mais completas, como o OpenCV.

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

28 / 29

Obrigado!

Thiago Ferraz, Gustavo Fernandes (UFSJ)

SBrT 2015

03 de Setembro de 2015

29 / 29

Lihat lebih banyak...

Reconhecimento de Palavras Isoladas Utilizando Fluxó Optico e Redes Neurais Artificiais através de Informações Visuais

Descrição do Produto

Comentários