Reconhecimento de Palavras Isoladas Utilizando Fluxó Optico e Redes Neurais Artificiais através de Informações Visuais
Descrição do Produto
Reconhecimento de Palavras Isoladas Utilizando Fluxo ´ Optico e Redes Neurais Artificiais atrav´es de Informa¸co˜es Visuais Thiago V. D. Ferraz1
Dr. Gustavo F. Rodrigues2
1,2 Departamento
das Engenharias de Telecomunica¸c˜ oes e Mecatrˆ onica Universidade Federal de S˜ ao Jo˜ ao del-Rei
XXXIII Simp´ osio Brasileiro de Telecomunica¸c˜oes Juiz de Fora - MG
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
1 / 29
Roteiro 1
Introdu¸c˜ao
2
Objetivos
3
Toolbox de Vis˜ao Computacional
4
´ Fluxo Optico
5
An´alise de Componentes Principais
6
Metodologia
7
Resultados
8
Considera¸c˜oes Finais
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
2 / 29
Introdu¸c˜ao
Sistemas de reconhecimento de fala que utilizam somente informa¸c˜oes ac´ usticas possuem limita¸c˜ oes em seu desempenho, como: falta de robustez devido ao ru´ıdo. Motiva¸c˜ ao Diversos estudos tˆem demonstrado que a combina¸c˜ao de informa¸c˜oes visuais em sistemas reconhecedores de fala pode melhorar significativamente sua robustez. Surge o Reconhecimento de fala audiovisual (AVSR, Audio Visual Speech Recognition).
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
3 / 29
Introdu¸c˜ao
A partir do AVSR, surge uma nova abordagem de estudos que se mostra promissor. Reconhecedor de fala que utiliza caracter´ısticas de natureza n˜ ao ac´ ustica. (VSR, Visual Speech Recognition). Principal vantagem: imune ` as pertuba¸c˜ oes no canal ac´ ustico.
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
4 / 29
Objetivos
Implementa¸c˜ao de um sistema VSR utilizando como plataforma de desenvolvimento o MATLAB (Matrix Laboratory ). Combina¸c˜ao de duas t´ecnicas extratoras caracter´ısticas visuais. ´ Fluxo Optico (Optical Flow ). An´alise de Componentes Principais (PCA, Principal Component Analysis). Obter reconhecimento dos d´ıgitos de 0 a 9, atrav´es do classificador de dados, Redes Neurais Artificiais (ANNs, Artificial Neural Networks).
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
5 / 29
Sistema Proposto
Dados Visuais dos D´ıgitos (V´ıdeo)
Detec¸c˜ao Labial
´ Fluxo Optico
Redes Neurais Artificiais
PCA
Taxa de Acertos
Figura: Proposta do Sistema de Reconhecimento
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
6 / 29
Toolbox de Vis˜ao Computacional
Sistema de ferramentas de Vis˜ao Computacional do MATLAB. Fornece algoritmos, fun¸c˜ oes e aplicativos para simula¸c˜ao de projetos de vis˜ao computacional e processamento de v´ıdeo. Detec¸c˜ao de objetos. Extra¸c˜ao de caracter´ısticas.
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
7 / 29
´ Fluxo Optico - Horn-Schunck
Vantagens suaviza¸c˜ao do fluxo; precis˜ao no c´alculo das derivadas temporais, utilizando mais de dois frames.
Desvantagem m´etodo iterativo: lento.
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
8 / 29
´ Fluxo Optico - Lucas-Kanade
Vantagens c´alculo r´apido e f´acil; precis˜ao no c´alculo das derivadas temporais.
Desvantagem erros nos limites da imagem.
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
9 / 29
An´alise de Componentes Principais
PCA (Principal Component Analysis). ´ uma formula¸c˜ao matem´atica usada na redu¸c˜ao da dimens˜ao de dados. E Permite encontrar padr˜ oes nos dados podendo comprimi-los sem muita perda de informa¸c˜ao. Utilizado em: compress˜ao de imagens; representa¸c˜ao dos dados;
Reduz o custo computacional em certos processamentos, como o reconhecimento de padr˜ oes.
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
10 / 29
Metodologia
Captura do V´ıdeo
Segmenta¸c˜ao Temporal
Banco de Dados
Detec¸c˜ao da ROI
´ Fluxo Optico
Limiariza¸c˜ao
Normaliza¸c˜ao dos Frames
PCA
Classifica¸c˜ao RNA
Resultados do Reconhecimento
Figura: Metodologia
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
11 / 29
Captura das Imagens
Cˆamera de 14 Megapixels; formato MOV; Modo de grava¸c˜ao na resolu¸c˜ao 640x480 pixels 30 frames/segundos
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
12 / 29
Segmenta¸c˜ao Temporal
Software de edi¸c˜ao de v´ıdeo, Sony Vegas. Identifica¸c˜ao do in´ıcio e fim de cada palavra. Convers˜ao para o formato MPEG-4, resolu¸c˜ao 240x320 pixels. MPEG-4 possui alta taxa de compress˜ao e elevada qualidade.
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
13 / 29
Banco de Dados 200 amostras de fala dos d´ıgitos de 0 a 9; 20 grava¸c˜oes para cada d´ıgito.
Figura: Estrutura do Banco de Dados
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
14 / 29
Detec¸c˜ao da Regi˜ao de Interesse - ROI Detec¸c˜ao das informa¸c˜ oes lingu´ısticas relevantes; Utiliza a fun¸c˜ao CascadeObjectDetector ; Recebe como parˆametro a string “Mouth”;
Figura: Detec¸c˜ao da Boca
O Banco de Dados ´e atualizado com os novos v´ıdeos; Cada palavra ´e composta por um v´ıdeo de 10 frames (Ap´os a segmenta¸c˜ao temporal). Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
15 / 29
´ C´alculo do Fluxo Optico
Foram utilizadas as duas t´ecnicas, Horn-Schunck e Lucas-Kanade; O Banco de Dados foi atualizado com as matrizes resultantes do fluxo ´optico; Os valores possuem a forma u + jv ; Foi considerado o m´odulo quadr´atico desses valores; Todas as matrizes foram normalizadas, neste caso, todas possuem a dimens˜ao 37x61 pixels.
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
16 / 29
´ C´alculo do Fluxo Optico
Compara¸c˜ao entre HS e LK Exemplo do fluxo ´optico entre dois frames do d´ıgito “Seis”.
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
17 / 29
´ Fluxo Optico - Horn-Schunck
´ Figura: Fluxo Optico com Horn-Schunck
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
18 / 29
´ Fluxo Optico - Lucas-Kanade
´ Figura: Fluxo Optico com Lucas-Kanade Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
19 / 29
´ C´alculo do Fluxo Optico - Limiariza¸c˜ao
As informa¸c˜oes mais importantes do fluxo est˜ao na regi˜ao que contorna os l´abios, sendo essa a que possui maior magnitude de deslocamento; Em algumas regi˜oes existem deslocamentos que possuem magnitude da ordem de 10−3 a 10−8 ; Um fun¸c˜ao de limiar foi aplicada no Banco de Dados, eliminando todos os valores inferiores a 10−3 .
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
20 / 29
Extra¸c˜ao das Componentes Principais - PCA Obten¸c˜ao das matrizes com as componentes principais;
Figura: Composi¸c˜ao da matriz de componentes principais para uma palavra. Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
21 / 29
Extra¸c˜ao das Componentes Principais - PCA Uma palavra ser´a composta por 10 frames; Esses frames possuem as informa¸c˜ oes mais importantes da extra¸c˜ao.
Figura: Percentual das componentes principais extra´ıdas da primeira coluna de cada frame do d´ıgito “Nove”. Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
22 / 29
Extra¸c˜ao das Componentes Principais - PCA As matrizes referente a cada d´ıgito foram transformadas em vetores linha para ent˜ao serem classificadas na Rede Neural.
Figura: Banco de Dados atualizado ap´ os aplica¸c˜ao do PCA.
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
23 / 29
Classifica¸c˜ao e Reconhecimento
Rede Neural Perceptron Multi-Camadas com algoritmo backpropagation e aprendizagem supervisionada; fun¸c˜ao feedforwardnet do MATLAB; uso de 10 e 20 neurˆonios por camadas ocultas; fun¸c˜ao de treinamento: trainlm, um dos mais r´apidos algoritmos backpropagation e altamente recomendada em redes supervisionadas, embora exija maior custo computacional;
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
24 / 29
Classifica¸c˜ao e Reconhecimento Constru¸c˜ao dos vetores de entrada da Rede; Cada palavra ´e um vetor 1x370.
Figura: Estrutura dos vetores inseridos na Rede. Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
25 / 29
Resultados
As simula¸c˜oes foram realizadas utilizando 75% dos dados para treinamento e 25% para testes. Utilizou-se o parˆametro trainlm, uma vez que com este, obteve-se os melhores resultados; Durante o treinamento dos dados foram realizadas 20 itera¸c˜oes para cada configura¸c˜ao da rede; Por exemplo: para a configura¸c˜ao apresentada, o treinamento da rede foi realizado 20 vezes usando a fun¸c˜ao trainlm; Isso foi necess´ario para ajustar os pesos, pois os mesmos, s˜ao inicializados aleatoriamente e a rede pode convergir para m´ınimos locais diferentes.
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
26 / 29
Resultados Tabela: Taxa de Acertos na sa´ıda da Rede (Testes) - (em %)
zero um dois trˆes quatro cinco seis sete oito nove Geral
Horn-Schunck (HS) 10 neurˆonios 20 neurˆ onios 80,0 68,0 91,0 92,0 58,0 60,0 60,0 57,0 82,0 83,0 90,0 90,0 59,0 57,0 80,0 78,0 85,0 91,0 85,0 82,0 77,0 76,0
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
Lucas-Kanade (LK) 10 neurˆ onios 20 neurˆonios 81,0 77,0 92,0 94,0 68,0 60,0 55,0 44,0 86,0 85,0 92,0 87,0 55,0 54,0 78,0 78,0 89,0 83,0 92,0 86,0 79,0 75,0 03 de Setembro de 2015
27 / 29
Considera¸co˜es Finais Foi desenvolvido um sistema de reconhecimento de fala atrav´es do rastreamento dos movimentos dos l´abios a partir de um v´ıdeo utilizando a an´alise de fluxo ´optico; Os resultados obtidos demonstraram experimentalmente um sistema capaz de funcionar em ambientes ruidosos; N˜ao houve discrepˆancias nos resultados, comparando as t´ecnicas de fluxo ´optico; Para trabalhos futuros, ´e interessante verificar: a utiliza¸c˜ao de outros m´etodos de extra¸c˜ao de caracter´ısticas mais eficazes do que as apresentadas; a utiliza¸c˜ao de outro classificador de padr˜ oes, como: Modelos Ocultos de Markov; a utiliza¸c˜ao de outra plataforma de desenvolvimento com bibliotecas mais completas, como o OpenCV.
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
28 / 29
Obrigado!
Thiago Ferraz, Gustavo Fernandes (UFSJ)
SBrT 2015
03 de Setembro de 2015
29 / 29
Lihat lebih banyak...
Comentários