Abordagens para Classificação de Vídeos

Share Embed


Descrição do Produto

Abordagens para Classificação Automática de Vídeos

! ! !

Marcos Teixeira Universidade Federal de Mato Grosso do Sul Campo Grande, MS [email protected]

1 - INTRODUÇÃO

!

A grande quantidade de vídeos disponíveis na internet tornou viável a elaboração e estudo de formas de organização e extração de informações para diversos fins, tais como otimização de busca(indexação) e análise semântica. Uma tarefa importante oriunda dessa demanda é a classificação ou, no nosso caso, categorização de vídeos. Os algoritmos de classificação de vídeos tem como tarefa, dado um vídeo qualquer, encontrar dentro do conjunto de classes existentes qual a que mais descreve aquele vídeo e.g. dado um vídeo contendo o replay de um gol decisivo de uma final de copa do mundo, o algoritmo deverá devolver como saída o rótulo 'vídeo de esporte').! Existe uma diversidade de abordagens que tem sido adotadas para resolver problemas de classificação de vídeos e cada uma delas pode ser dividida em 3 tipos: baseadas em aúdio, baseadas em texto e baseadas em visualização. Esta revisão tem foco apenas em abordagens baseadas em visualização.!

! 2 - REVISÃO BIBLIOGRÁFICA !

As abordagens que trabalham com as informações visuais que os vídeos fornecem, atualmente estão entre as que atingiram o estado da arte[11][7][12][13][9] tanto em tarefas de classificação de vídeos como para reconhecimento de imagens, tradução de textos, segmentação, etc. Isso é uma grande motivação pela escolha do emprego desta abordagem de estudo, além de estar ligado ao fato que os seres humanos recebem muita informação do mundo através de seu senso de visão[1].! Nessas abordagens, os chamados features são extraídos por frame, ou seja, tomando o vídeo como sendo um conjunto de imagens sequenciais, a cada imagem processada o algoritmo realiza seu trabalho para encontrar as features principais desta

imagem. Uma dificuldade nisto é a enorme quantidade de dados potencial. Este problema pode ser aliviado usando os chamados keyframes para representar conjuntos de frames significativos ou com usar técnicas de redução de dimensionalidade, tais como a aplicação de formas trans wavelet[3].! Uma feature muito utilizada ao longo do tempo são os video descriptors, tais como SIFT[5], que consistem em extrair características estáticas que descrevem as informações espaciais importantes das imagens e vídeos. No entanto existem casos em que a noção de movimentação no vídeo é primordial para categorização de seu conteúdo, por isso uma técnica muito utilizada é a de dense trajectories[4], que segue os caminhos densamente amostrados de frames locais ao longo do tempo e calcula várias características semelhantes com base nestas trajetórias. Notou-se que esses descritores de vídeo espaço-temporal só capturam padrões de movimento locais dentro de um período muito curto, visto que descritores baseados em quantificação populares como as bag-of-words destroem completamente as informações de ordem temporal dos descritores (Wu, Zuxuan, et al, 2015).! No entanto, surgiu-se uma nova forma de resolução de problemas de classificação de vídeos capaz de fazer o trabalho sem o uso dessas features pré-fabricadas, apenas tendo como entrada um vídeo, aprendendo as features principais deste vídeo automáticamente e efetuando a classificação utilizando algum classificador [8], seja diretamente ou através de alguma forma de "fusão"[7][3][8] das respostas dadas em cada camada de saída de uma rede neural, por exemplo. Estes "competidores" na verdade são oriundos da área denominada deep learning, que entre as arquiteturas mais promissoras para este tipo de problemas se destacaram as CNNs(Convolutional Neural Networks), apresentando sucesso em diversos problemas como classificação de imagens, localização de objetos baseada em imagem, reconhecimento de voz , etc. ! Basicamente, os passos de uma abordagem normal para classificar um vídeo são: Primeiro, extrair features locais que representem a cena que está sendo representada[5]. Em seguida, as features são generalizadas para uma descrição a nível de vídeo. Por último, um classificador (e.g. SVM) é treinado para distinguir entre as classes de interesse qual a de maior semelhança. Segundo Karparthy(2014), as CNNs substituem estas três fases com uma única rede neural que é treinada end-to-end a partir de valores de pixels brutos para classificadores de saídas, onde a estrutura espacial das imagens é explicitamente aproveitada para a regularização através da conectividade restrita entre camadas (filtros locais), a partilha de parâmetros (convolução) e construção de neurônios de invariância locais especiais (max pooling).!

!

Karparthy et al.(2014) extendeu as CNNs para trabalharem sobre a dimensão temporal pelo empilhamento de frames ao longo do tempo. Recentemente, Simonyan et al. [10] propôs uma abordagem de CNN de duas streams, que usa duas CNNs em frames estáticos e fluxos ópticos, respectivamente, para capturar informações espaciais e as informações de movimentação. Isso se concentra apenas no movimento de curto prazo que os fluxos ópticos são calculados em janelas de tempo muito curtos. !

!

No entanto, não basta apenas obter features espaciais ou até mesmo de movimentação [12][8], pois o ser humano naturalmente realiza a inferência de que um vídeo pertence a uma determinada categoria também baseado em informações temporais. Baseado nisso, uma Rede Neural Recorrente denominada LSTM(Long-Short Term Memory) por Sepp Hochreiter and Jürgen Schmidhuber(1997) vem sendo empregada para fazer uso das informações de frames passados (de longo/curto período) para criar uma representação interna dinâmica da cena e do ambiente[13].! !

Wu, Zuxuan, et al.(2015) apresentou um Framework que utiliza que utiliza duas

"streams" de CNNs para extrair primeiramente features espaciais e de movimentação em curto prazo(short-term) cujo resultado alimenta as entradas das LSTMs para obter as dependências temporais das features. Ng, Joe Yue-Hei, et al.(2015) apresenta uma comparação entre arquiteturas LSTM com Optical Flow e CNNs com Optical Flow, atingindo o estado da arte nos datasets Sports-1M e UFC-101 concluindo que o uso de Optical Flow apresenta benefício significativo apenas quando aliado a redes LSTM.!

Mnih, et. al.(2014) utiliza LSTM para selecionar, a cada passo, uma nova localização da imagem a ser focada para análise, visto o grande esforço computacional requirido pelas CNNs. Wu, Zuxuan, et al.(2015) apresenta um estudo baseado em [10] mas adicionando uma nova stream reponsável por explorar o espectro do áudio de um vídeo, denominando-se assim audio stream [16], o que foi crucial para o desempenho da rede, apresentando informações complementares as visuais obtidas pelas spatial e motion streams. A arquitetura apresenta-se com duas redes LSTM, acima da Motion CNN e outra acima da Spatial CNN, sendo que na audio stream não foi utilizada a rede LSTM. Sønderby, Søren Kaae, et al.(2015) adaptam um mecanismo de attention introduzido por Bahdanau et al. (2014) produzindo um estado oculto para cada posição de uma sequência de proteínas e utilizando uma attention function para para assinalar importancia para cada estado oculto.! ! Stollenga, Marijn F., et al. (2015) apresenta uma modificação das MD-LSTM(Multi-Dimensional Long-Short Term Memory) para abordagens que utilizam segmentação volumétrica de imagens em GPU's(Graphic Possessing Unit) introduzindo a PyraMiD-LSTM. Srivastava, et. al. (2015) usa uma estrutura LSTM Encoder-Decoder para aprender representações em vídeos, sendo que o Encoder é executado através de uma sequência de frames para chegar a uma

representação, que então é decodificada por meio de outro LSTM para produzir uma target sequence[19].!

!

3 - CONCLUSÃO

!

! Através dessa revisão pôde-se concluir que as principais técnicas empregadas atualmente para abordar o problema da classificação de vídeos devem englobar características espaciais, movimentação dos atores na cena e fazer uso de conhecimento passado, ainda que por um longo período, para realizar a predição de uma certa classe ao vídeo. Em contrapartida, o custo computacional para levar em conta todas essas caraterísticas pode ser alto, sendo necessário em alguns casos tornar-se paralelizável a computação. Consequentemente, notouse uma grande escassez de abordagens para predição de vídeos em tempo real. ! !

!

4 - REFERÊNCIAS

!

[1] Brezeale, Darin, and Diane J. Cook. "Automatic video classification: A survey of the literature." Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on 38.3 (2008): 416-430.! [3] Burrus, C. Sidney, Ramesh A. Gopinath, and Haitao Guo. "Introduction to wavelets and wavelet transforms: a primer." (1997).! [4] H. Wang and C. Schmid. Action recognition with improved trajectories. In ICCV, 2013.! [5] J. Liu, J. Luo, and M. Shah. Recognizing realistic actions from videos “in the wild”. In CVPR, 2009.! [6] D. G. Lowe. Distinctive image features from scale-invariant keypoints. IJCV, 2004! [7] Karpathy, Andrej, et al. "Large-scale video classification with convolutional neural networks." ! [8] Wu, Zuxuan, et al. "Modeling Spatial-Temporal Clues in a Hybrid Deep Learning Framework for Video Classification." arXiv preprint arXiv:1504.01561 (2015).! [9] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014! [10] K. Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. In Proc. NIPS, pages 568–576, Montreal, Canada, 2014.! [11] Zhou, Wensheng, Asha Vellaikal, and C. C. Kuo. "Rule-based video classification system for basketball video indexing." Proceedings of the 2000 ACM workshops on Multimedia. ACM, 2000.! Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. IEEE, 2014.! [12] Ng, Joe Yue-Hei, et al. "Beyond short snippets: Deep networks for video classification." arXiv preprint arXiv:1503.08909 (2015).! [13] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012!

[14] Gers, Felix A., Jürgen Schmidhuber, and Fred Cummins. "Learning to forget: Continual prediction with LSTM." Neural computation 12.10 (2000): 2451-2471.! [15] Mnih, Volodymyr, Nicolas Heess, and Alex Graves. "Recurrent models of visual attention." Advances in Neural Information Processing Systems. 2014.! [16] Wu, Zuxuan, et al. "Fusing Multi-Stream Deep Networks for Video Classification." arXiv preprint arXiv:1509.06086 (2015).! [17] Sønderby, Søren Kaae, et al. "Convolutional LSTM Networks for Subcellular Localization of Proteins." arXiv preprint arXiv:1503.01919 (2015).! [18] Stollenga, Marijn F., et al. "Parallel Multi-Dimensional LSTM, With Application to Fast Biomedical Volumetric Image Segmentation." arXiv preprint arXiv:1506.07452 (2015).! [19] Srivastava, Nitish, Elman Mansimov, and Ruslan Salakhutdinov. "Unsupervised learning of video representations using lstms." arXiv preprint arXiv:1502.04681 (2015).!

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.