Luz estructurada aplicada al reconocimiento de objetos 3D

Share Embed


Descrição do Produto

LUZ ESTRUCTURADA APLICADA AL RECONOCIMIENTO DE OBJETOS 3D a

a

a

a

a

V. Calzada , M. Ornelas , H. J. Puga , R. Santiago , J. M. Carpio , a

Instituto Tecnológico de León, León, Gto., [email protected], [email protected], [email protected], [email protected]

RESUMEN En la actualidad, existen herramientas computacionales para realizar reconocimiento de objetos mediante el análisis de imágenes bidimensionales, técnicas abordadas por una línea de estudio denominada Visión por Computadora. Por otro lado, sabemos de los procesos de reconstrucción tridimensional, que existe información en las líneas de luz láser proyectadas sobre superficies de objetos. Este trabajo propone un método de análisis de la deformación de esas líneas de luz láser, para realizar reconocimiento de objetos, sin necesidad de una reconstrucción tridimensional. El proceso de reconocimiento se realizó mediante el uso de clasificadores supervizados, tales como K-Nearest Neighbor y Naïve Bayes, así como el uso de una red neuronal artificial con su entrenamiento por backpropagation. Para todos los algoritmos implementados se llegó a un porcentaje de reconocimiento superior al 89%. 1. INTRODUCCIÓN El ser humano es capaz de reconocer y clasificar objetos abstrayendo información de su entorno a través de los sentidos, principalmente la visión. En la actualidad, existen una gran cantidad de técnicas computacionales para realizar reconocimiento mediante el análisis de imágenes bidimensionales, técnicas abordadas por una rama de estudio llamada visión por computadora, cuyo objetivo es obtener información de las imágenes para realizar el proceso de reconocimiento (Brown, 2005; González, 2002; Rothganger, 2003; Samadzadegana, 2005; Wanga, 2013). Este trabajo propone un método para reconocer objetos a partir del análisis de la deformación de una línea vertical de luz láser (luz estructurada) proyectada sobre un objeto en rotación, que permita generar una representación computacional basada en descriptores de forma para realizar el proceso de reconocimiento de objetos sin necesidad de una reconstrucción tridimensional de los mismos. El presente artículo se encuentra organizado de la siguiente manera: en la segunda sección se exponen los conceptos teóricos y las herramientas utilizadas durante el desarrollo de la investigación, en la tercera sección se muestra el proceso y desarrollo utilizado, en la cuarta sección los resultados obtenidos y para finalizar, en la quinta sección las conclusiones. 2. TEORÍA El objetivo de la visión por computadora es modelar los procesos de percepción visual en los seres vivos y generar programas que permitan simular estas capacidades visuales por medio de una computadora, a través de imágenes digitales. A continuación se muestran algunos conceptos teóricos usados en este trabajo.

1

2.1. Segmentación de imágenes El objetivo de la segmentación es simplificar y/o cambiar la representación de una imagen en otra más significativa y más fácil de analizar. Otsu es un método de segmentación, cuya finalidad es calcular el valor umbral para realizar la binarización, de forma que la dispersión de la distribución de niveles de gris dentro de cada segmento sea lo más pequeña posible, pero al mismo tiempo sea lo más alta posible entre segmentos diferentes (Otsu, 1975). 2.2. Caracterización de imágenes El objetivo de la caracterización es encontrar una representación cuantitativa de una imagen, que sea analizable a través de una computadora (Sossa, 2002). Los descriptores utilizados en esta etapa son los siguientes: Momentos invariantes de Hu Hu definió 7 momentos capaces de medir la dispersión de pixeles en una imagen digital. Estos momentos se mantienen invariantes ante rotaciones, traslaciones y cambios de escalas en los objetos representados por regiones binarias en una imagen (Hu, 1962). Compacidades La compacidad es un parámetro cuantitativo de la forma y se calcula mediante la interacción entre el área y perímetro de una imagen digital (Bibriesca, 1997). Las medidas de compacidad empleadas en este trabajo son: compacidad clásica, compacidad discreta normalizada, factor E, factor E normalizado y peura. 2.3 Enfoques de Reconocimiento de patrones El reconocimiento de patrones es la asignación de una etiqueta a un determinado vector de entrada. Un ejemplo de reconocimiento de patrones es la clasificación, que pretende asignar cada vector de entrada a uno de un conjunto dado de clases. Para realizar los procesos de clasificación existen diferentes algoritmos, como K-Nearest Neighbor, Naïve Bayes y las redes neuronales artificiales (Friedman, 1999). 3. DESARROLLO EXPERIMENTAL Las ocho clases de objetos utilizadas para realizar los procesos de caracterización y reconocimiento son botellas, figurillas (porcelana), huevos, manzanas, piedras, plátanos, tazas y vasos. Cada clase está formada por un conjunto de 15 objetos de diferentes tamaños y formas, dando una población total de 120 objetos. 3.1. Captura de imágenes Este proceso consiste en la adquisición, mediante una cámara CCD, de las imágenes de líneas de luz láser proyectadas sobre los objetos de estudio. Para ello se realiza un sistema de triangulación (Hahn, 2007) en el que interactúan el objeto, el láser y la cámara. En la Fig. 1, se muestra el diagrama del sistema implementado.

2

Fig. 1. Diagrama del sistema de adquisición de imágenes

En este proceso, se realiza la proyección de un haz de luz láser sobre el objeto colocado en una base giratoria; el barrido de la línea láser sobre el cuerpo se efectúa rotando 360º la base. Dada la proyección de la luz, se realiza una captura de la línea cada 30º, obteniendo un conjunto de 12 imágenes por objeto en cada barrido. En total se realizó el mismo barrido a los 120 objetos, dando un total de 1440 imágenes para procesar. En la Fig. 2, se muestran imágenes capturadas de líneas de luz proyectadas sobre objetos de diferentes clases.

a)

b)

c)

d)

e)

f)

g)

h)

Fig. 2. Imágenes representativas de la línea de luz proyectada sobre objetos de cada clase: a) Botella, b) Figurilla, c) Huevo, d) Manzana, e) Piedra, f) Plátano, g) Taza, h) Vaso

3.2. Pre-procesamiento de imágenes El siguiente paso consiste en aplicar un suavizado gaussiano, con la finalidad de eliminar pixeles ruidosos que puedan alterar la continuidad de la línea capturada. Ya que las líneas de luz láser son de color blanco en las imágenes (Fig. 2), por preferencia se invierte la imagen para facilitar el procesamiento en los algoritmos de caracterización implementados. Este proceso se muestra en la Fig. 3.

a)

b)

c)

Fig. 3. Etapa de pre-procesamiento de imágenes: a) Imagen Original, b) Imagen tratada con un filtro Gaussiano, c) Imagen invertida o negativo

3

3.3. Segmentación La segmentación se realiza mediante la binarización por el método de Otsu. A pesar de que este algoritmo es básico, para las imágenes procesadas, éste realiza una correcta segmentación entre la línea de luz láser y el fondo. En la Fig. 4, se muestra el resultado de dicho método .

Fig. 4. Línea segmentada mediante el método de Otsu

Para el conjunto de imágenes tratadas, los umbrales calculados por Otsu oscilan entre 160 y 170, en un rango de 0 a 255 niveles de gris. 3.4. Caracterización Este proceso consiste en el cálculo de los descriptores que representan las líneas de luz de una manera vectorial (patrón) para el posterior análisis mediante técnicas de Reconocimiento de Patrones. El vector para una línea, está conformado por 12 descriptores d (siete momentos invariantes de Hu y cinco medidas de compacidad), en donde n es el índice del descriptor. Estos descriptores fueron seleccionados ya que cuantifican la dispersión de los pixeles en una imagen, siendo invariantes a rotaciones, traslaciones y escalamientos. Así, para la primera línea (l ) perteneciente a la imagen en la posición inicial (0º) de cada objeto, se tiene un vector similar al siguiente: (1) l = [d , d , d , … , d ] El vector característico l que representa la línea uno, es de dimensión ℝ . Para obtener el vector caracetístico de todo objeto (vector objeto Vo), se concatenan los vectores de las 12 líneas, como se muestra en la expresión 2: Vo = l + l + l + ⋯ + l

(2)

En total se tienen un conjunto de 120 vectores objeto (15 por clase), cada uno de dimensión ℝ , y todos se almacenan en una base de datos, en donde a cada vector se le asigna una etiqueta de la clase a la que pertenece. 3.5. Reconocimiento Una vez almacenados todos los vectores objeto en una base de datos, se prosigue a realizar el proceso de reconocimiento mediante el uso de diferentes algoritmos como K-Nearest Neighbor (KNN), Naïve Bayes (NB) y la red neuronal artificial (RNA) con su entrenamiento por backpropagation (Rojas, 1996). El entrenamiento en todos los algoritmos se realiza seleccionando aleatoriamente un porcentaje de muestras del 33%, 53% y 63%, el resto de las muestras es utilizado para la recuperación. El proceso de clasificación se realiza 100 iteraciones con KNN y NB, con la finalidad de verificar la estabilidad de la clasificación. En el caso de la RNA se realiza el entrenamiento sólo una vez, con los porcentajes de muestras para entrenamiento mencionados anteriormente.

4

4. RESULTADOS Después de realizar diversas pruebas con los algoritmos de reconocimiento de patrones, se establecieron los mejores parámetros en cada uno de éstos: para KNN K = 1, para la RNA α = 0.6, 1 capa con 144 entradas, 1 capa oculta con 144 neuronas y 1 capa de salida con 8 neuronas. En la Tabla 1, se muestran los promedios de exactitud en la clasificación utilizando diferentes porcentajes de muestra para entrenamiento. Tabla 1. Porcentajes de exactitud de diferentes algoritmos de reconocimiento de patrones, aplicados a la base de datos. % de muestras para entrenamiento 33% 53% 63%

KNN 62,53% 75,32% 91,95%

NB 80.06% 89.71% 92.87%

RNA 84.66% 85.05% 89.79%

5. CONCLUSIONES En este trabajo se muestra que es posible reconocer objetos 3D bajo rotación a través del análisis de la deformación de las líneas de luz, sin necesidad de realizar una reconstrucción tridimensional. Para esta serie de pruebas de reconocimiento de patrones, todos los algoritmos implementados obtuvieron un porcentaje de exactitud promedio superior al 89% para un porcentaje de muestras de entrenamiento del 63%, de los cuales, el clasificador Naïve Bayes fue el de mejor desempeño, obteniendo una exactitud promedio de 92.87%. BIBLIOGRAFÍA Bibriesca E. (1997), “Measuring 2-D Shape Compactness Using the contact perimeter”, Computer Math Applic. Vol. 33, No. 11, pages 1-9. Brown M. (2005), “Unsupervised 3D object recognition and reconstruction in unordered datasets”, 3D Digital Imaging and Modeling, Fifth International Conference on, pages 56-63. Friedman M. and Kandel A. (1999), “Introduction to pattern recognition”, World Scientific, Volume: 32, pages 65–106. Gonzalez R. and Woods R. (2002), “Digital image processing”, 2nd edition, Prentice Hall, pages 643-750. Hu M. K. (1962), “Visual pattern recognition by moment invariants”, IRE Transactions on information theory, 8(2) pages 179–187. Otsu N. (1975), “A threshold selection method from gray-level histograms. Automatica”, 11:285–296. Rojas R. (1996), “Neural Networks: A Systematic Introduction”, Springer, pages 151-155. Rothganger F. (2003), “3D object modeling and recognition using affine-invariant patches and multi-view spatial constraints”, Computer Vision and Pattern Recognition, Vol. 2, pages II- 272-7. Samadzadegana F., Azizia A., Hahnb M., Lucasa C. (2005), “Automatic 3D object recognition and reconstruction based on neuro-fuzzy modeling”, ISPRS Journal of Photogrammetry and Remote Sensing, Volume 59, Issue 5, Pages 255–277. Sossa H. (2002), “Rasgos descriptores para el reconocimiento de objetos”, Ciencia de la computación, CIC IPN, pages 10– 29, México. Wanga Y., Lia Y., Zhoua J., Zhanga J., Fanga J. (2013), “A non-encoding structured light approach with infrared illumination for 3D large field shape measurement”, Optics and Laser Technology, Vol. 49, pages 28-32.

5

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.